黄学东(「专访微软黄学东」01%，02%与03%，语音识别军备竞赛中小数点差距有何意义)

来源：峰值财经发布时间：2023-05-04 浏览量：次

1新智元报道

达到人类水平，超越人类水平，人工智能研究领域的突破性进展。

以上赞誉被给予了微软最近的语音识别研究成果：其语音识别研究团队在黄学东的带领下，去年将语音识别的单词错误率降至5.9%，又在最近降至5.1%。

从研究层面来说，微软语音团队花了不到一年时间就实现了这个目标，的确是一个很了不起的突破。就像黄学东曾在微软博客上所说：

“去年10月，在我们的转录系统达到5.9％的错误率之后，其他研究人员也进行了自己的研究，采用了更多参与的多转录程序，将错误率降低至5.1%。这是一个新的行业里程碑，大大超过了去年实现的准确性。”

5.1%是一项了不起的研究成果

需要说明的是，黄学东院士这个“语音识别错误率低于5.1%”的成果是建立在Switchboard这个通用数据集上面的。按照黄学东的介绍，这是一个全球语音研究人员用了20多年的开放数据集，包括了大约2400个自然情形下的对话，甚至是各种年龄阶段、覆盖了美国主要的一些地方口语。因此，很多不同的技术公司与组织都喜欢在上面做语音方面的相关研究。

而根据黄学东的介绍，其带领的微软语音识别团队又为改进语音模型引入了 CNN-BLSTM（convolutional neural network combined with bidirectional long-short-term memory）。另外，他们在 frame/senone 和词语层面都使用了结合多个声学模型的预测的方法，通过使用整个对话过程来加强识别器的语言模型，以预测接下来可能发生的事情，使得模型有效地适应了对话的话题和语境。

同时，其团队也使用了最可扩展的深度学习软件Microsoft Cognitive Toolkit 2.1（CNTK），用于探索模型架构和优化模型的超参数。

当然，微软对云计算基础设施（特别是Azure GPU）的大量投资，也有助于提高其训练模型并测试新想法的有效性和速度。

不过，虽然5.1%虽然是黄学东口中“前所未有的成果”，但IBM也同样宣布自己测出过差不多的好成绩——5.5%的语音识别错误率（也是Switchboard数据集）。

IBM和微软两家公司在测试人能够达到什么样的错误率存在着一定的差异——IBM是通过4个不同团队不断听一句话讨论后得出的最好结果是5.1%，也就是“4个团队协同工作=5.1%”，而微软在去年测试一个团队人可达到的错误率是5.9%。

“从去年开始，微软机器达到的错误率为5.9%，而今年微软这个水平（5.1%）实际上就是超越了一群人的水平。如果让一个人来翻译，或者把错误率整出来，那绝对达不到5.1%，这是一群人联合攻关才能做到的水平。”

此外，黄学东也谈到，百度前人工智能科学家吴恩达曾提到的百度Deep Speech短语识别错误率降到 3.7%这个数字，其实与微软这个5.1%的对话式语音识别错误率是不一样的：

“你看，像我们这样交谈就是对话识别，因为用的词都比较开放，这个难度比单个的短语测试要难得多。”

尽管它有着全球开发人员多年来的技术积累，其仍然是一个有限数据的集合，主要用途就是用来做研究与测试。换言之，这个研究结果就是一个实验室中的“培养基”。如果将其“移植”到现实环境中，质量必然会遇到硬件设计架构与嘈杂自然环境的多重“降维打击”。

黄学东在演讲现场介绍了微软与哈曼合作的智能音箱，主打音质

譬如以最近被巨头们疯狂爱上的智能音箱为例，其“远场”应用需求与真实环境中存在的混响、多径反射会严重降低这种硬件拾取声音信号的质量，这对于后续的语音识别率而言可见意味着什么。

就像黄学东所说，用于研究发表的文章与现实的产品算法虽然不能完全割裂，但这完全是两个不一样的“系统”，他们仅是通过这种研究的发布，来了解究竟有没有更多新的技术，有没有今后微软的产品可以借鉴的东西。

而从微软现有的语音产品来看，Cortana在语音识别上的表现已经在诸多市面上的“语音助手”中非常拔尖了，而基于微软云Azure提供的与语音识别相关的多种商用认知服务也获得了客户的很多好评。只能说，这些产品应用的算法模型涉及到了黄学东团队的研究成果，但至于怎么用的，如果与产品对接，这些都是黄学东所说的商业机密。

因此，如果是基于这种Switchboard数据集的语音识别测试进行排名，黄学东认为微软完全可以排第一，而IBM也不错，可以排第二。

0.1%，0.2%，0.3%，这种小数点的差距究竟有何意义？

在一个月新智元前采访阿里巴巴AI实验室时，其专家曾对目前的“语音识别竞赛”有过这样一个评价：

现在尤其在语音识别，图象识别的领域，大家的识别率基本上都是那个小数点后一位或者小数点后两位的区别，这个区别可能并不意味着什么。

那么千分之一的差距，究竟有没有价值？大概可以这么说，研究肯定有，而对于“落地”，则是有限的借鉴性。

按照黄学东所说，从研究角度来说，这个意义十分重大，即便是0.1%的差距，无论是运算量还是时间，耗费都是巨大的：

“你知道0.1、0.2、0.3的差距要跑多少时间才会达到，错误率的计算应该按照相对错误率来看，5.9到5.1相对错误率应该是13%左右，相对错误率超过13%，统计上已经有重要意义了。”

但对于消费级产品与商业场景来说，这种准确率和错误率之于前者，黄学东认为完全是两码事儿：“还是我刚才的说法，这种公开性的测试，发表的文章，与产品的最终效果，是不一样的评判标准。”

从目前来看，大公司之间通过“语音识别军备竞赛”带来的差异性优势正在不断缩小，而现有的大多数硬件与智能服务的交互体验仍然有很大缺陷的原因，应该要归于在“语义识别”方面大家还在止步不前。

譬如黄学东在9月7日由中国工程院信息与电子工程学部主办、浪潮集团承办的首届人工智能计算大会(AI Computing Conference，简称AICC)的演讲中，在现场为我们演示了一个PowerPoint内置的实时翻译小工具。尽管黄学东院士的英文发音很标准，吐字清晰，但翻译出的中文还是会存在一些小错误。黄学东表示，其实际的翻译效果与专业的同声传译相比，还是有一定距离的，而这里面就与语义识别有更多关系：

“这个小工具的效果虽然没有达到专业水平，但是，很多时候大家在做PPT演示的时候完全听不懂英文怎么办，基本上你通过它的翻译可以知道80%的意思，即便它的精准性还没有达到很高。”

“而机器翻译肯定不是完全的语音识别，你看‘机器速记’的效果可能更好一些，但翻译就会比较生硬，它需要“读懂”词义才能更加准确，这是我们下一个要面临的巨大挑战。现在机器翻译与人的差距真的很大，是因为自然语言处理还远远没有达到人的水平。”

其实早在今年8月微软宣布这个成果时，黄学东就在文章末尾谈到了目前在机器语音研究领域面对的重大挑战仍然有很多，例如在嘈杂环境下较远的麦克风的语音识别，方言识别，或训练数据有限的特定说话风格或较少人使用的语言的语音识别，这些都仍未达到人类水平。

“我们在教计算机不仅是转录口语，而且要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语，是语音技术的下一个主要挑战。”

点击阅读原文可查看职位详情，期待你的加入~