科大讯飞智能语音的探索和突破

作者 | 雷峰网2021-12-23

在智能语音和人工智能产业中，技术革新很快，想要赢得领跑局面就必须从源头技术上保持领先。而保持领先的秘密是“甘坐十年冷板凳“的决心，是对企业科研人员反复实验，去穷尽每一种可能，推动技术上的微小改变的耐心，也是直面失败的恒心。

正如创立22年的科大讯飞在探索人工智能实现路径上的曲折，作为“年轻后浪“的熊世富在接下科大讯飞语音识别技术这个接力棒以来，失败也是他最常面对的事情。

1、不是天才

人工智能被很多人称之为改变未来的颠覆性技术，而深度学习则是加速人工智能发展的颠覆性创新。

2010年以前，语音识别的主流方式是使用高斯混合模型（GMM）来建模，虽然语音识别的错误率有效的降低了，但GMM在自然场景下却无法达到实用的级别。想要实现语音识别技术更广泛的商用，必须有新的突破。2010年，微软通过研究如何利用深层神经网络改善大词汇量语音识别，成功地使得大规模的语音识别得到突破性进展，而这一研究也改变了世界语音识别业界格局。

而科大讯飞也成为除了微软总部以外，第一批接触深度学习并着手开始研究的团队。一年后，科大讯飞已经将深度神经网络（DNN）成功应用到中文语音识别领域，并通过语音云平台提供给广大开发者使用。

熊世富便是在那个技术引领变革的时代，开启了对人工智能语音领域的深入探索，从一个代码小白一步步蜕变为行业专家。

从语音产业的拓荒者到领头羊，科大讯飞智能语音的探索和突破

如今，在加入科大讯飞的第七年，熊世富带领团队成功研发新一代端到端语音识别系统并全网上线，又一次保持了科大讯飞语音识别国际领先的地位。旁人总以为这位享誉公司的技术大咖应该“天赋异禀”，自带“码力超强”的光环。殊不知，技术能力并不是一蹴而就，是要经过时间打磨、沉淀出来。研究生培养方式不同于本科生，除了理论知识，还要求工程实践能力。在中科大语音研究实验室攻读研究生的第一年，当时熊世富导师要求大家写一个程序，他想了想，挠了挠头，于是请教了同学：“哎，Hello Word，用编程语言咋写来着？”

孤身一人来到一个虽不算陌生的领域，但这里的一切规则都要重新学习、探寻，岔路曲径通幽，沿途也有惊喜的收获。

初识深度学习是熊世富在科大讯飞实习的期间。从最开始的跨语言迁移学习的任务到提升深度学习的训练效率，带着升级打怪的快乐，熊世富总在语音方向里探索最前瞻的技术领域。

而魄力，则是他个人在探索深度学习技术上的优势和个人特色。从职业生涯的开始即选择了一条大规模深度学习探索之路，而这种选择也一直延续至今。

2013年，当业界诟病深度学习的训练效率之时，还是实习生的熊世富随即想到了多卡训练这条路径，多卡背后的代名词是计算资源，大资源加持实验才能找到答案。“也是幸运，当时我的导师是现今已为我们首席科学家的魏思，跟着他一起探索了很多前沿的方向。当时要申请计算资源，研究院都会批准，虽然我只是一个实习生。”熊世富每次回忆，都感叹AI研究院对于前瞻研究重视，对于技术的包容以及对人才的支持。也正是研究院的这种氛围，让这位中科大高材生毕业之后留了下来。

2、直面不确定性：甘坐十年冷板凳

科大讯飞董事长人刘庆峰曾经不止一次讲过这样一段话：“一定要对未来人工智能的核心技术突破，不能抱着急功近利的想法。基础理论的创新，源头技术的创新，往往是具有最大的不确定性的。人家说三年不鸣，一鸣惊人，事实上真正做原创，可能你要坐十年冷板凳、甚至一辈子冷板凳的心理准备。”

这也是中国科研工作者需要攀越的下一座高山：如果不知道哪一年看到曙光，那么做技术的人还会用尽全力么？

“甘坐十年冷板凳这句话对我们这些科研人员的影响力是巨大的，这也是我们对技术的追求，因为我们相信科技创新才能真正引领未来。”熊世富说到。

2018年，科大讯飞提出了引领性的全新语音识别框架——深度全序列卷积神经网络（DFCNN），进一步提高语音转写的准确率，引领语音识别技术的发展。而在此之前，最好的语音识别系统采用双向长短时记忆网络（LSTM），但是，这一系统存在训练复杂度高、解码时延高的问题，尤其在工业界的实时识别系统中很难应用。

而在另一边，熊世富早已在2017年悄然开始了下一代的端到端语音识别系统的研发。“研发一代储备一代，这是我们对技术的要求。”所以，当上一代技术DFCNN尚未成熟之时，熊世富就已经开始研究更新一代的端到端智能语音系统了。

相比传统语音系统，端到端系统具有结构简洁、通用性强、不依赖语言学知识等优点。进一步它能够通过缩减人工预处理和后续处理，尽可能使模型从原始输入到最终输出，给模型更多可以根据数据自动调节的空间，增加模型的整体契合度，避免了多个模型间的误差传导。更通俗一些，端到端技术即针对需要多阶段的或多步解决的问题，模型可以堆在一起优化。因此它也被认为是未来智能语音的主流技术框架。

思想很简单，但简洁背后总逃不过“字越少，事越大”定律。该技术思想原本在翻译任务中发挥重要作用，而将端到端技术运用语音方面的研究也是一个个顶尖团队尝试的方向，然而其效果始终没有敌过非端到端技术。

构建端到端智能语音系统，熊世富花了整整两年半的时间。

“确实啃下了不少硬骨头，尤其是项目后半段在区分性训练技术上，明明已经在大数据上验证了，但仍然无法达到想要的效果”。为了突破这项技术，熊世富就花了整整三个月时间攻关。

没有结果的时候，自我质疑是常态。“其实这三个月有一个半月是无用功。从科研的角度来看，做任何事情都可能面临失败，十个项目能够成功两个已经是非常了不起的成绩了，我们要接受做的大部分事情都可能是失败的结局。”

“可是从前期的实验结果和我过多年做语音识别的经验来看，我相信端到端语音识别技术一定是有前景的，可能真的会比上一代更好。”熊世富一边沉淀数据、一边迭代算法的系统，继续寻找问题所在。

2018年，科大讯飞端到端技术初露锋芒，就在国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation，简称IWSLT)中，以在英德方向语音翻译任务上端到端模型(End-to-End Model)显著优势，获得世界第一。

如果说 2010年深度学习的引入，是语音识别领域上一次颠覆性创新，那么新一代端到端语音识别的研究，无疑标志着语音识别新一轮创新的里程碑。

新一代端到端语音识别系统带来的效果提升非常显著 —— 识别效果相比传统语音识别系统提升了15%-30%，在特定场景下，特别是时下的应用热点端侧语音识别场景上，新系统能实现效果不降，系统资源占用大幅下降。

同时，科大讯飞也成为使用这项技术最广泛的一家公司，系统于2019年在业界首次全网上线，并在讯飞输入法、翻译机、语音转写等重点业务上使用，并为语音识别带来了更大的想象空间和更丰富的产品形态，如方言免切换、多语种统一建模、中英随心说等。

回忆起端到端语音识别系统成功的原因，熊世富认为：“当时业界大部分团队包括公司内部也有团队都在做小数据的训练，而我认为只能用大数据，才有成功的可能性，而这后来也证明是成功的关键突破。另外的难点在于算法框架的参数调整难度非常高，而这却是我个人的优势所在，在科大讯飞，我经历了一代代最新语音识别框架的迭代和更新，也可以说一直在接触业界最前沿的技术。”

从语音产业的拓荒者到领头羊，科大讯飞智能语音的探索和突破

3、持续精进：勇闯科研的无人区

从研发到一项技术真正的落地，人们对它的要求通常是苛刻的。这一点从Gartner技术曲线便可以看出：一项新技术刚出现的时候是萌芽期，然后进入期望膨胀期，然后再回落到低谷期。在低谷期，各种各样的困难逐步找到解决方式，才能够进入稳步的爬升期，再形成一个生产成熟期。

开发的新一代端到端语音识别系统，是熊世富和他团队所做努力的第一步。“端到端语音识别技术一个难点在于它非常依赖数据，在通用领域数据积累丰富，但在垂直领域里，会有各种面向行业的专有名词，端到端的效果还不够好。所以端到端系统现在面临的是如何深入各个领域，去解决一个领域的效果问题。只有攻克这一难题，端到端模型才能真正‘走出去’。”

或许，可以将声学模型和语言建模能力结合可以打破数据的限制，来解决垂直领域的一个个定制问题。“比如我想去看西虹市首富，模型非常容易直接输出食物品种的西红柿，想要达到精准的转化非常难。上一代深度学习只是进行声学建模，而目前我们在尝试将声学和语言解耦，虽然是联合训练，但是可以达到把特定领域的词语单独拎出来替换为我们想要的语言。”

熊世富创新性提出的热词整词建模方法，显著的提升了热词识别效果，也为攻克端到端语音识别的领域定制问题奠定了关键的基础。

不过，伴随着人工智能技术门槛的降低，核心技术领先的窗口期也在逐步缩短。带领团队持续提升公司语音识别的领先水平，屹立于世界的前沿是熊世富和他团队持续在做的努力。“压力一直都在，不敢有丝毫松懈。始终保持每年技术进步30%，这是我们对技术的要求，也是科大讯飞每一位科研人员的自我要求。”

而随着万物互联的时代到来，物理空间和现实空间融合共生，每一次科技的技术突破，都是为了让人们可以使用更为贴近“自然”的方式与机器进行沟通。“未来不管是我们和人工之智能，还是和机器人之前，都应该是自然的交互。如智能汽车、智能家居，都能和你对话和交流，并能够理解你所讲的话，从而提供服务。“

寻找下一代人机交互的方式，则是熊世富和团队的终极使命。

从语音产业的拓荒者到领头羊，科大讯飞智能语音的探索和突破

“或许多模态技术能够打通人机交互的最后一公里，进而带来颠覆性的交互体验。”熊世富预测道。多模态技术，也叫深度学习多模态融合，指机器从文本、图像、语音、视频等多个领域获取信息，实现信息转换和融合，从而提升模型性能的技术。如在车载交互领域，科大讯飞的汽车级视线追踪技术让用户注视即可实现唤醒交互，目光所至皆可控制。同时，唇音融合语音技术的创新型加入，具备唇音免唤醒、唇音检出、唇音增强三大核心能力，开口说话就能一语直达，就算是轻声细语，也能听清。

4、科大讯飞——无限深入的神经网络

从面对国内语音市场的一片空白到如今技术实力代表着全球领先水平，科大讯飞智能语音发展的历程也在一定程度上代表了科大讯飞的一路走来的创业历程。

可以说，在智能时代，科大讯飞就是一面中国智能语音的旗帜。中国语音产业联盟刚刚发布的《2020-2021 中国智能语音行业白皮书》引用德勤数据显示，作为大型智能语音科技企业的代表，科大讯飞凭借较强的研发优势，以60%的市场份额稳居第一，竞争优势明显。

而科大讯飞的理想也从让机器开口说话到让机器能听会说，能理解会思考，用人工智能建设美好世界。

我们曾经将科大讯飞比喻为一个很宽、很深的生成式神经网络。

一个典型的生成式神经网络包括了输入层、编码层、输出层，对于一个AI企业而言，输入是AI三要素：算力、数据、算法，输出是技术和产品，编码层则是企业的组织方式和技术方法论，以及企业的人才。

在《不一样的科大讯飞，他们把计算机视觉踢进“世界杯”》这篇文章中，我们了解了科大讯飞对人才的重视，以及独特的组织方式。而在《科大讯飞认知智能，从场景中来，到行业中去》这篇文章中，我们则窥探了这个无限拓宽的神经网络的秘密——如何定义并建立对不同行业的真正认知。

这其中保证这个很宽、很深的生成式神经网络发展张力的源泉，或许可以从创业之初的故事来的探寻——在公司历史上著名的“半汤会议”上，当团队聚集在一起对于公司未来议论纷纷之际，最终创始人刘庆峰拍板，“继续做语音，谁不乐意直接走人”，坚定了“智能语音”的战略方向。“燃烧最亮的火把，要么率先燎原，要么最先熄灭”，刘庆峰在当年的年度大会上说的话至今仍被挂在科大讯飞大厦的墙上，激励着公司在智能语音与人工智能道路上不忘初心，坚守前行。

如今科大讯飞已经在这个领域深耕了22年，这其中保证这个很宽、很深的生成式神经网络发展张力的源泉就是——源于热爱的初心坚守。因为热爱，才会22年不断坚守，从未改变初心；因为相信，才会甘坐十年冷板凳的精神从源头创新持续突破，让人工智能多项核心技术世界领先，在国际竞争中拥有话语权，或许这也是科大讯飞创业22年来最大的财富。而他们一路走来，在引领中国人工智能行业的变革中，也让世界更加美好。

没有关键词