讯飞智能语音先锋者：等到人机交互与人类交流一样自然时，真正的智能时代就来了！

2020-05-22 01:34:58

[本文来自：www.ii77.com]

[原文来自：www.ii77.com]

受访者 | 刘聪

记者 | 夕颜

出品 | CSDN（ID:CSDNnews）

「AI 手艺生态论」人物访谈栏目是 CSDN 提议的百万人学 AI 倡议下的主要构成部门。经由对 AI 生态顶级大咖、创业者、行业 KOL 的访谈，反映其对于行业的思虑、将来趋势的判断、手艺的实践，以及成长的履历。

本文为「AI 手艺生态论」系列访谈的第十六期，剖解科大讯飞语音与较量机视觉互通手艺，以及对多模态与人机交互将来趋势预判。

百万人学 AI 你也有份！今日起点击阅读原文报名「2020 AI斥地者万人大会」，使用优惠码“AIP211”，即可免费获得价格299元的大会在线直播门票一张。限量100张，先到先得！

目前，若是把语音手艺和较量机视觉手艺单拎出来，两者无论是学术研究照样应用，都能够说已经到了相对成熟的阶段，小到手机上各类 App，大到航空航天科研，语音和视觉手艺已经渗透到人类生活的方方面面。但若是是把二者连系起来呢？甚至是把文字、语音、视觉、动作、情况等多种形式连系起来，进行更深条理的人机交互呢？这就是所谓的多模态交互，在手艺专家的设想中，多模态交互可以充裕模拟人与人之间的交互体式，让人与机械之间实现真正意义上的互动更进一步。

多模态交互手艺与应用的研究近况若何？人人都在做着哪些起劲，测验着打破人与机械之间的隔膜？今天，我们将透过这方面的专家——科大讯飞 AI 研究院执行院长刘聪，与他的手艺成长路线一路，一探这些问题的事实。

硕博连读，被保送至讯飞语音实验室的学霸

从经验上来看，刘聪的小我履历和成长路线非常简洁，他从 2001 年考入中国科学手艺大学电子信息工程系，2005 年就被保送（硕博连读）至电子信息工程系其时合作的讯飞语音实验室（现为“语音及说话信息处理国度工程实验室”），专业偏向是“旌旗与信息处理”。在这里，他专攻的偏向是语音识别。

硕博连读时代，刘聪获得了去微软亚洲研究院和加拿大约克大学接见进修参半年的机会。2010 年，国外学子学成归国，并顺利拿到了博士卒业证。

其实早在 2007 年，刘聪就已经以实习生的身份到场科大讯飞，除了进行一些单点手艺的研究之外，也进行中文语音识别系统的搭建工作。2010年，博士卒业他后正式到场讯飞，并担当语音识别偏向的研究主管。

那段时间，以深度进修为代表的第三次人工智能海潮囊括而来，语音识别焦点手艺和实际系统的结果都有了很大的成长空间。卒业后的几年，刘聪一方面率领团队持续追求语音识别焦点手艺和功能的业界领先，一方面合营事业部和相关产物部门在各个行业偏向起劲跨越手艺鸿沟，使得语音识别等相关手艺在越来越多的场景下达到可用甚至交用，讯飞最早期投入应用的语音产物背后，根基上都有刘聪及其团队的劳绩。

2014 年，担当科大讯飞研究院副院长，负责整个语音识别风雅向的研发工作，同时起头负责图文识别、医学影像、视频剖析等较量机视觉偏向的孵化和研发工作。

实现语音识别和较量机视觉之间深度进修算法框架迁徙，被评“35岁以下科技立异35人”

今朝，讯飞 AI 研究院的研究偏向诸多，包罗语音合成、语音识别、语音评测、图文识别、医学影像、机械翻译、天然说话懂得等多个子偏向。

在这里，刘聪的第一个研究偏向，就是将语音与较量机视觉之间的深度进修算法打通。

为什么要做这个偏向呢？

刘聪说起团队有这个设法的初志，是从手艺应用的角度来看，简洁来说，从语音到较量机视觉，深度进修只是将处理的数据从一维的语音数据切换成了二维的图像数据，两者在手艺上具备必然的互通性。作为中国首批开展深度神经收集语音识别研究的企业，认为这个偏向可以推进深度进修算法在感知智能与认知智能方面的提高；另一方面，作为同属感知智能领域的语音和较量机视觉，在语音上取得了深度进修算法的成功后，将深度进修算法在较量机视觉上推进也就酿成了团队的内涵诉求。最后，连系科大讯飞人工智能产物在市场上反响不错，产物也对焦点手艺提出了更高的要求，除了语音之外，对较量机视觉的需求也在加大，是以打通语音与较量机视觉之间深度进修算法，更好地知足产物的要求，也就变得很天然了。

（图片已获授权，右为刘聪）

在智能语音处理范畴取得必然成就后，2014 年，刘聪率领团队正式转入较量机视觉范畴。从“听”到“看”，固然机械的感官发生了转变，但凭借在语音识别与深度进修范畴的储蓄，在手艺层面为二者搭起了一座桥梁。

2015 年，刘聪和团队连系语音特征，对基于较量机视觉范畴最常用的卷积神经收集 CNN 构造进行了针对性的重构和优化，提出深度全序列卷积神经收集 DFCNN 框架，教机械学会以“看语谱图”的体式来进行语音识别。

DFCNN 框架

DFCNN 直接将语音转化为一张语谱图像作为输入，以时域和频域离别作为图像的两个维度，然后经由卷积层和池化层的组合，对整句语音输入旌旗进行建模。该方式冲破了传统语音识别只能对语音短时幅度谱进行有效建模的束缚，设计了全序列卷积神经收集构造，实现了对语音长时幅度谱和时域波形的同时建模，有利于提高建模精度。

2015 年，刘聪和团队提出了这个将语音识别和较量机视觉之间深度进修算法框架打通的 DFCNN，那这之后，沿袭这一手艺路线，讯飞又进行过新的测验来提高语音识别效率。在手艺研发迭代时代，弗成避免地会碰到一些难题，踩过一些坑。

刘聪说到，以如今的视角来看，语音识别能够分为声学和说话分隔建模的传统语音识别和声学说话结合建模的端到端语音识别。在提出 DFCNN 时，语音识别照样以声学说话分隔建模为主，DFCNN 就是一种声学模型，首要用来对发音进行建模。

在 DFCNN 之后，端到端建模思路逐渐成为新的研究热点，并有超越传统语音识别框架，成为新一代语音识别系统的趋势。以基于注重力机制的编码器解码器的端到端建模为代表，端到端语音识别框架包含对声学信息进行高层抽象的编码器部门和声学说话结合建模的解码器部门，编码器就相当于传统语音识别中的声学模型，借助于 DFCNN 壮大的声学建模能力，刘聪团队研发的基于 DFCNN 的端到端语音识别系统获得了比传统语音识别更好的识别结果，这是 DFCNN 的成功延展。

然而，整个新系统的研发过程并不是一蹴而就。刘聪说，固然端到端建模思路发源于机械翻译，手艺上已有必然的储蓄，然则具体到语音识别又面临好多新的问题，最典型的莫过于大多数语音识别系统要求的实时识别问题，这是端到端语音识别模型要落地实际产物必需要解决的问题，机械翻译中的端到端模型并不克知足这一点。

面临这一问题，刘聪团队设计了一种新的单调递增式的注重力算法，使得模型能够看到局部的语音数据即可进行识别，而不需要比及整句语音都来了才进行识别，从手艺上解决了新系统落地实际产物的最后障碍。

关于智能语音和较量机视觉，以及将声音、视觉、触觉等人类感官连系起来的多模态信息处理、语音/机械翻译等炙手可热的研究热点，刘聪还与 CSDN 分享了他对这些话题的洞见与见解，下面，我们就来一一理会这位资深手艺人对将来手艺偏向的预判。

多模态信息处理与融合将会是大趋势

首先是人人存眷的多模态手艺。跟着语音和较量机视觉手艺日渐成熟，然则在一些应用场景很好地落地仍然有一些障碍，好比 AI 同传结果因为情况等身分很难保障和专业翻译人员的功效等效，于是在翻译范畴显现了多模态偏向的研究，好比在语音识其余同时在 PPT 上使用视觉手艺，将声音和画面连系起来，这不光更相符人类的习惯，同时能够识别正确率，使传达的信息加倍正确。

这种将声音、视觉、触觉等人类感官连系起来的思路，与刘聪正在进行的语音与较量机视觉之间的互通是一回事吗？

刘聪认为，从狭义上来讲，能够说不是一回事，两者起点有所分歧。最早讯飞做较量机视觉与语音识别之间的互通，是深度进修算法应用场景的天然延展与推进，雷同的手艺从语音识其余成功转入到在视觉范畴进行测验。

而多模态研究的鼓起，更多地是因为好多实际问题只用以往的纯语音或许纯视觉的方式很难很好地解决问题，只有更接近人处理问题的体式，给到更多的输入信息才能把问题解决。这是两者起点上的一些区别，是以能够说两者不是一回事。

但从广义上来讲，又能够说这两者就是一件事，恰是因为有好多实际问题只靠单一的语音或许视觉无法解决，产物需求对手艺提出了更高的要求，是以促使研究人员必需改善焦点手艺，多模态研究就是一个很好的手艺演进偏向，从这个角度来看，两者又能够说是统一回事。

谈到多模态手艺的成长，刘聪认为，以往无论是学术界照样财富界，都更多的把研究重点聚焦在单个模态的研究上，近些年跟着机械感知的软硬件手艺、通信手艺以及运算能力等手艺的成长，单个模态的研究在一些场景的局限性也逐渐凸显出来，好比语音识别范畴有名的“鸡尾酒会问题”，在这些场景种多模态手艺比拟单模态手艺优势更为显着，这也更相符我们人类的感知特征，是以，他判断多模态信息的处理以及融合将会是大的趋势。

这也是讯飞今朝在做的，基于多模态识别手艺使得高噪、多人、远场等复杂场景下的语音识别问题有了更好的解决方案，基于多模态合成手艺的虚拟形象今朝已在生成在媒体、客服等范畴普遍应用，人机交互拥有了更好的体验。以往各范畴（语音、视觉、天然说话）的研究在一些手艺和方式论上具有通用性，在起头一个新范畴的研究时，这些手艺和方式论的储蓄可以为快速迁徙供应很大的匡助，而多模态研究自己更存眷分歧模态信息之间的融合。

此外，刘聪还认为，多模态手艺的成长将会环绕应用层、焦点算法层以及硬件层三个层面睁开，在应用层的研究相对较多，也取得了好多不错的功效，而焦点算法层以及硬件层的索求今朝相对做的还不敷，都是值得将来深入研究的偏向，好比分歧模态信息直接若何更有效的互补，若何更深条理的融合，分歧的义务需要哪些模态的信息，以及分歧模态的感知信息若何更好的和认知相连系。

基于视觉呈现的语音交互是将来偏向

如上文所说，多模态研究将会是将来研究的重点，多模态交互也天然将成为将来人机交互实现冲破的要害点。

今朝来说，基于视觉呈现的语音交互是人人研究的主要偏向之一，刘聪也认为这是一个值得深入的研究点，

他认为，在有大屏的情形下，机械显现的内容经由屏幕（视觉），输入以语音交互为主。但这并不是说“基于视觉呈现的语音交互”会完全庖代“基于视觉呈现的触摸交互”，但它会分流一大部门热度。想象一下，当我们坐在一个大屏前，用“基于视觉呈现的语音交互”所获得的器材跟在手机上拿手指点的体验是纷歧样的。讯飞今朝已经鞭策了智能语音手艺在各类场景中的深入应用，面向智能家居、智能家电、智能玩具等范畴供应远场识别、高天然度个性化语音合成、AIUI 等人机交互解决方案和办事。

机械翻译若想提高，还需要在这几方面持续索求

在智能语音范畴，人人对于语音/机械翻译的乐趣只增不减。刘聪认为，跟着深度进修手艺的络续演进和大数据的络续储蓄，语音和机械翻译等手艺在好多场景上已经达到好用的水平，然则事物的成长老是当我们解决一个问题的时候，总会有一个新的问题守候我们去解决。以语音识别为例，得益于深度进修和大数据，在恬静场景下，讯飞语音输入法能够达到 98% 识别率的水平，然则在高噪场景恶劣情况下结果要差好多。好比，在号称“史上最难语音识别义务”国际语音识别大赛 CHiME5 中，尽量是作为冠军系统的科大讯飞在包含多人语音混同、远场混响和噪声的恶劣语音情况下也只能达到 54% 的识别率，与恬静叫醒的 98% 相差甚远。

讯飞从最早把用户合营的语音输入法的听写识别做到好用，到如今逐渐把更难的远场会议场景的转写识别做到好用，手艺老是在一直地提高，难题也在络续地被霸占。

“或许有一天，当我们把 CHiME 竞赛场景也能做到好用的时候，真正的人工智能就快到来了，”刘聪照样对照乐观的。

对于让人又爱又恨的机械翻译，刘聪有着本身的思虑与概念。

他总结，机械翻译手艺的成长履历了最早期基于划定的方式，到上世纪 90 年月初的统计机械翻译，再到今朝最新的神经机械翻译手艺，机械翻译在白话、通用等场景的机能已经媲丽人类舌人的翻译结果。然则机械翻译若要取得更猛进步，还需要在以下几个方面进行持续性的索求：

多语种翻译，今朝全球现存说话跨越5000种，绝大多数的说话没有或仅有少少量平行语料，是以需要研究在数据量很少的情形下供应可用的多语种机械翻译能力。
机械同传，这个中需要解决语音翻译中说话生齿语化表达、口音方言等引起的语音识别错误等问题，同时在会议、演讲等场景，还需要考虑到翻译的时延和结果均衡问题，避免延时过大影响用户的实际主观体验。
行业翻译，针对分歧的行业供应加倍专业、正确的翻译将是将来机械翻译成长的另一个要害手艺。
端到端语音翻译手艺，与传统语音翻译采用语音识别系统和机械翻译系统级联的体式分歧，端到端语音翻译使用一个模型对语音到文本进行直接建模。当前端到端语音翻译因为数据量较少等原因，与传统语音翻译方案还有必然的差距，但其代表着更前沿的索求，代表着语音翻译将来的新思路和新偏向，也是今朝我们研究的重点。

总的来说，机械翻译应用市场规模在逐年稳步增进，机械翻译手艺越来越成熟，应用场景也越来越雄厚。机械翻译同语音识别、图像识别等连系发生的语音翻译、摄影翻译等应用将络续激活整个财富的活力，相信在将来还会发生更多更有影响力的机械翻译应用和办事。

放飞想象，将来人机交互体式还有哪些或者性？

长久以来，有无数人都在吃力吃力探寻人与机械之间互动交流的奥秘，科技日新月异成长至今，我们有了伟大的提高，然则认识得越深，越领略我们离这个方针相差得还很远。

将来，除了基于视觉呈现的语音交互体式之外，还会有哪些或者的交互体式？人机交互范畴的手艺生态会发生如何的改变？

刘聪认为，人机交互体式将会越来越多样化以及多种分歧体式的组合，在呈现上会越来越雄厚以及个性化。除了传统的视觉呈现体式，还能够有基于更富有情绪和小我特色的语音合成手艺的语音呈现体式，以及更天然的虚拟形象的拟人化视觉呈现。

虚拟形象的表达体式也能够从口唇的表达到连系脸色和身体姿态的情绪表达，如许在交互上也更天然化人道化。

“历久来看，基于语音、视觉以及触摸多种模态信息的组合是趋势，不光需要懂得说的内容，还需要进行用户的情绪识别以及基于视觉的环绕人的行为剖析懂得，包罗脸..绪、手势、体感等，让机械与人类之间的交互像人类互订交流一般，”或许如刘聪所想，比及人机交互像人类互订交流一般天然的时候，真正的智能时代就真的来了。

【END】

今日..

碰见大咖

同样作为“百万人学 AI”的主要构成部门，2020 AIProCon 斥地者万人大会将于 7 月 3 日至 4 日经由线上直播形式，闪开发者们一站式进修认识当下 AI 的前沿手艺研究、焦点手艺与应用以及企业案例的实践经验，同时还能够在线列入出色多样的斥地者沙龙与编程项目。介入前瞻系列运动、在线直播互动，不光能够与上万名斥地者们一路交流，还有机会赢取直播专属好礼，与手艺大咖连麦。

门票限量大放送！今日起点击阅读原文报名「2020 AI斥地者万人大会」，使用优惠码“AIP211”，即可免费获得价格299元的大会在线直播门票一张。限量100张，先到先得！快来动着手指，免费获取入会资格吧！

点击阅读原文，直达大会官网。

讯飞智能语音先锋者：等到人机交互与人类交流一样自然时，真正的智能时代就来了！

热门文章

小编推荐

推荐文章