你所在的位置: 首页 > 正文

助老兵圆梦!百度大脑Meitron技术20句话即可合成专属声音

2019-09-02 点击:1202

  一直引领行业创新的百度大脑语音技术又迎新突破。7月3日下午,“Baidu Create 2019”百度AI开发者大会·百度大脑论坛召开。百度语音技术部高级总监高亮,为大家详解了上午主论坛中百度首席技术官王海峰发布的智能语音芯片——百度鸿鹄,这是继去年昆仑芯片发布后芯片层面又一新进展。全球领先的语音识别模型SMLTA,以及可实现风格迁移的语音合成技术Meitron同样吸睛,百度大脑语音技术再次交出亮眼成绩单。

  

  在语音识别算法方面,高亮首先介绍了流式多级的截断注意力模型SMLTA。据悉,百度在传统的注意力模型基础上,创新性地采用了第二代深度尖峰技术,对整句语音进行动态截断,变为一段一段的流式识别。在此基础上,百度还使用了多级注意力模型来进一步提高精度。这不仅是国际上首次实现局部注意力建模性能超越整句注意力建模,更是国际上首次在线语音识别系统大规模使用注意力模型。

  热门综艺节目《向往的生活》中,“古灵精怪”的小度智能音箱与嘉宾们对答如流的交谈情景,相信很多人都仍然历历在目,而这背后正有SMLTA语音模型的加持。据高亮介绍,目前SMLTA语音模型已在百度输入法和小度智能音箱两款产品上线,使得识别准确率分别提升15%和20%。

  

  语音合成领域,针对现阶段面临韵律迁移、音色模拟和情感拟人的三大挑战,百度大脑推出语音合成技术Meitron,可以将语音中的音色、韵律、情感等要素映射到不同的子空间,在使用时,不同要素可以任意组合,灵活的控制合成语音的风格。同时降低语音合成门槛,仅需20句话就可以制作一个人的专属声音。

  MEITRON风格迁移技术的特点主要体现在音色转换,多情感朗读和韵律迁移三个方面,多情感朗读是指通过MEITRON技术,合成的语音可以注入不同的情感,韵律迁移是指同一个人的声音可以讲出不同风格的文本,音色转换是指可以用少量语音就可以合成一个人的专属音库。因此,语音合成效果变得更加逼真、丰富,用户体验也得到了提升。在今年的5月份,基于百度大脑的这一技术,百度大脑智能语音技术合成了一位已故老排长的声音,让消逝的声音重现世间,抗战老兵们在分别64年后首次实现了“重逢”,在建国70周年之际,为老一代抗战老兵送去了一份最好的礼物。

  寻技术突破,立鸿鹄之志。百度大脑推出的首款智能语音芯片——百度鸿鹄受到极大关注。“我们希望做一款超低功耗、超低成本、超高精度的芯片,能够赋予我们的智能设备语音的功能,同时又能把成本降到最低,这是我们的目标。”百度语音技术部高级总监高亮表示。正因如此,鸿鹄芯片的设计,变革传统芯片设计方法,遵循“软件定义芯片”的全新设计思路。该芯片采用双核HiFi4架构,自定义指令集,超大内存,台积电40nm工艺,在此硬件规格上,100mw左右平均工作功耗,即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。

  

  百度鸿鹄芯片在业内拥有不俗的竞争力。首先,鸿鹄芯片指令集都是自定义的,百度拥有完整的知识产权,并针对百度大脑语音算法特别优化。定义芯片级AI指令集,这无疑是长期竞争力的有效保证。其次,百度鸿鹄芯片与百度远场智能语音解决方案协同统一,百度最新的信号处理、唤醒和识别技术创新,如Deep Peak和Deep CNN唤醒,模型波束等最新算法都在芯片中实现能力下沉。另外,百度鸿鹄芯片是车规标准设计的,无论是在智能硬件上,还是在汽车上,都留有非常大的想象空间。

  百度鸿鹄在应用场景中可实现三大方面的边缘计算能力,包括支持多达六路麦克风阵列语音信号输入、回声消除、声源定位等的阵列信号处理能力;集成Deep Peak和Deep CNN领先算法并可自定义唤醒词的语音唤醒能力;并支持离线语音识别功能等。

  核心算法的创新突破、芯片的全新发布,都让百度大脑语音技术逐渐具备迈向AI大生产时代的能力,让AI技术赋能更多场景,以技术之力改变人们的生活、服务人们的生活。百度大脑5.0,正在通过不断的技术创新和突破,让每一位开发者都能平等便捷地获取AI能力,加速产业智能化。

胜博发888 版权所有© www.ailijiaguoji.com 技术支持:胜博发888 | 网站地图