央广网

MIT:在无人为干涉的情况下 百度深度语音可在数小时学会说话

2017-03-10 14:55:00来源:中国青年网

  巨头逐鹿人工智能,推动深度学习技术在实际应用领域屡破瓶颈。近日,全球知名科技评论媒体《麻省理工科技评论》发文介绍深度学习技术在语音领域获得的重大突破,百度深度语音技术可大大减少人类幕后精调的工作量。MIT表示,百度人工智能的深度语音合成技术已经超越谷歌,并在亚马逊的Mechanical Turk测试中,获得了比“实时”还快的速度成绩。

  

  百度作为中国人工智能领域的先行者,在人工智能方面投入巨大。早在2013年便率先成立深度学习研究院(IDL),深耕深度学习技术领域,与IBM、谷歌、微软一同位列深度学习研究的第一阵营。现在百度已在语音技术方面取得众多进展,百度大脑语音合成日请求量2.5亿,语音识别准确率达97%,百度语音技术入选MIT科技评论杂志评出的“2016年全球十大突破技术”。

  麻省理工科技评论在文中介绍了近期百度在语言合成方面的成果:百度研发的深度语音文本阅读系统,可极大程度上减少幕后精调的工作量,让机器只需几小时就能学会“说话”,完全无需人类干预。

  比如导航、语音闹钟、手机接听系统等应用,都需要用到文本转语音系统,而这一功能的实现都需要记录某个人的大量语音数据才能生成新句子。一旦说话人有所改变,或者单词重音发生变化,就需要重新录音,生成新数据库,直接增加了幕后精调的工作量,提高人工干预成本。

  百度运用深度学习技术将文本分割为最小单位,生成被称之为“现象(phenomes)”的声音片段,随后,再运用语音合成网络重新生成这些声音。这种方法的不同之处在于,深度学习可以自己完成训练过程,基本不需要人工进行微调。而百度这一技术已经远远领先与谷歌DeepMind去年推出的WaveNet——在培训阶段仍然需要微调,而且需要大量的计算资源,难以在真实情境中得到应用。

  文章通过单词“Hello”来介绍百度深度语音合成技术是如何实现的。百度系统会将“Hello”分割为以下“现象”:(无声, HH)、 (HH, EH)、 (EH, L)、 (L, OW)、 (OW, 无声)。然后再将这些输入到语音合成系统来说出单词。未来百度将在控制重音、持续时间和自然声音频率方面加深研究,以实现改变输出的语音和词语中所传达的情感的功能。

  然而这一系统的实现需要大量的计算资源。真实语音的采码率为48赫兹,因此电脑生成样本的时间只有20微秒。但是语音合成过程涉及多个层面,每个层面都要保证在1.5微秒中完成工作,才能跟上生成速度。对此百度研究员对MIT表示:“要执行实时对接,我们必须保证不能重复计算任何结果,将整个处理模型存储在缓存之中(不是主内存),然后优化利用可用的计算单元。”

  据悉,百度深度语言合成系统在亚马逊的Mechanical Turk上进行了众包理解测试。测试内容包括让多个试用人员将生成音频与真人原声录音做对比,然后对音频质量进行打分。结果显示,通过百度深度学习技术生成的音频质量很高。百度表示,百度深度语音合成达到了比实时还快的速度,不仅能够实时生成音频,从而可以广泛应用于直播中。

  在该系统的通用性上,百度研究团队表示,可以通过重新培训学习全新的数据集,而这一过程无需人工介入,将大大简化文本转语音系统的处理流程。

  面对以百度为代表的中国人工智能军团在深度学习方面的迅猛态势,MIT也表示希望谷歌DeepMind(或者其他深度学习系统),可以改变无所事事、闲坐久等的状态,并预见在巨头的推动下,未来深度学习领域将迎来“百家争鸣”局面。

编辑: 殷雨婷
关键词: MIT;深度语音;科技评论;说话