科技网

当前位置: 首页 >手机

里程碑微软语音识别新突破错误率降至51与人类速记员相当

手机
来源: 作者: 2019-04-16 12:43:46

微软的语音与对话研究小组宣布在Switchboard对话语音识别任务上到达人类水平,实现里程碑式的突破。

微软技术Fellow黄学东在微软官方博客上称,这意味着,他们创造了一种技术,可以在对话中识别词语,且与人类专业的速记员水平相当。

黄学东在博客上说:“在我们的转录系统到达5.9%的错误率以后,其他研究人员进行了自己的研究,采取了更多参与的多转录程序,将错误率下降至5.1%。今天,我很高兴地宣布,我们的研究团队通过我们的语音识别系统到达了5.1%的错误率,这是一个新的行业里程碑,大大超过了去年实现的准确性。本周末发布的技术报告记录了我们系统的细节。”

以下是微软官方博客的介绍:

Switchboard是一个电话通话录音语料库,这类语料库用于语音识别系统的研究已经超过20年了。任务包括转写陌生人之间的话题讨论,比如关于体育或政治话题的对话。我们对基于神经网络的语音和语言模型做了一系列改进,和去年的精确度相比,错误率大大降低。

我们又为改进语音模型引入了CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外,我们现在在frame/senone和词语层面都使用了结合多个声学模型的预测的方法。此外,我们通过使用全部对话进程来加强辨认器的语言模型,以预测接下来可能发生的事情,使得模型有效地适应了对话的话题和语境。

我们的团队使用最可扩大的深度学习软件Microsoft Cognitive Toolkit 2.1(CNTK),用于探索模型架构和优化我们的模型的超参数。另外,微软对云计算基础设施(特别是Azure GPU)的投资,也有助于提高我们训练模型并测试新想法的有效性和速度。

达到人类水平精度,能够与人类对话,是过去25年来微软的研究目标。微软对长期研究的投入,已经在诸如Cortana,演示文稿转换器(Presentation Translator)和Microsoft认知服务等产品和服务上见到了成效。我们的研究团队非常高兴地看到,每天都有数百万在使用的我们工作成果。

工业界和学术界已有许多研究团队在语音辨认方面做得很好,我们的工作从研究社区整体的进步中获益很多。虽然在Switchboard语音识别任务上实现5.1%的词汇错误率是一项重大的成果,但语言研究领域依然面临许多挑战,例如在喧闹环境下较远的麦克风的语音辨认,识别方言,或训练数据有限的特定说话风格或较少人使用的语言的语音识别,这些都仍未达到人类水平。

此外,我们在教计算机不仅是转录口语,而且要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语,是语音技术的下一个主要挑战。

广州癫痫病医院
不同的白癜风应该如何去治
心理性阳痿治疗方法

相关推荐