Northwestern Polytechnical
University
Audio Speech & Language Processing Group
Digital Signal Processing
  • English
Home
您是第counter free hit unique web位访客

首页»新闻»正文

Wireless Communications Speech Processing Medical Applications

实验室联合小米推出注意力机制中文语音识别算法

      近期,实验室与小米合作,联合推出了基于注意力(Attention)机制的端对端(End to End)普通话语音识别结果,并撰写论文公开发表到网上,收到了媒体的广泛关注与报道。
      和传统语音识别需要繁琐的流程相比,端对端语音识别利用一个神经网络即可实现语音到文字(中文对应的是汉字)的转换,架构简洁,是近年来语音识别领域的研究热点。基于注意力机制的方法是一种极具潜力的端对端方法。该方法在英文数据集上已经取得了较好的实验结果,但中文汉字要远比英文字母复杂,在中文数据集上,一直没有看到较好的结果。例如,William Chan 等在 Interspeech 2016上报告的该方法在中文数据集上的字错误率是 59.3%。
      实验室与小米的智能语音团队合作,在小米电视语音搜索数据(MiTV)上,在不使用任何词典或语言模型的情况下,实现了 3.58% 的汉字字符错误率(CER)以及 7.43% 的语句错误率(SER)。加上三元语言模型之后,该模型可以达到2.81% 的 CER 和 5.77% 的SER。这是基于注意力机制的端对端语音识别方法首次在中文上达到可用水平。
      据悉,实验室与小米在语音识别方面开展了深入了合作,除了端对端语音识别之外、在远场语音识别、语音增强和去混响方面也开展了技术合作。此次论文发表也是小米首次公开发表学术论文。
      论文下载地址:
      https://arxiv.org/pdf/1707.07167.pdf
      业界新闻报道:
      小米首次公开发表论文:基于注意力机制的端对端语音识别
      小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

 

 

 

 

  • 校园风光