音频语音与语言处理研究组
Northwestern Polytechnical
University
Audio Speech & Language Processing Group
Digital Signal Processing
  • English
Home
您是第counter free hit unique web位访客

首页»新闻»正文

Wireless Communications Speech Processing Medical Applications

实验室三人赴加拿大参加ICASSP2018

     2018年4月15-21日,实验室谢磊教授带领博士生孙思宁、王晴参加了在加拿大卡尔加里(Calgary)举办的2018年IEEE国际声学、语音与信号处理会议(International Conference on Acoustics, Speech and Signal Processing ,ICASSP 2018 )。ICASSP 是由 IEEE 主办的全世界最大、最全面的信号处理及其应用方面的旗舰学术会议,也是语音处理方面公认的顶级会议。今年 ICASSP 的大会主题是「Signal Processing and Artificial Intelligence: Challenges and Opportunities」,共收到论文投稿 2830 篇,最终接受论文 1406 篇,涉及的领域主要包括:音频与声学信号处理(Audio and acoustic signal processing)、生物成像及信号处理(Bio-imaging and signal processing)、语音处理(Speech processing)、信号处理相关的机器学习(Machine learning for signal processing)、多媒体信号处理(Multimedia signal processing)、传感器阵列和多通道信号处理(Sensor array & multichannel signal processing)、图像、视频及多维信号处理(Image, video & multidimensional signal processing)、口语语言处理(Spoken language processing)等诸多领域。

     此次ICASSP2018会议吸引了数千位来自世界各地高校企业的语音技术专家、教授和学生参会,同时也受到了工业界的普遍关注,会议上汇聚了语音领域相关的世界顶级企业参展和交流,包括微软、腾讯、Google、Apple、滴滴、阿里、Amazon、Facebook、Uber、Yahoo等。

     第一篇论文是实验室与华盛顿大学、出门问问人工智能实验室(Mobvoi AI Lab)和合作成果,内容是对抗训练在带口音语音数据识别上的应用,题目是Domain Adversarial Training for Accented Speech Recognition,由论文第一作者博士生孙思宁进行了报告。带口音的语音识别是一个极具挑战性的问题。说话人口音的存在,导致了目标识别语音数据和训练模型的数据之间的不匹配问题。本文扩展了实验室之前发表在Neurocomputing的期刊文章 “An unsupervised deep domain adaptation approach for robust speech recognition”,将对抗训练的思路应用到带口音语音识别中。使用深度对抗训练策略,来学习具有“口音不变性”的鲁棒特征。同时,全面的对比了对抗训练和多任务学习,将对抗训练和多任务学习纳入统一框架。此外,本文还深入探索了监督信息对对抗训练的影响,发现结合一些无监督学习的知识能够进一步提高对抗训练的效果。

     第二篇论文是实验室与小米合作的端到端的语音识别,由论文第二作者来自小米的张俊博进行了报告,题目是Attention-based end-to-end Speech Recognition on Voice Search。基于注意力机制的端到端语音识别是当前各大公司和研究机构竞相追逐的研究热点,目的是用模仿人类的注意力机制,用一个神经网络架构完成从特征提取、声学建模与语言建模的过程。该方法在英文上取得了良好的效果,然而在中文上遇到了一些挑战。本文主要采用了以下几个方法:1)Character Embedding和Frame Skipping解决了中文模型难以收敛的问题;2)使用并对比了基于Content和Location的注意力机制;3)使用了注意力平滑的方法提升模型效果。最终在小米电视3000小时语音搜索数据集上,基于注意力机制的模型达到了字错误率3.57%和句错误率7.43%的良好效果。该项成果此前也被媒体广泛报道,收到了普遍关注。(相关新闻:http://www.npu-aslp.org/newsContent/news20170806.html

     第三篇论文是实验室与新加坡南洋理工大学、新加坡国立大学合作的鲁棒声纹识别,由论文的第一作者博士生王晴进行了报告,题目是Unsupervised Domain Adaptation via Domain Adversarial Training for Speaker Recognition。传统说话人识别的方法,在训练数据和测试数据的领域类似(概率分布相同)的时候通常可以取得很好的结果。但是在实际应用中,在训练数据集和测试数据集之间会有分布上的差异,从而导致传统方法在说话人识别任务上的错误率升高。为了解决这个问题,本文提出通过域对抗训练方法学习得到既可以区分说话人又使领域相同的特征。即通过域对抗训练方法将领域的不同性去除,然后将不同领域的数据投影到一个相同的子空间。为了验证方法的有效性,我们将提出的方法与现有在说话人识别中应用的各种主流无监督域适应方法进行了深入比较。在DAC13数据集上的实验表面,基于域对抗训练的方法达到了等错误率3.73%的效果,比基线系统相对提升了34%,同时比其他无监督域适应方法更加有效。

ICASSP2018会议中实验室论文如下:

Sining Sun, Ching-Feng Yeh, Mei-Yuh Hwang, Mari Ostendorf, Lei Xie, "DOMAIN ADVERSARIAL TRAINING FOR ACCENTED SPEECH RECOGNITION", ICASSP2018, 15-20 April 2018, Calgary, Alberta, Canada PDF

Qing Wang, Wei Rao, Sining Sun, Lei Xie, Eng Siong Chng, Haizhou Li, "UNSUPERVISED DOMAIN ADAPTATION VIA DOMAIN ADVERSARIAL TRAINING FOR SPEAKER RECOGNITION", ICASSP2018, 15-20 April 2018, Calgary, Alberta, Canada PDF

Changhao Shan, Junbo Zhang, Yujun Wang, Lei Xie, "ATTENTION-BASED END-TO-END SPEECH RECOGNITION ON VOICE SEARCH", ICASSP2018, 15-20 April 2018, Calgary, Alberta, Canada PDF

 

 

 

 

  • 校园风光