Northwestern Polytechnical
University
Audio Speech & Language Processing Group
Digital Signal Processing
  • English
Home
您是第counter free hit unique web位访客

首页»新闻»正文

Wireless Communications Speech Processing Medical Applications

实验室标点预测技术助力腾讯语音识别服务

     据腾讯高校合作组的反馈,通过与实验室的校企合作项目研发的“语音识别智能标点预测系统”已经成功在腾讯上线应用。该系统采用了目前业界最先进的深度学习技术,经过腾讯各大场景数据自适应、模型速度优化、多线程优化等技术迭代,将复杂信息场景标点符号自动加注的错误率降低到3%以内,已经达到业界领先水平。

     目前该系统在腾讯某部门各大业务场景上已成功应用,日通过语音量超过300万条,累积为人工提升效能相对5%-10%;从人工主观感受来看,新版系统标点符号的引入,大大提升了音频的可懂度、审核速度与准确率。作为合作项目的主力,实验室许开拓同学、陈俊杰同学也得到了腾讯合作伙伴的表扬和高度认可。

     据悉,标准的语音识别系统的输出是缺乏标点和句边界的。标点预测(punctuation prediction)技术,又称句边界检测(sentence boundary detection)或句切分(sentence segmentation)技术,是一种典型的序列标注机器学习任务,是指在缺乏标点的文本(如语音识别抄本)中加入标点或对篇章文本进行句子单元切分,目的是提高文本的可懂度,降低人工阅读的负荷;同时有效的标点和句边界也是自然语言理解、机器翻译等任务的前提。实验室在标点预测技术方面具有多年的技术储备,在此方面先后发表了六篇论文。其中,与微软研究院合作的论文Investigating LSTM for Punctuation Prediction在第十届中文口语语言处理国际会议(ISCSLP2016)上获得了最佳学生论文提名奖。此次实验室技术在腾讯在线系统上的成功应用,是校企合作推动技术成果转化的代表之作。

     实验室近年来非常重视校企合作与成果转化,与超过10家著名IT公司开展了深入广泛的技术合作。以腾讯为例,实验室与腾讯在2016年年底成立了“西北工业大学-腾讯联合实验室”,双方围绕多媒体处理和机器学习在网络媒体上的应用开展长期技术合作,并进行学生联合培养、开设校企合作课程等。就在近期,实验室又入围“2018 腾讯AI Lab犀牛鸟联合研究计划”(见新闻),将与腾讯AI Lab在基于少量说话人数据的端到端个性化语音合成方面开展联合研究。

     附:实验室在标点预测和句边界检测方面发表的代表论文

Kaituo Xu, Lei Xie, Kaisheng Yao, "Investigating LSTM for Punctuation Prediction", the 10th International Symposium on Chinese Spoken Language Processing (ISCSLP2016), October 17-20, 2016, Tianjin, China (Best student paper nomination) PDF

Chenglin Xu, Lei Xie, Xiong Xiao, "A Bidirectional LSTM Approach with Word Embeddings for Sentence Boundary Detection", Journal of Signal Processing Systems, Springer, 2017 PDF

Chenglin Xu, Lei Xie, Guangpu Huang, Xiong Xiao, Eng Siong Chng and Haizhou Li, "A Deep Neural Network Approach for Sentence Boundary Detection in Broadcast News," Interspeech, Singapore, 14-18, September 2014 PDF

Chenglin Xu, Lei Xie and Zhonghua Fu, "Sentence Boundary Detection in Chinese Broadcast News using Conditional Random Fields and Prosodic Features", the 2nd IEEE China Summit and International Conference on Signal and Information Processing (ChinaSIP2014), July 9-13, 2014, Xi'an, China

Guangpu Huang, Chenglin Xu, Xiong Xiao, Lei Xie, Eng Siong Chng, Haizhou Li, " Multi-View Features in a DNN-CRF Model for Improved Sentence Unit Detection on English Broadcast News", APSIPA ASC 2014, Siem Reap, Cambodia, December 9-12, 2014

Lei Xie, Chenglin Xu and Xiaoxuan Wang, "Prosody-based Sentence Boundary Detection in Chinese Broadcast News", The 8th International Symposium on Chinese Spoken Language Processing (ISCSLP2012) , Hong Kong, China, December 5-8, 2012 PDF

 

 

 

 

  • 校园风光