腾讯企业邮箱,QQ企业邮箱,唯一与微信完美结合的企业邮箱.腾讯企业邮箱客服电话4008-919-003,腾讯企业邮箱团队倾力打造,收费版整合了更多企业应用,速度更快,收发更顺畅,服务更稳定.腾讯企业邮箱登录入口,QQ企业邮箱登录入口,购买腾讯企业邮箱,腾讯QQ企业邮箱,腾讯免费企业邮箱,腾讯企业邮箱经销商,深圳腾讯企业邮箱,广东腾讯企业邮箱,东莞腾讯企业邮箱.
语音通讯领域的国际顶级学术会议 Interspeech 2017 在瑞典斯德哥尔摩举办,腾讯音视频试验室王燕南博士的一篇论文中选,并获邀在大会作了 oral 陈说,本文对此论文进行了介绍。读者可点击阅读原文检查该论文。
Interspeech 是由国际语音通讯协会 ISCA(International Speech Communication Association)安排的语音研讨领域的顶级会议之一,是全球最大的综合性语音信号处理领域的科技盛会,该会议每年举办一次,每次都会招引全球语音信号领域以及人工智能领域出名学者、企业以及研发人员参与。
腾讯音视频试验室王燕南博士的论文《A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation》中选 Interspeech 2017,并受邀在会场进行了 oral 陈说。
王燕南博士的论文主要内容是研讨在单通道语音分别中运用的深度神经网络的操练优化,该技术旨在从混合的多个说话人的语音信号中分别出政策说话人的语音,在语音辨认、语音通话以及残疾人助听领域等均具有重要运用。
瑞典当地时间 8 月 22 日下午两点半,在 Interspeech 2017 会场,王博士做 oral 陈说。
在这篇论文中,王博士的研讨着重于改进单通道语音分别汇总依据深度神经网络的频谱映射方法中常用的最小均方过失准则(MMSE, minimum mean squared error)。在依据深度神经网络的单通道语音分别中,通过多类回归方法从混合语音频谱中恢复政策说话人的语音,主要是依据 MMSE 准则最小化网络输出的语音频谱和政策频谱的差异。对此,王博士等人通过对深度神经网络的输出的猜想过失进行统计分析,发现输出的对数功率谱每一维分量都遵守一个单峰分布,如下图所示:
由此引入零均值的高斯分布函数来描绘神经网络的猜想过失矢量,引入对其进行概率分布的学习,然后运用最大似然估计方法操练深度神经网络的参数,如下图所示。
通过试验对比发现,依据该最大似然方法操练的神经网络分其他语音在不同的客观指标上均超过了运用传统的最小均方过失准则操练的神经网络。
其他,通过在验证集上的 reconstruction loss 的改动情况对比,王博士等人发现该模型有更强的泛化才能,而在收敛速度上,该方法也具有显着的优势,对比情况如下图所示。
作者简介
王燕南,结业于中国科学技术大学语音信号与信息处理国家工程试验室,研讨领域包括语音增强和分别、语种辨认、手写辨认等,在 Interspeech 等出名语音国际会议以及 IEEE Transaction on Audio,Speech and Language Processing 期刊宣布多篇文章,在无监督语音分别方法上做出了重要贡献。王博士于 2017 年参与腾讯音视频试验室,专注于语音增强以及分别等前端信号处理领域研讨。
关于腾讯音视频试验室
腾讯音视频试验室,组建于 2016 年 11 月,专注于音视频通讯技术的前瞻性研讨,包括全球实时音视频网络优化,音视频编解码前沿算法研讨、计算机视觉图画处理、依据 AI 的音频语音增强、动静美化及音视频质量评测等。
在效力于腾讯外交体系下的海量用户一同,在实时音视频通讯、图画处理和音视频处理等技术领域积累了十几年的研讨阅历,具有工作抢先的技术水平。现在已为工作数百个产品供应了音视频技术支撑与效力,如 QQ 电话、腾讯云、企业微信、QQ 空间、全民 K 歌、快手、斗鱼、虎牙、蘑菇街等。
文章内容来源于网络,侵删