语音识别技术中的关键问题是什么?
语言识别是指让智能设备能够理解人的声音。这是一门涉及到数字信号处理、人工智能、语言学、数理统计、声学、情感学、心理学等多学科交叉的技术。该技术可提供客户服务、自动语音转换、命令控制、语音验证等多种应用。近几年来,随着人工智能的兴起,语音识别技术在理论和应用上有了很大的突破,开始从实验室走向市场,逐渐进入人们的日常生活。
语言识别的发展
语言识别的研究始于本世纪五十年代。开始时人们认识简单,语声既然有共振峰,在接收系统中设若干组共振线路,某一组输出最大时就可判断为某一语声。但事实上并非如此简单。这是因为一人在不同时间不同条件下,语言特征可能有相当大的变化,不同的人出入更大。当时识别装置只能识别特定某人的少数几个语言如0—9的数字。到70年代,由于电子计算机和计算技术的发展,这方面工作又活跃起来,至今研究的范围已扩展到连续语言,大词汇量,非特定人的范围。但要做出一个这样的实用系统,技术发展似乎还不够,需要更深入地了解人的语言产生机理和感知理论,及语言学中句法分析和语义分析等
语音识别技术中的关键问题是什么?
语音特征抽取
语音识别的一个主要困难在于语音信号的复杂性和多变性。一段看似简单的语音信号,其中包含了说话人、发音内容、信道特征、口音方言等大量信息。不仅如此,这些底层信息互相组合在一起,又表达了如情绪变化、语法语义、暗示内涵等丰富的高层信息。如此众多的信息中,仅有少量是和语音识别相关的,这些信息被淹没在大量其它信息中,因此充满了变动性。语音特征抽取即是在原始语音信号中提取出与语音识别最相关的信息,滤除其它无关信息。
语音特征抽取的原则是:尽量保留对发音内容的区分性,同时提高对其它信息变量的鲁棒性。历史上研究者通过各种物理学、生理学、心理学等模型构造出各种精巧的语音特征抽取方法,近年来的研究倾向于通过数据驱动学习适合某一应用场景的语音特征。
模型构建
语音识别中的建模包括声学建模和语言建模。声学建模是对声音信号的特征也就是语音特征,进行抽象化。自上世纪70年代中期以来,声学模型基本都是基于统计模型,特别是隐马尔科夫模型/高斯混合模型(HMM/GMM)结构。近年来,深度神经网络(DNN)和各种异构神经网络已成为声学模型的主流结构。