当前位置: 首页 >> 科技 >
语音识别是新型学科吗?关于自动语音识别你了解多少?
来源:亚洲网     时间:2022-12-16 16:38:09

语音识别是新型学科吗?

语音识别是一门交叉学科。二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。 语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

自动语音识别

为了让机器能够与人类交流和交流,它们需要一种将声音转换为代码的通用媒介。 设备或应用程序如何通过声音“看到”世界?

ASR 流程处理包含语音的给定原始音频文件并将其转录为相应的文本,同时最小化称为单词错误率 (WER) 的度量。

WER 用于测量和比较各种类型的语音识别系统和算法之间的能。 它的计算方法是错误数除以正在转录的剪辑中的单词数。

ASR 流程必须完成一系列任务,包括特征提取、声学建模以及语言建模。

特征提取任务涉及将原始模拟音频信号转换为频谱图,频谱图是表示信号在不同频率下随时间变化的响度的可视图表,类似于热图。转换过程的一部分涉及传统的信号预处理技术,如标准化和窗口化。

然后使用声学建模来模拟音频信号和语言中的语音单元之间的关系。它将音频片段映射到最可能不同的语音单元和相应的字符。

ASR 流程中的最后一项任务涉及语言建模。语言模型增加了上下文表示并纠正了声学模型的错误。换句话说,当您拥有声学模型中的字符时,您可以将这些字符转换为单词序列,然后再将其进一步处理为短语和句子。

从历史上看,这一系列任务是使用生成方法执行的,需要使用语言模型、发音模型和声学模型将发音转换为音频波形。然后,将使用高斯混合模型或隐马尔可夫模型来尝试从音频波形中找到最可能匹配声音的单词。

这种统计方法在实施和部署的时间和精力上都不太准确,而且更加密集。当试图确保音频数据的每个时间步长与字符的正确输出相匹配时尤其如此。

推荐新闻 +
猜您喜欢 +