当前位置: 首页 >> 科技 >
语音识别补充音素该怎么做?结构化系统分析及设计方法是?
来源:创视网     时间:2023-02-28 16:42:28

语音识别补充(一)(音素,三音素)

语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成。一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等;

协同发音:(指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。)的存在使得音素的感知与标准不一样,所以我们需要根据上下文来辨别音素。将一个音素划分为几个亚音素单元。如:数字“three”,音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,这就是为什么在用HMM模型做语音识别时,选择音素的三状态HMM模型。

有时候,音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素。但它与亚音素不同,他们在波形中匹配时长度还是和单一音素一样。只是名字上的不同而已,所以我们更倾向于将这样的多元音素称为senone。一个senone的上下文依赖比单纯的左右上下文复杂得多,它是一个可以被决策树或者其他方式来定义的复杂函数。(英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。)

特征:我们用帧frames去分割语音波形,每帧大概25(原文10ms,大部分资料都是以25ms为基准)ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的特征,用特征向量来表示。而如何提取特征向量是当下热门的研究课题,但这些提取方法都是由频谱衍生出来的。

结构化系统分析及设计方法

结构化系统分析及设计方法(Structured systems analysis and design method)简称SSADM,是一种分析及设计资讯系统的系统化方法。结构化系统分析及设计方法是由英国商务办公室在1983年提出。

结构化系统分析及设计方法是一种瀑布模型的设计方法,是针对资讯系统的分析及设计。结构化系统分析及设计方法是一种严格由文件主导的系统设计方法,和例如的后来出现的敏捷软件开发设计方法(如Scrum及动态系统开发方法等)恰好相反。

结构化系统分析及设计方法是以许多结构化分析及结构化设计的研究为基础,包括彼得·切克兰德的软件系统方法论、赖瑞·康斯坦丁的结构化设计、爱德华·尤登的尤登结构化方法、迈克尔·安东尼·杰克逊的杰克逊结构化程序设计以及汤姆·狄马克的结构化分析等。

推荐新闻 +
猜您喜欢 +