统语音识别系统的声学建模一般通过发音单
端到端模型传元、H声学模型、词典等信息源建立从声学观察序列到单词之间的联系。每一部分都需要单独的学习、训练步骤较为烦琐。端到端En--EnEE结构使用一个模型把这三个信息源囊括在一起实现从观察序列到文字的直接转换。最新的一些进展甚至把语言模型的信息也囊括进来取得了更好的性能。自年以来端到端模型日益成为语音识别的研究热点。 二、语言模型 主流语言模型一般采用基于统计的方法通常是概率模型。计算机借助于模型参数可以估计出自然语言中每个句子出现的可能性。统计语言模型采用 荷兰 WhatsApp 号码数据 语料库训练得到强调语料库是语言知识的源泉通过对语料库进行深层加工、统计和学习获取自然语言文本中的语言学知识从而可以客观地描述大规模真实文本中细微的语言现象。 N-r模型 N-r统计语言模型由于其简单、容易理解等优点在很多领域得以广泛使用。 基于神经网络的语音模型 包括三种常见的语言模型前馈神经网络语言模型、循环神经网络语言模型以及
https://lh7-us.googleusercontent.com/vZsmQvwlDmC0Xq1t3csEruUOXdsBecKKpkpVNwpM1LKQnTo-ZgutdMmj3AQdk3GKbE7aai8kIdfq7A69e0LR79Xe-D71kwdFFE8XLZlopt3oaHfzozk0hIA_D_Wikf6NK0phn62jZkGR6EMWBXKQIn4
长短期记忆的循环神经网络语音模型。 三、解码器 语音识别的最终目的是在由各种可能的单词序列构成的搜索空间中寻找最优的单词序列。这在本质上属于搜索算法货解码算法的范畴即解码器要完成的任务。 搜索空间 语音识别寻找最优的单词序列所有可能的单词序列候选构成了解码过程中的搜索空间。 解码的搜索空间有多种构成方式可以分为动态编译解码空间和静态编译解码空间两大类。动态编译只是预先将发音词典编译成状态网络构成搜索空间其他知识源在解码过程中根据活跃路径上携带的历史信息动态集成。而静态编译解码空间是把所有知识源统一编译在一个状态网络中在解码过程中根据节点间的转移权重获得概率信息。 动态搜索空间解码算法 语音识别寻找最优单词序列的问题可以转化为在树形词典构成的搜索空间中寻找
頁:
[1]