Disambiguation symbols

消歧符是在被插在词典中音素序列末尾的类似 #1, #2, #3的符号。在词典中当一个音素序列是另一个音素序列的前缀,或者是这个音素序列出现在多个词中,就需要把这些符号加在它的后面。这些符号用来确保 L o G 输出时是确定化的。我们也插入混淆符在两个其它的地方。我们把#0加在语言模型G的补偿弧上,当删除静音后(确定化的方法删除静音),确保G是确定化的。我们也加#-1 在出现在上下文FST C左边的静音的地方,这种情况出现在句子的开始。这对于解决当有的词是用空音素()表示的问题是必要的。

下面是关于怎样证明图编译的中间过程 (e.g. LG, CLG, HCLG) 是确定化的一个概述。这对于确保我们的方法永远不失败是很重要的。我们这里讲的确定化是删除静音后的确定化。主要步骤是: 首先保证G必须是确定化的,这就是为什么需要#0 (这里G确实是确定化的)。然后对于任何确定化的G,我们想让L也是这样,那么L o G也是确定化的。[对于C来说也是一样,把右边的G换成L o G 即可]。这里还有很多理论的细节需要充实,但是我认为对于L有以下两点属性就够了:

•必须是函数形式的

相当于:对于任何的输入序列在L中必须有唯一的输出序列 相当于:对于任何线性接受器A,A o L是线性转换或是空。

• L具有双胞胎属性,比如:同一个输入符号序列不可能对应两个可达到的状态,也就是它们有相同输入序列但不同权重或者不同输出序列的自环。 这对转换器C同样适用。我们认为我们的脚本和代码创建的转换器都具有这些属性。

results matching ""

    No results matching ""