数据准备-- “lang”目录

现在我们关注一下数据准备的“lang”这个目录。

s5# ls data/lang L.fst L_disambig.fst oov.int oov.txt phones phones.txt topo words.txt

除data/lang,可能还有其他目录拥有相似的文件格式:例如有个目录被命名为“data/lang_test”,其中包含和data/lang完全一样的信息,但是要多一个G.fst文件。该文件是一个FST形式的语言模型:

s5# ls data/lang_test G.fst L.fst L_disambig.fst oov.int oov.txt phones phones.txt topo words.txt

注意,lang_test/由拷贝lang/目录而来,并加入了G.fst。每个这样的目录都似乎只包含为数不多的几个文件。但事实上不止如此,因为其中phones是一个目录而不是文件:

s5# ls data/lang/phones context_indep.csl disambig.txt nonsilence.txt roots.txt silence.txt context_indep.int extra_questions.int optional_silence.csl sets.int word_boundary.int context_indep.txt extra_questions.txt optional_silence.int sets.txt word_boundary.txt disambig.csl nonsilence.csl optional_silence.txt silence.csl

phones目录下有许多关于音素集的信息。同一类信息可能有三种不同的格式,分别以.csl、.int和.txt结尾。幸运的是,作为一个Kaldi用户,你没有必要去一一手动创建所有这些文件,因为我们有一个脚本utils/prepare_lang.sh能够根据更简单的输入为你创建所有这些文件。在讲述该脚本和所谓更简单的输入之前,有必要先解释一下lang目录下到底有些什么内容。之后我们将解释如何轻松创建该目录。如果用户不需要理解Kaldi是如何工作的,而是秉着快速建立识别系统的目的,那么可以跳过下面的“lang”目录下的内容这一节。

results matching ""

    No results matching ""