介绍

在运行完示例脚本后(见Kaldi教程),你可能会想用自己的数据在Kaldi上跑一下。本节主要讲述如何准备相关数据。本页的读者应该使用最新版本的实例脚本(即在脚本目录下被命名为s5的那些,例如 egs/rm/s5)。 另外,除了阅读本页所述内容外,你还可以阅读脚本目录下的那些数据准备相关的脚本。(译者:结合起来看更易理解。) 在顶层的run.sh脚本(例如 egs/rm/s5/run.sh)中,最前面的几行命令都是和数据准备相关的,代表数据准备的不同步骤。子目录local/下的脚本都是和数据集相关的。例如,Resource Management(RM)数据集相应的脚本就是local/rm_data_prep.sh。对RM数据集来说,这几行数据准备的命令为:

local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1; utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang || exit 1; local/rm_prepare_grammar.sh || exit 1;

而对WSJ来说,命令为:

wsj0=/export/corpora5/LDC/LDC93S6B wsj1=/export/corpora5/LDC/LDC94S13B local/wsj_data_prep.sh $wsj0/??-{?,??}.? $wsj1/??-{?,??}.? || exit 1; local/wsj_prepare_dict.sh || exit 1; utils/prepare_lang.sh data/local/dict "<SPOKEN_NOISE>" data/local/lang_tmp data/lang || exit 1; local/wsj_format_data.sh || exit 1;

在WSJ的示例脚本中,上述命令之后还有一些训练语言模型的命令(根据标注重新训练,而不是使用LDC提供的), 但是上述几条命令是最重要的。

数据准备阶段的输出包含两部分。一部分与“数据”相关(保存在诸如data/train/之类的目录下),另一部分 则与“语言”相关(保存在诸如data/lang/之类的目录下)。“数据”部分与数据集的录音相关,而“语言”部分 则与语言本身更相关的内容,例如发音字典、音素集合以及其他很多Kaldi需要的关于音素的额外信息。 如果你想用已有的识别系统和语言模型对你的数据进行解码,那么你只需要重写“数据”部分。

results matching ""

    No results matching ""