介绍

在运行完示例脚本后（见Kaldi教程），你可能会想用自己的数据在Kaldi上跑一下。本节主要讲述如何准备相关数据。本页的读者应该使用最新版本的实例脚本（即在脚本目录下被命名为s5的那些，例如 egs/rm/s5）。另外，除了阅读本页所述内容外，你还可以阅读脚本目录下的那些数据准备相关的脚本。（译者：结合起来看更易理解。）在顶层的run.sh脚本（例如 egs/rm/s5/run.sh）中，最前面的几行命令都是和数据准备相关的，代表数据准备的不同步骤。子目录local/下的脚本都是和数据集相关的。例如，Resource Management（RM）数据集相应的脚本就是local/rm_data_prep.sh。对RM数据集来说，这几行数据准备的命令为：

local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1; utils/prepare_lang.sh data/local/dict '!SIL' data/local/lang data/lang || exit 1; local/rm_prepare_grammar.sh || exit 1;

而对WSJ来说，命令为：

wsj0=/export/corpora5/LDC/LDC93S6B wsj1=/export/corpora5/LDC/LDC94S13B local/wsj_data_prep.sh $wsj0/??-{?,??}.? $wsj1/??-{?,??}.? || exit 1; local/wsj_prepare_dict.sh || exit 1; utils/prepare_lang.sh data/local/dict "<SPOKEN_NOISE>" data/local/lang_tmp data/lang || exit 1; local/wsj_format_data.sh || exit 1;

在WSJ的示例脚本中，上述命令之后还有一些训练语言模型的命令（根据标注重新训练，而不是使用LDC提供的），但是上述几条命令是最重要的。

数据准备阶段的输出包含两部分。一部分与“数据”相关（保存在诸如data/train/之类的目录下），另一部分则与“语言”相关（保存在诸如data/lang/之类的目录下）。“数据”部分与数据集的录音相关，而“语言”部分则与语言本身更相关的内容，例如发音字典、音素集合以及其他很多Kaldi需要的关于音素的额外信息。如果你想用已有的识别系统和语言模型对你的数据进行解码，那么你只需要重写“数据”部分。

介绍

介绍

results matching ""

No results matching ""