The Kaldi script-file format

脚本文件(script file)(名字可能不太合适)是一个文本文件,每一行一般包括:

some_string_identifier /some/filename

另外一种有效的行可能是这样:

utt_id_01002 gunzip -c /usr/data/file_010001.wav.gz |

当读取 script file的一行时,Kaldi 会去除开头和结尾的空格,再以空格为分隔符进行拆分。 第一部分成为表的 key(例如发声id,在上面例子里是“utt_id_01001”),而第二部分成为 xfilename(即 wxfilename或 rxfilename,在上面例子里是“gunzip -c /usr/data/file_010001.wav.gz |”)。 空行或空 xfilename是不允许的。 script file用于读或写或同时读写都是可以的,这取决于 xfilenames是否是有效的 rxfilenames,或 wxfilenames,或两者兼而有之。

假设一个 script file是读取有效的,包含一些 Kaldi类中的对象。通常可以读出其中的一行, 用Input对象打开(见 How to open files in Kaldi)。如果是二进制的,文件流会包括二进制文件头“\0B”(即使是在文件的中间部分,如 archive)

results matching ""

    No results matching ""