自动标注语音 - 经管之家

2846

收藏 2021-03-31

  SPPAS工具是由Brigitte Bigi（Laboratoire Parole et Langage - Aix-en-Provence - France）开发的。在网上提供免费下载及使用。这是一款目前比较流行的自动标注，音段对齐的工具，目前应用于法语、英语、汉语等都有不错的效果。虽然音段自动对齐的准确率并不完善，但是对于一般的语音研究者来说，能够自动产生出带有音段信息，并且边界相对整齐的Praat标注文件TextGrid已经是大大提升了工作效率。所以推荐给进行语音研究，而且数据量规模很大的朋友。

      有关于这个工具的详细说明，介绍，文档，由此相关的论文等信息请参阅官方网站：http://www.sppas.org/。在这里只是把使用的时候注意的一些地方写出来，以方便一些可能对插件包安装使用并不熟悉的同学。

       首先是一些使用时的注意事项，请想使用软件的同学务必仔细看一下是否符合。

标注文件，及声音对应的文本文件，都必须是UTF8格式
声音文件必须是单通道文件，16位精度，格式为WAVE或者AU；
所有的文件名称中没有特殊字符，比如中文，空格都不允许，推荐只出现字母，下划线，数字或者横线
声音文件和对应的文本文件名称必须完全一致

具体使用步骤应该是
安装工具，在自己的电脑上配置这个工具使用的环境(需要安装三个其它工具)
语音最好是录音条件比较好的数据，即录音环境很安静。发音人语音清晰，这样会明显提升自动标注效果。如果是在嘈杂环境的录音，野外录音，这样的自动标注效果很差。
录音文件每一单位之间，最好有比较清楚的停顿，比如你是录音很多字、词，那么发音人在读字，词之间时，最好有一些停顿；如果是录音很多句子，那么句子之间也要有明显的停顿，这样也可以提高自动标注精度；
然后将这样的文件都添加到SPPAS操作窗口里，选择相应的语言，选择音段对齐选项，点击“执行”就可以产生出来音段对齐的TextGrid了
这其中对于如何把工具环境安装好，对于只有文科基础的同学不太容易操作，但是一旦安装好了，以后就可以直接使用了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

olympic

2021-3-31 19:00:47

1. 安装 python
2. 安装 Julius  Click here to download Julius (release >= 4.1)     https://zh.osdn.net/projects/jul ... 4.3.1-win32bin.zip/
这个组件不需要安装，直接解压到一个目录里
打开这个目录，打开bin目录，找到Julius.exe，注意因为本文下载的是Julius 4.3.1版本，所以其实这个文件名称是Julius-4.3.1.exe，即要把这个文件拷贝到C:\windows\目录下，并且改名为：julius.exe
注意：64位机器不需要找专门的这个版本，就使用和第（3）同样的方式操作就可以了，已经测试过，是成功了。

3. SPPAS工具的下载安装  http://www.sppas.org/
下载新版本的SPPAS。
下载后直接解压到磁盘根目录下，比如D盘下。D:\sppas\，目录级别不要太深。
打开后，直接打开里面的sppas.bat，就可以运行了。
Setting里面需要设置结果文件为TextGrid，现在软件默认的是xra文件。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

olympic

2021-3-31 19:10:59

制作声音文件和文本
手工制作声音文件和文本文件：
手工录音，然后分别针对每一个录音单位制作文本文件

声音文件和文本文件是对应出现的。文件名称必须一样。而文本文件，比如Sound_1.txt里面就是这个声音的内容，没有其它多余信息。在保存这个文本文件的时候，需要注意编码格式为UTF-8格式，如下面的红色方框所示。

批量制作声音文件和文本文件
使用Praat将连续录制的声音文件切成小单位文件，可以对连续录制的很长的声音文件切分成小的单位文件。在这里要继续使用这个脚本产生的文件名列表，fileList.txt

利用产生的文件名，把录音对应的内容，和文件名对应起来。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

olympic

2021-3-31 19:12:44

导入SPPAS进行切分
经过上面的步骤，我们已经制作了批量的声音文件和文本文件，把这些文件放在同一个目录内

然后打开SPPAS这个工具，点击Add files将声音文件添加到窗口里，同时，有同样文件名的txt也会被添加到窗口里，把这些文件通过使用ctrl或者shift键，全部选择，然后把右侧的几个对齐的选项选择，并且在语言里选择相应的语言，比如这里选择的是中文，cmn。

系统会自动产生出来对齐音段的TextGrid文件。一般情况下，会同时产生几个TextGrid
只需要最终的结果Sound_-palign.TextGrid文件。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

晏几道

2023-10-26 16:10:02

非常有用

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群