全部版块 我的主页
论坛 数据科学与人工智能 人工智能 语音识别
2657 4
2021-03-31
  SPPAS工具是由Brigitte Bigi(Laboratoire Parole et Langage - Aix-en-Provence - France)开发的。在网上提供免费下载及使用。这是一款目前比较流行的自动标注,音段对齐的工具,目前应用于法语、英语、汉语等都有不错的效果。虽然音段自动对齐的准确率并不完善,但是对于一般的语音研究者来说,能够自动产生出带有音段信息,并且边界相对整齐的Praat标注文件TextGrid已经是大大提升了工作效率。所以推荐给进行语音研究,而且数据量规模很大的朋友。

      有关于这个工具的详细说明,介绍,文档,由此相关的论文等信息请参阅官方网站:http://www.sppas.org/。在这里只是把使用的时候注意的一些地方写出来,以方便一些可能对插件包安装使用并不熟悉的同学。

       首先是一些使用时的注意事项,请想使用软件的同学务必仔细看一下是否符合。

标注文件,及声音对应的文本文件,都必须是UTF8格式
声音文件必须是单通道文件,16位精度,格式为WAVE或者AU;
所有的文件名称中没有特殊字符,比如中文,空格都不允许,推荐只出现字母,下划线,数字或者横线
声音文件和对应的文本文件名称必须完全一致
 
具体使用步骤应该是
安装工具,在自己的电脑上配置这个工具使用的环境(需要安装三个其它工具)
语音最好是录音条件比较好的数据,即录音环境很安静。发音人语音清晰,这样会明显提升自动标注效果。如果是在嘈杂环境的录音,野外录音,这样的自动标注效果很差。
录音文件每一单位之间,最好有比较清楚的停顿,比如你是录音很多字、词,那么发音人在读字,词之间时,最好有一些停顿;如果是录音很多句子,那么句子之间也要有明显的停顿,这样也可以提高自动标注精度;
然后将这样的文件都添加到SPPAS操作窗口里,选择相应的语言,选择音段对齐选项,点击“执行”就可以产生出来音段对齐的TextGrid了
这其中对于如何把工具环境安装好,对于只有文科基础的同学不太容易操作,但是一旦安装好了,以后就可以直接使用了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2021-3-31 19:00:47
1. 安装 python
2. 安装 Julius  Click here to download Julius (release >= 4.1)     https://zh.osdn.net/projects/jul ... 4.3.1-win32bin.zip/
这个组件不需要安装,直接解压到一个目录里
打开这个目录,打开bin目录,找到Julius.exe,注意因为本文下载的是Julius 4.3.1版本,所以其实这个文件名称是Julius-4.3.1.exe,即要把这个文件拷贝到C:\windows\目录下,并且改名为:julius.exe  
注意:64位机器不需要找专门的这个版本,就使用和第(3)同样的方式操作就可以了,已经测试过,是成功了。

3. SPPAS工具的下载安装  http://www.sppas.org/
下载新版本的SPPAS。
下载后直接解压到磁盘根目录下,比如D盘下。D:\sppas\,目录级别不要太深。
打开后,直接打开里面的sppas.bat,就可以运行了。
Setting里面需要设置结果文件为TextGrid,现在软件默认的是xra文件。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-31 19:10:59
制作声音文件和文本
手工制作声音文件和文本文件:
手工录音,然后分别针对每一个录音单位制作文本文件

声音文件和文本文件是对应出现的。文件名称必须一样。而文本文件,比如Sound_1.txt里面就是这个声音的内容,没有其它多余信息。在保存这个文本文件的时候,需要注意编码格式为UTF-8格式,如下面的红色方框所示。

批量制作声音文件和文本文件
使用Praat将连续录制的声音文件切成小单位文件,可以对连续录制的很长的声音文件切分成小的单位文件。在这里要继续使用这个脚本产生的文件名列表,fileList.txt

利用产生的文件名,把录音对应的内容,和文件名对应起来。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2021-3-31 19:12:44

导入SPPAS进行切分
经过上面的步骤,我们已经制作了批量的声音文件和文本文件,把这些文件放在同一个目录内

然后打开SPPAS这个工具,点击Add files将声音文件添加到窗口里,同时,有同样文件名的txt也会被添加到窗口里,把这些文件通过使用ctrl或者shift键,全部选择,然后把右侧的几个对齐的选项选择,并且在语言里选择相应的语言,比如这里选择的是中文,cmn。

系统会自动产生出来对齐音段的TextGrid文件。一般情况下,会同时产生几个TextGrid
只需要最终的结果Sound_-palign.TextGrid文件。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-10-26 16:10:02
非常有用
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群