全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1158 4
2022-04-15
摘要翻译:
本文从语音识别问题的角度对阿拉伯语进行了研究。提出了一种建立阿拉伯语自动语音识别系统(ASR)的新方法。该系统基于卡内基梅隆大学的开源CMU Sphinx-4。CMU狮身人面像是一个大词汇量;基于离散隐马尔可夫模型的非特定人连续语音识别系统。我们使用OpenSource CMU Sphinx中的实用程序构建了一个模型。我们将演示此系统对阿拉伯语语音识别的可能适应性。
---
英文标题:
《Introduction to Arabic Speech Recognition Using CMUSphinx System》
---
作者:
H. Satori, M. Harti and N. Chenfour
---
最新提交年份:
2007
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--

---
英文摘要:
  In this paper Arabic was investigated from the speech recognition problem point of view. We propose a novel approach to build an Arabic Automated Speech Recognition System (ASR). This system is based on the open source CMU Sphinx-4, from the Carnegie Mellon University. CMU Sphinx is a large-vocabulary; speaker-independent, continuous speech recognition system based on discrete Hidden Markov Models (HMMs). We build a model using utilities from the OpenSource CMU Sphinx. We will demonstrate the possible adaptability of this system to Arabic voice recognition.
---
PDF下载:
-->
English_Paper.pdf
大小:(93.51 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-15 09:54:35
摘要:本文从阿拉伯语识别问题的角度对阿拉伯语进行了研究。我们提出了一种无方差方法来建立阿拉伯语自动语音识别系统(ASR)。本系统基于卡内基梅隆大学的opensource CMU Sphinx-4。CMU Sphinx是一个大词汇量;基于离散隐马尔可夫模型的非特定人连续语音识别系统。我们使用OpenSource CMU Sphinx中的Utilities构建了一个模型。关键字:语音识别,阿拉伯语,HMMs,CMUSphinx-4,人工智能。引言自动语音识别(ASR)是一种允许计算机识别一个人对着麦克风或电话说的话的技术。它具有广泛的应用领域:命令识别(与计算机的语音用户界面),听写,交互式语音应答,它可以用于学习外语。ASR还可以帮助残疾人与社会互动。它是一种使生活变得更容易和非常有前途的技术[1]。鉴于ASR的重要性,已经开发了许多系统,最流行的有:龙自然说话,IBM通过语音,Microsoft SAPI。开放源码的语音识别系统也可用,如HTK[2]、ISIP[3]、AVCSR[4]和CMU Sphinx-4[5-7]。我们感兴趣的是基于隐马尔可夫模型(HMMs)[8],隐马尔可夫模型(HMM)是一种统计模型,它假设被建模的系统是一个具有未知参数的马尔可夫过程,挑战是根据这个假设从可观测参数中确定隐藏参数。提取的模型参数可以用于进行进一步的分析,例如模式识别应用。它的扩展到外语(英语是标准)代表了一个真正的研究挑战。尽管阿拉伯语目前是世界上最广泛的说话语言之一,但与其他语言相比,关于阿拉伯语的说话识别研究相对较少[9-11]。阿拉伯语ASR的最初工作集中在为现代标准语言(MSA)开发识别器上。阿拉伯语ASRs的开发中最困难的问题是非变音文本材料的优势、方言的巨大多样性和形态的复杂性。韦尔吉里等人。研究基于形态学的语言模型在会话阿拉伯语语音识别系统的不同阶段的使用[9]。K.Kirchhoff等人。[10]研究方言阿拉伯语的识别,并从这种识别的角度研究方言阿拉伯语与正式阿拉伯语之间的差异。D.Vergyri et al[11]研究了阿拉伯语文本的自动变音,以用于ASR的声学模型训练。CMU(卡内基梅隆大学)Sphinx speechrecognition系统是免费提供的,目前是英语中最强大的语音识别器之一。该系统使研究小组在适度的预算下可以快速地开始进行研究和开发应用程序。在本文中,我们试图建立一个基于CMU Sphinx的阿拉伯语ASR。我们描述了我们将该系统扩展到阿拉伯语的经验。II.Phinx使用CMUSphinx系统进行阿拉伯语语音识别的介绍。Satori(1,2)、M.Harti(1,2)和N.Chenfour(2)。(1):UFR Informatique et Nouvelles Technologies d\'Information et de CommunicationB.P.1796年,Dhar Mehraz Fès摩洛哥。(2):département de Mathématiques et Informatique,Facultédes Sciences,B.P.1796年,DharMehraz Fès,摩洛哥电子邮件:hsnsatori@yahoo.frfig。1:CMUSphinx logo.a1)Sphinx-4Sphinx-4语音识别系统是由美国卡内基梅隆大学、SunMicrosystems实验室和三菱电机研究实验室(M.E.R.L)联合开发的,完全用Java TMprogramming语言构建的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:54:41
自从他开始工作以来,Sphinx Groupis致力于发布一组相当成熟的SpeechComponents。自2000年以来,首先是CMU Sphinx I、CMU Sphinx II、CMUSphinxTrain,然后是CMU Sphinx III和CMUSphinx-4,CMU Sphinx项目的大部分已经作为opensource包提供[12-14]。2)SphinxTrainSphinxTrain是CMUSphinx的声学训练环境(适用于sphinx2、sphinx3和sphinx4),于2001年6月7日首次公开发布。它是一套程序、脚本和文档,用于从Sphinx识别引擎套件的数据中构建声学模型。有了这一贡献,人们应该能够为任何语言和条件建立有足够声学数据的模型。不可能通过建立声学模型来进行识别,这需要对来自前端的数据进行比较(见图2)。该模型应使用Sphinx Train Tool.B.Sphinx-4体系结构的设计具有高度的灵活性和模块化。每个标记元素Infigure2代表一个可以轻松替换的模块,允许研究人员在不需要修改系统其他部分的情况下试验不同的模块实现。Sphinx-4体系结构的主要模块是前端、解码器和语言。Sphinx-4架构,主要模块是前端、解码器和语言。前端:它将输入信号(例如音频)参数化到输出特征序列中。它对输入的数据进行数字信号处理(DSP)。--特征:前端的输出是特征,用于系统其余部分的解码。语言学家:或知识库,它提供解码器完成其工作所需的信息。它由三个模块组成:--声学模型:包含一个声音的表示(通常是统计的),通过使用许多声学数据进行训练来创建。--字典:它负责确定一个单词如何发音。--语言模型:它包含一个单词出现概率的表示(通常是统计的)。搜索图:语言学家根据某些标准(如语法)产生的图结构,使用来自字典、声学模型和语言模型的知识。解码器:它是Sphinx-4系统的主要部分,完成了大部分工作。它从前端读取特征,将其与知识库中的数据和应用程序的反馈联系起来,并执行搜索以确定一系列特征可能导致的最有可能的单词序列。安装1)sphinx-4 sphinx-4可以以二进制格式或源代码下载[15]它在Linux和Windows操作系统的不同版本上编译和测试。运行、构建和测试sphinx-4需要额外的软件:oJava 2 SDK,Standard Edition 5.0[16]。oJava运行时环境(JRE)oAnt:促进sphinx-4系统编译和实现的工具[17]。2)SphinxTrain我们可以下载SphinxTrain CMU培训包[13]。SphinxTrain的执行还需要额外的软件:oActive Perl:编辑SphinxTrain提供的脚本[18].oMicrosoft Visual Studio:在Visual C++.D.中编译文件。实现Sphinx-4的实现包括:o从文件菜单中创建新项目o将API Sphinx-4插入新项目中。o…o最后一步包括编写Java代码,以便检查并确定要在系统中使用的组件。iii。阿拉伯语语音识别应用程序a。阿拉伯语是闪族语,是世界上最古老的语言之一。标准阿拉伯语有34个基本音素,其中6个元音,28个辅音[20]。阿拉伯语的元音比英语少。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:54:47
它有三个长元音和三个短元音,而美国英语至少有12个元音[21]。阿拉伯音位包含两个不同的类别,即咽音位和强调音位。这两个类只能在闪米特语中找到,比如希伯来语[20-22]。阿拉伯语中允许的音节有:CV、CVC和CVCC,其中V表示(长或短)元音,而C表示辅音。阿拉伯语只能以辅音开头[20]。所有阿拉伯语音节必须至少包含一个元音。同样,阿拉伯语的元音不能是声母,可以出现在辅音之间,也可以出现在一个词的韵母中。阿拉伯语音节可以分为短音节或长音节。简历类型是短的,而其他的都是长的。音节也可以分为开音节,开音节以元音结尾,而闭音节以辅音结尾。对于阿拉伯语来说,元音总是形成非音节核心,一个词中的音节和元音一样多[23]。Hello阿拉伯语数字应用1:10个阿拉伯语数字,如何发音,音节类型,IPA表示[24]和每个口语数字中的音节数[25]。音素是语音中表示意义、单词或句子差异的最小元素。在本文中,我们描述了创建和开发一个阿拉伯语版本的CMU Sphinx-4语音识别系统的经验。在下面我们给出了用于识别tenArabic数字的aHello_Arabic_Digit应用程序(表1)。像Sphinx-4这样的自动语音识别器系统使用三种与语言相关的模型:--声学模型,它在统计上表示音素的可能的音频表示范围。--发音字典,它根据声学模型中的音素来指定每个单词的发音。--语言模型或语法模型,它对单词用法进行建模。这通常是为应用程序定制的。在Hello_Arabic_Digits中,我们对这三个元素进行了修改,以适应我们的应用。1)语料库准备从所有10个阿拉伯语数字中创建了一个内部语料库,对6名摩洛哥语使用者(6名男性)进行了5次所有数字的询问,因此语料库由每个使用者产生的每个数字的5次重复组成。根据这一点,小体由300个令牌组成。在记录会话期间,回放eachuterance以确保整个数字包括在记录的信号中。所有300个(10个数字·5个重复·6个说话人)令牌都被用于训练阶段。2)为了评估应用的性能,我们在不同的个体(三名男性)上进行了一些实验,每个人都被要求说出10个阿拉伯数字。我们记录正确识别的单词数,然后计算每个测试者的平均识别率(见表2)。表2:Hello_Arabic_DigitApplication的测试结果。3:执行Hello_Arabic_Digit应用。考虑到所使用的训练语料库(个人语料库)与英语语料库相比规模非常小,结果非常令人满意。结论:设计了一个阿拉伯语语音识别系统,研究了语音自动识别的过程。该系统基于卡内基梅隆大学的CMUSphinx-4。最后给出了一个应用Hello_Arabic_Digit来说明该系统对阿拉伯语语音的可能适应性。我们计划扩展到广泛的阿拉伯语语言的应用,特别是摩洛哥方言语言。参考文献[1]A.Yousfi,“Integration de la vitesse d\'élocution et de l\'énergie dans unmodèle de securition automatique de la parole,Thèse de Doctorat,Facultédes Sciences Oujda,2002.[2]S.Young,”HTK隐马尔可夫模型工具包:设计与哲学“,剑桥大学工程系,英国,技术代表。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:54:49
Cued/Finfeng/TR152,1994年9月。[3]N.Deshmukh,A.Ganapathiraju,J.Hamaker,J.Picone和M.Ordowski,“一个公共领域的语音到文本系统”,载于Proc.6theuropean conf。《语音通信与技术》卷。[5]布达佩斯,匈牙利,1999年9月,第2127-2130页。[4]X.X.Li,Y.Zhao,X.Pi,L.H.Liang,a.V.Nefian,“使用耦合隐马尔可夫模型的音频-视觉连续语音识别”,见第2页。第七届国际会议。口语处理,丹佛,科,2002年9月,第213-216页。[5]K.F.Lee,H.W.Hon,R.Reddy,“SPHINXspeech识别系统概述”,IEEE声学学报,语音信号处理,卷。38,没有。[6]X.Huang,F.Alleva,H.W.Hon,M.Y.Hwang,R.Rosenfeld,“TheSphinx-II语音识别系统:概述”,《计算机语音识别语言》,卷。7,没有。[7]M.K.Ravishankar,“语音识别的有效算法”,博士论文(CMU技术报告CS-96-143),卡内基梅隆大学,匹兹堡,宾夕法尼亚州,1996。[8]X.D.Huang,Y.Ariki,M.A.K.Kirchho,J.Bilmes,J.Henderson,R.Schwartz,M.Noamany,P.Schone,G.Ji,S.Das,M.Egan,F.He,D.Vergyri,D.Liu,N.Duta.2002。阿拉伯语语音识别的新方法。[10]D.Vergyri,K.Kirchhoff,K.Duh,A.Stolcke,“基于形态学的阿拉伯语语音识别语言建模”,载INTERSPEECH2004,2245-2248,2004.[11]D.Vergyri,K.Kirchhoff.“语音识别中阿拉伯语声学建模的自动变音”。Ali Farghaly and KarineMegerdoomian,editors,COLING 2004 Computational Progress toArabic Script-based Languages,pp.66-73,Geneva,Switzerland,2004.[12]G.Z.Hong“Digital Video Library的语音识别技术”,香港大学,2002.[13]卡内基梅隆大学。狮身人面像4。可查阅:http://cmusphinx.sourceforge.net.[14]x.d。Huang,“SPHINX-II语音识别系统:AnOverview”,计算机语音与语言,卷。2,1993年;K.F.Lee,“自动语音识别与SPHINXSystem的发展”,Kluwer学术出版社,1989。[15]http://cmusphinx.sourceforge.net/sphinx4。[16]Sun Microsystems。可查阅:http://java.sun.com.[17]http://ant.apache.org.[18]http://www.activeState.com.[19]M.Al-Zabibi,“Automatic ArabicSpeech识别中的声学-语音方法”,大英图书馆与UMI合著,1990年。[20]A.Muhammad,Alaswaat Alaghawaiyah,Daar Alfalah,约旦,1990年(阿拉伯文)。[21]J.Deller,J.Proakis,J.H.“SpeechSignal的离散时间处理”,Macmillan,NY,1993。“22”M.Elshafei,“迈向阿拉伯语文本转换语音系统”,阿拉伯科学与工程学报。4B否。16,第565-583页,1991年。El-Imam,“一个不受限制的词汇阿拉伯语语音合成系统”,IEEE关于声学,语音,和信号处理的交易卷。37号,没有。[24]G.Pullum,W.Ladusaw,《语音符号指南》,芝加哥大学出版社,1996年。和薪酬。第173、115、2005页。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群