全部版块 我的主页
论坛 经济学人 二区 外文文献专区
928 5
2022-04-15
摘要翻译:
在本文中,我们提出了一个阿拉伯语版本的自动语音识别系统(ASR)的创建。该系统基于卡内基梅隆大学的开源Sphinx-4。它是一种基于离散隐马尔可夫模型的语音识别系统。我们研究了为了适应阿拉伯语语音识别而必须对模型进行的更改。关键词:语音识别,声学模型,阿拉伯语,HMMs,CMUSphinx-4,人工智能
---
英文标题:
《Arabic Speech Recognition System using CMU-Sphinx4》
---
作者:
H. Satori, M. Harti and N. Chenfour
---
最新提交年份:
2007
---
分类信息:

一级分类:Computer Science        计算机科学
二级分类:Computation and Language        计算与语言
分类描述:Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.
涵盖自然语言处理。大致包括ACM科目I.2.7类的材料。请注意,人工语言(编程语言、逻辑学、形式系统)的工作,如果没有明确地解决广义的自然语言问题(自然语言处理、计算语言学、语音、文本检索等),就不适合这个领域。
--
一级分类:Computer Science        计算机科学
二级分类:Artificial Intelligence        人工智能
分类描述:Covers all areas of AI except Vision, Robotics, Machine Learning, Multiagent Systems, and Computation and Language (Natural Language Processing), which have separate subject areas. In particular, includes Expert Systems, Theorem Proving (although this may overlap with Logic in Computer Science), Knowledge Representation, Planning, and Uncertainty in AI. Roughly includes material in ACM Subject Classes I.2.0, I.2.1, I.2.3, I.2.4, I.2.8, and I.2.11.
涵盖了人工智能的所有领域,除了视觉、机器人、机器学习、多智能体系统以及计算和语言(自然语言处理),这些领域有独立的学科领域。特别地,包括专家系统,定理证明(尽管这可能与计算机科学中的逻辑重叠),知识表示,规划,和人工智能中的不确定性。大致包括ACM学科类I.2.0、I.2.1、I.2.3、I.2.4、I.2.8和I.2.11中的材料。
--

---
英文摘要:
  In this paper we present the creation of an Arabic version of Automated Speech Recognition System (ASR). This system is based on the open source Sphinx-4, from the Carnegie Mellon University. Which is a speech recognition system based on discrete hidden Markov models (HMMs). We investigate the changes that must be made to the model to adapt Arabic voice recognition.   Keywords: Speech recognition, Acoustic model, Arabic language, HMMs, CMUSphinx-4, Artificial intelligence.
---
PDF下载:
-->
English_Paper.pdf
大小:(152.96 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-15 09:54:58
H.Satori et al.Système de Scourcision Automatique de l\'arabe Basésur Cmusphinxh.Satori(1,2)、M.Harti(1,2)和N.Chenfour(1,2)。(1):UFR Informatique et Nouvelles Technologies d\'Information et Nouvelles Technologies d\'Information et de Communication B.P.1796,Dhar Mehraz Fès Morgana.(2):Département de Mathématiques et Informatique,Facultédes Sciences,B.P.1796,DharMehraz Fès,摩洛哥电子邮件:hsnsatori@yahoo.frabstractact本文提出了一个基于卡内基梅隆大学开放源码Sphinx-4的自动语音识别系统(ASR)的阿拉伯版本。它是一个基于离散隐马尔可夫模型的语音识别系统。关键词:语音识别、声学模型、阿拉伯语言、HMMs、CMUSphinx-4、人工智能。Résume.Dans ce travail nous allons réaliser un système de la Plaole Automatique de la Plaole(RAP)basésur leCMU Sphinx4。Ce dernier est un projet开源Del\'UniversitéCarnegie Mellon。阿拉伯的侦察。MOTS-CLés:假释侦察、声乐侦察、阿拉伯语言、HMMs、CMUSphinx-4、智能人工1。概论:侦察自动化,语言自动化,技术自动化,信息自动化,逻辑自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化,语言自动化。Elle permetàune machine d\'extraire le message口头contenu dans unsignal de praole。技术利用了信息领域的特点信号和智能人工[1]。Les applications qu\'ontpeut imaginer sont nombreuse:aider Les personneshandapées,contróle vocal des machines,réservationdes vols,apprentissage d\'autres langes等[2]。Vue l\'portality de la RAP,plusieurs systèmes ontétéveloppés pour la securability vocale,parmi lesplus connus:Dragon Natural Roing,IBM Viavoice,Microsoft SAPI et d\'autre.Aussi,il y a des OpenSources comme HTK[3],ISIP[4],AVCSR[5]和CMUSphinx[6-8]。modèles de Markov cachés(MMC),englais Hiden Markov Models(HMM)[9]。Nous avons constatéque le système de seconcaissancede la parole CMU Sphinx 4 est librement disponible(开源)和il est actuellement l\'un des systèmes de systèmes de systèmes de parole les plus puissants.Le CMUSphinx permetàdes groupes de recherche avec desbudges modestes de velopper和de conduire desapplications de recherches dans la securition de laparole。Pour ces raisons et d\'autres,nous avons choisi cesystème Pour développer notre application Pour lareconnansissance de la langue arabe[10-11]。勘测自动化工程基地的建设工作。斯芬克斯4.2。斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·斯芬克斯·CMU Sphinx4est une librairie de classes et d\'outils可拆卸enlangage de programmation Java。Cette librairie estgratuiteàtélécharger,elle vice Principement a construction des systèmes de securability vocale。CMU Sphinx-4 est un système de Markov Cachés(HMM)。Il aétécrééconjoinement par le groupe Sphinxàl\'universtéCMU,les laboratoires Sun Microsystems et Hewlett-Packardcompany[12-14].Sphinxtrain est l\'outil crée par CMU pour ledéveloppement des modèles acoustiques.《程序和文件汇编》和《宪法》。2.1。建筑。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:55:04
Satori et al.Sphinx-4 Présente un ensemble d\'outils dereconsansismance vocale(voir图1)flexiblesmodulaires和extensibles formant un véritable Bancd\'essais和un puissant Environmentment de recherche pourles technologies de Evestigation automatique de Laparole.1:狮身人面像建筑4.前台:découpe la voix enregistrée en différentesparties et les prépare pour le décodeur。《有声信号》。o特点:语言学家:你的基础de connaissances qui estl‘information qui\'utilise le décodeur pour déterminerer lesmots et les proncées,-字典。-声学模型:modèle acoustique,un modèlestatistique décrivant la données dephonèmes.-语言模型:un modèle de langage,il donne lappabilition d\'unt donné,bas sur desconnaissances tirees du dictionnaire.o搜索图:continent toutes les possibles bas sur LanguageModel.o解码器:oud décodeur que est coeur de spossibles bas sur LanguageModel.我们比较一下avec la base deconnaissances pour donner unrésultatàl\'application。安装2.2.1 Sphinx-4Sphinx-4 peut tre téléchargéde l\'internent sousforme binaire sousforme源代码[15]。Il aétécompiléet testésur plusieurs版本de Linux和surwindows。狮身人面像4 demande deslogiciels supplémentaires qui sont:oJava 2 SDK,Standard Edition 5.0[16].oJava运行时环境(JRE)oLes différentes librairies qui composent Sphinx-4.oAnt:L\'outil pour information la compilation enutatisant Les taches répétives[17].2.2.2 SphinxTrain télécargetable dont le le lient s qui composities pourSphinxTrain et permet de travailler dans un-Unix类似的环境倒出Windows平台[18].Microsoft Visual Studio:倒出编译器Les sourcesen C afin de produire Les exécutables.3.《阿拉伯世界的侦察》,《elle estparmi les langues les plus Antiennes dans le monde》[19]。《阿拉伯分类标准》a 34 phonèmes parmilesquels 6 sont voyelles和28 sont des consonnes[20]。《阿拉伯分类标准》a les phonèmes se distinuent par la présence dedeux classes qui sont applées pharyngales etemphatiques.Ces deux classes sont caractéristiques deslangues sémitiques comme l\'hébreu[20-22]。Les syllabes permises dans la langue arabe sont:CV,CVC et CVCC。Oüle V désigne voyelle courte oulongue et le C représente une consonne[20].la langue arabe comporte cinq types de cyllabes classéesselon les trais ouvert/ferméet court/long.Une syllabe estdite ouverte(respectivement fermée)si elle se terminepar Une voyelle(respectivement Une consonne)。Toutesles教学大纲开始的par une consonne suivie d\'unevoyelle和elles comporent une seule voyelle。La syllabeCV peut se trouver au début,au milieu ouàLa fin du mot[22-25]。3.1 CorpusLe corpus est constituédes dix premiers chiffres del\'arabe classique de 0à9。六只蝗虫marocaines,3只雄性和3只雌性,sont invitésàproncer les dixchiffres cinq fois。Le corpus comprend cinq repétitionspar chaque蝗虫du méme chiffre。Ainsi,le corpusest constituéde 300代币(10个chiffre.5个repétions.6个蝗虫)。挂件l\'enregistrement,chaque repétition aétérejouée pour s\'assurer que le chiffre entier aétéincusdans le signal enregistré。Dans le tableau 1 sont donnéscertains paramètres d\'enregistrement du corpus.hSatori et al.fig。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:55:12
2:fectorgramme du chiffre 4(d)locuteur 2essai 2,générépar l\'open source wavesurfer[26]。paramètre valeurechantillonage 16 kHz,16 bitsWave格式Mono,wavecorpus 10 chiffres arabesLocuteur 6(3男+3女)Tableau 1:paramètres d\'enregistrement ustilisépour paration du阿拉伯语数字。杜兰特·拉分阶段的学徒、培训、查que Unitéacoustique ouphonème est représt a par un modèle statistiquedécrivant la données。signal paroleest transformationéen une e secteurs decaractéristiques(特征向量)cprenant lescoentifients MFCC(Mel-Frequency cepstralcoffients)[27]。translittérationalphabetsymployment l\'ensemployment l\'ensemployment l\'ensemployment l\'ensemployment l\'ensemployment l\'SSLam de phonèmes,utilisépourarabicdigites象征符号(voir tableau 2)aétéutilisépourl\'apprentissage desétats HMM velications au modèleacoustique de la démonstration arabic_digits.Le système doit savoiràquel HMM velicationschaque variable(phonème)。Ces informations Sontstockées dans un fichier AppleéDictionnaire。Il permet defaire une représentation symbolique pour chaque mot。Ilpermet ainsi d\'alimenter l\'application Sphinxtrain pourproduire le modèle acoustique。[译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][译文][3.3语言(语言模型)语言模型(语言模型和语法模型)应用程序的用法。Chaque mot dans le modèle de langedoitétre dans le dictionnaire de发音。Le choixd\'un modèLe de langue dépendde l\'application,Danscaters cas il n\'est pas fasile,ce n\'est pas Le cas dansnotre démonstration阿拉伯语数字(voir图3)。Satori et al./***JSGF Digits Grammar for Hello Arabic Digits Example*/Grammar ArabicDigits;Public<ArabicDigits>(0 1 2 3 4 5 6 7 8 9)*;图。3《阿拉伯数字应用程序法》。狮身人面像4.....................................算法的本质,行为的本质,行为的本质,行为的本质,行为的本质,行为的本质,行为的本质,行为的本质。3.5行为的本质,行为的本质,行为的本质,行为的本质,行为的本质,行为的本质,行为的本质,行为的本质,行为的本质,行为的本质。Despersonnes,des deux sexes,sont invitéesàproncer lesdix chiffres arabes de 0à9。Nous avons enregistrélenombre de chiffres crectionement receptionmental,un tauxmoyen de calcullé(voir tableau 4 et5)。Essaiessaisaitaux deReconnaissacem 19 8 9 86,66%M28 9 9 86,66%M38 8 9 83,33%W19 8 8 83,33%W28 8 8 80,00%W39 9 8 86,66%表4:应用程序阿拉伯语digitspour de l\'application阿拉伯语digitspour des locuteurs,Outm désigne Homme第5:Taux de侦察moyen pour descocuteurs des deux sexes。les sultats sont très setfaisants vu la taille denotre corpus d\'prentissage qui est reservation petition。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:55:18
最简单的推荐和培训(培训)avecplus de 500 voix différentes[28]pour atteindre untauxde de 100%的侦察。Nous n\'avons pas ustiliséuncorpus volumineux pour l\'apprentissage,mais nosrésultats sont déjàingrageants。结论:结论,联合国侦察自动化系统,以及阿拉伯国家的复兴。梅隆卡内基大学狮身人面像4。应用程序,阿拉伯语言的适应能力。Dans les perspectives,nous projetons d\'étendrel\'应用程序是languearabe的大词汇表。澳大利亚,la réalisation d\'un système pour lareconnissance du adiculte marocain。Références[1]C.Barras,“侦察继续:改编au locuteur et Contróle temporel dans Lesmodèles de markov Cachés”博士论文,巴黎大学,1996年。[2]http://fr.wikipedia.org/wiki/securition_vocale。[3]S.Young,“HTK隐马尔可夫模型工具包:设计与哲学”,剑桥大学工程系,英国,技术。Rep.Cued/Finfeng/TR152,1994年9月。[4]N.Deshmukh,A.Ganapathiraju,J.Hamaker,J.Picone和M.Ordowski,“一个公共领域的语音到文本系统”,载于Proc。第六届欧洲大会。演讲交流与技术。5,匈牙利布达佩斯,1999年9月,第2127-2130页。[5]X.X.Li,Y.Zhao,X.Pi,L.H.Liang,A.V.Nefian,“基于声源隐马尔可夫模型的视听连续语音识别”,见第5版。7ththInternational Conf。口语处理,丹佛,2002年9月,第213-216页。[6]K.F.Lee,H.W.Hon,R.Reddy,“theSPHINX语音识别系统概述”,IEEE Transactionson Acoustics,speech and Signal Processing,Vol.38,第1期,第35-45页,1990年1月。[7]X.Huang,F.Alleva,H.W.Hon,M.Y.Hwang,R.Rosenfeld,“SPHINX-II语音识别系统:综述”,《计算机语音与语言》,卷。7,没有。2,第137-148页,1993。[8]M.K.Ravishankar,“语音识别的高效算法”,博士论文(CMU技术报告CS-96143),卡内基梅隆大学,匹兹堡,宾夕法尼亚州,1996。[9]X.D.Huang,Y.Ariki,M.A.“语音识别的隐马尔可夫模型”,爱丁堡:爱丁堡大学出版社,1990。[10]H.Satori M.Harti和N.Chenfour,“使用CMU SphinxSystem的阿拉伯语语音识别介绍”,提交INT。朱尔。薪酬的。SC.APPL。(2007).[11]H.Satori M.Harti和N.Chenfour,“基于Cmusphinx的阿拉伯语语音识别系统”ISCIII 2007Agadir Maroc.(28-30火星2007).H。Satori等[12]G.Z.Hong“DigitalVideo Library的语音识别技术”,香港大学,2002。[13]卡耐基梅隆大学。狮身人面像4。可查阅:http://cmusphinx.sourceforge.net.[14]x.d。Huang,“SPHINX-II语音识别系统:概述”,计算机语音与语言,卷。2,1993年;K.F.Lee,“自动语音识别--狮身人面像系统的发展”,KluwerAcademic Publishers,1989.[15]http://cmusphinx.sourceforge.net/sphinx4.[16]Sun Microsystems.可查阅:http://java.sun.com.[17]http://ant.apache.org.[18]http://www.activestate.com.[19]M.Al-Zabibi,《自动阿拉伯语语音识别中的声学-语音方法》,英国图书馆与UMI,1990年。[20]A.Muhammad,Alaswaat Alaghawaiyah,DaarAlfalah,约旦,1990年(阿拉伯文)。[21]J.Deller,J.Proakis,J.H.“语音信号的离散时间处理”,Macmillan,纽约,1993。“22”M.Elshafei,“面向阿拉伯语文本到语音系统”,阿拉伯科学与工程学报。4B否。第16页。1991年565-583年[23]Y.A.El-Imam,“一个不受限制的词汇表阿拉伯语音合成系统”,IEEE论文集,声学,语音,和信号处理卷。37号,没有。12,第1829-1845页,1989。[24]Y.Ajami Alotaibi“在语音识别设置中研究阿拉伯口语数字”。和薪酬。sc.pp.173、115、2005。[25]s.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-15 09:55:20
Baloul,“développement d\'un système automatique desynthèse de la paroleàparrir du texte arabe standardvoyellé,”Thèse de Doctorat,Universitéde Maine,LeMans,2003。[26]http://www.speech.kth.se/wavesurfer[27]a。Varela、H.CuayáHuitl和J.A.Nolazco-Flores“创建一个墨西哥西班牙语版本的CMUSphinx-III语音识别系统”Springer,vol.2905,2003。[28]黄旭,洪宏,“口语处理理论、算法与系统设计指南”,学堂,2001。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群