全部版块 我的主页
论坛 数据科学与人工智能 人工智能 人工智能论文版
1324 0
2017-09-29
摘要:自然语言处理技术的发展给人们生活带来了很多方便。有监督学习方法在自然语言处理领域取得了巨大成功,然而由于其依赖大量的标注语料,很难扩展到标注语料缺乏的情况。自然语言处理领域有很多任务缺乏标注语料,但是未标注语料却很容易获得,此时,半监督学习是一个好的选择。半监督学习主要研究内容是如何同时利用标记数据和无标记数据,获得比仅能利用标记数据的有监督学习方法更好的性能。目前,半监督学习受限于高昂的计算代价,不能很好的应用与规模较大的自然语言处理任务中。  本文主要研究了如何将基于主动学习(active learning)以及基于图(graph based)的半监督机器学习算法更好的应用于自然语言处理任务中。首先,本文提出了一种基于主动学习策略的半监督支持向量机框架,使用平均随机梯度下降(ASGD)方法做模型求解,并重点研究了合理的主动学习策略,将时间和空间复杂度都降到了线性。在文本分类和情感分类的实验结果证明我们的方法能够和其他主流的半监督支持向量机达到相当的效果,并且大幅的提升了训练速度。同时,该学习框架也可以推广到其他半监督学习模型中。然后,本文研究了基于图的半监督算法在词性标注上的应用,将基于锚图的标记传播算法应用到了词性标注任务中,重点研究了自然语言处理中数据稀疏的解决办法,探讨了词向量的使用方式。实验结果表明基于图的半监督算法结合词向量的上下文特征表示方式可以有效提高词性标注准确率。本文又对上述两种机制的算法进行了深入的分析比较,从理论和实验上分析了两种方法的原理,基本假设,时间空间复杂度和适合的特征,并给出了面对实际问题时如何选择两种方法的建议。最后,本文将基于图的半监督算法应用于跨语言词性标注任务中,解决未登录词的词性估计问题,实验结果证明,相比于传统的标记传播算法,基于锚图的标记传播算法结合词向量特征的表示方式可以更有效的利用语料的信息,提高跨语言词性标注的准确率。

原文链接:http://d.wanfangdata.com.cn/Thesis/D593491

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群