全部版块 我的主页
论坛 数据科学与人工智能 人工智能 人工智能论文版
1022 0
2017-09-29
摘要:互联网的快速发展,特别是Web2.0的概念和技术的应用与推广,带来了全新的媒介形式、社群环境和营销理念。在这种环境下,以互联网为媒介的评论、观点和意见等主观性文本信息成指数级增长,文本意见挖掘技术逐渐成为语言信息处理领域的研究热点。其中如何抽取观点句,即将主观性评论句与客观性描述句区分开来,是文本意见挖掘技术中基础且重要的一环。它不仅可以让用户更快捷地找到产品的相关评价内容,也可以让生产厂家对此产品得到及时的反馈从而进行更深入的研究改进。  本文针对目前观点句抽取领域的现状,重点研究了如何从互联网特定领域的非结构化文本中获取相关信息并抽取观点句的技术,并构建了一个基于自然语言处理的观点句抽取系统。本文的主要工作包括:  1.本文提出了一种融合链接密度与内容相似度的网页正文提取算法。该方法与以往使用的DOM树解析方法不同,无需使用网页分析工具,而是将网页源码看作一个字符串,并按标签分割为不同的节点,利用节点内容与标题内容的相似度以及节点内的链接密度来判断其是否为正文的起始或结束节点。  2.本文提出了一种SVM和组合列表密度相结合的网页评论提取算法,即新闻正文下面大多数都包含诸如:“有XX人参与评论”、“本文共有XX条评论”的超链接文字,识别提取此类超链接并重定向,可获取短文本候选网页。  3.本文提出了一种规则与统计、粗粒度与细粒度相结合的观点句抽取方法。粗粒度提取中,融合观点特征词、句法特征和依存特征进行提取;细粒度提取中,设计一种全新的CSR序列提取算法,并结合语义角色信息与CRF条件随机场进行提取;最后选取不同的特征组合,利用支持向量机SVM分类器,完成观点句的抽取工作。

原文链接:http://d.wanfangdata.com.cn/Thesis/Y3025173

送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群