文本摘要和情感分析:新颖的方法
天在各种平台(例如Wikipedia,技术和非技术博客,社交媒体,在线新闻等)上生成大量数据。仅Wikipedia上就有大约五百万篇文章,并且每天有成千上万的新文章添加到它。由于每天收集的海量数据,海量数据轰炸了用户。对于人类而言,很难吸收大量的数据。因此,需要有效的技术来帮助用户吸收数据并使数据可供其使用。
图1用户信息过多。
这项研究的重点是在文本数据上同时使用文本摘要和文本情感分析。汇总将减少数据量,情感分析可帮助用户识别文档中的好,坏和其他信息。摘要技术产生了文本的简短表示,而情绪分析将推断出文本中表达的情感。选择与体育有关的BBC新闻文章来说明文献摘要和情感分析的研究。基本上,有两种类型的摘要技术:提取摘要和抽象摘要。在抽象方法中,开发了文本的语义表示,以产生输入文本的简要概述。提取方法确定文本中单词,短语和句子的权重。他们通过从文本中选择最重要的单词,句子和短语来产生摘要。在这项研究中,提取摘要技术应用于BBC新闻文章,如图2所示。
图2文本摘要。
新闻文件的情感分析
对文本文档的情感分析将使用户理解文本的情感意图。对于给定的文本文档,可以对单词级别,短语级别,句子级别或文档级别执行情感分析。诸如VADER之类的情感分析器会生成诸如积极,消极,中立和综合得分之类的情感信息。它还给出了文本中的正数,负数和中性字数。BBC新闻文档使用VADER进行了情感分析,下表显示了一些新闻文章的情感信息。确定每个BBC文档中名词出现的频率。BBC文档的主要主题集中于该文档中最常见的名词。下表显示了使用VADER收集的各种情感信息。
总结与情感分析
文本摘要给出了原始文本的简短表示。在将文档汇总为简要版本后,可以进行情感分析。下表显示了新闻文章的摘要率分别为25%,50%和75%时的情感评分。BBC新闻的原始文章由16个句子组成,并简化为4个句子,8个句子和12个句子的摘要。原始文章的综合得分为0.9726,对于75%的摘要,其得分为0.9618,对于50%的摘要,得分为0.6908。随着摘要比率的增加,综合得分逐渐降低。
从BBC新闻中,从足球类别中选择了20条体育新闻文章。对于每篇文章,使用具有最大频率和情感信息的名词生成3D柱形图。新闻文章主要关注出现次数最多的名词作为主题讨论的主题。沿x轴显示了出现次数最多的名词,沿y轴显示了负面情绪评分,沿z轴显示了正面情绪评分。3D柱形图突出显示了关于文章主题的情感评分,例如正面和负面分数。图3显示了与足球相关的文章的3D柱形图。
图3.足球用品的3D柱形图。
3D柱形图进一步分析了文章中的复合情感评分和名词出现的次数。沿x轴显示频率最高的名词,沿y轴描述该名词的出现次数,沿z轴描述复合得分。图4显示了足球文章的3D柱形图,在该图中,最重要的是复合分数和名词出现的次数。
图4.具有复合得分的足球用品的3D柱形图。
3维图表中显示了20篇足球文章的综合情感评分。在图5中,显示了20篇与足球相关的文章的3D综合得分。沿x轴显示了肯定词的数量,沿y轴显示了否定情感词的数量,沿z轴显示了复合分数。该图揭示了足球文章中复合得分的变化。
图5. 3D表面的复合情感评分。
生成了新闻感悟的3D散点图。图6显示了20个足球新闻文章的3D散点图。3D空间中的每个点代表否定情感词的数量,肯定情感词的数量和中立情感词的数量。此外,基于复合得分,当复合得分大于零时,商品的情感被认为是积极的(蓝色),当分数小于零时,商品的情感被认为是负的(红色),在分数为零时,商品的情感被认为是中性(绿色)。此散点图显示了新闻文章的情绪分布。
图6.足球新闻文章的3D散点图。
给定许多文章,将以最积极和消极的情绪选择前十个单词。图7显示了20篇足球文章中排名前十的积极情绪词。图8描绘了这些文章中排名前十的负面情绪词。饼图中的每个单词还显示了情感得分及其对前十个单词的贡献。
1