全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2352 0
2020-11-18
文本挖掘和情感分析
多年来,数据收集行为的关键部分一直围绕着其他人的想法。随着诸如个人博客和在线评论网站等以意见为导向的资源的日益普及和可用性,随着人们开始使用先进技术进行决策,新的挑战和机遇正在涌现。情感分析或观点挖掘是指使用计算语言学,文本分析和自然语言处理来识别和提取原始资料中的信息。
情感分析被认为是文本分析最流行的应用之一。情感分析的主要方面包括对文本正文进行数据分析,以理解其表达的观点以及包括情态和语气在内的其他关键因素。通常,情感分析过程最适合具有主观语境的文本,而不是仅具有客观语境的文本。这是因为,当文本主体具有客观的上下文或视角时,文本通常会描述一些正常的陈述或事实,而不会表达任何情感,感觉或情绪。主观文本包含通常由具有典型的情绪,情感和感觉的人表达的文本。情感分析得到了广泛的应用,尤其是作为任何领域的社交媒体分析的一部分,无论是企业,最近的电影,
现代数据科学家的分类
非结构化数据集形式的文本数据可以分为两种类型:
基于事实(客观) /基于观点 (主观)。情感分析最适合具有主观语境的文本。一般而言,社交媒体,调查和反馈数据都经过了广泛的论证,并表达了人们的信念,判断,情感和感觉。
基于特征/方面的分析涉及通过评估实体的不同因素来识别情感或观点。例如,数码相机的图像质量,手机屏幕和银行等。
但是,可以在文本数据的各个级别(包括句子级别,段落级别或整个文档)上计算情感分析。通常,通过考虑整个文档或汇总单个句子的情感来评估情感。
情感分析过程中的基本任务包括对文档中文本的极性进行分类。情感分析通过计算文档的极性来确定文档表达的是正面,负面还是中立的情感。相比之下,更高级的分析甚至可以发现复杂的情绪,包括幸福,愤怒,悲伤和嘲讽。
极性分析
它以积极或消极的情绪形式给文档中表达的情绪评分。最后,它根据合计得分为文档分配标签。情感分析的两种主要技术包括:
有监督的机器学习
基于无监督词典的情感分析
关键思想是通过各种实用和相关的用例来学习通常用于解决情感分析问题的各种技术。
基于监督机器学习的分类算法的概念可通过利用词典(用于专门用于情感分析的词典或词汇)对文档及其相关情感进行分类,并且无需使用任何监督技术即可计算情感。
具有全球影响力的某些使用案例
监督机器学习模型的案例
互联网电影数据库(IMDb)的情感分析评论-
为了对电影评论进行情感分析,假设一个人要考虑50
但是,对于有监督的机器学习模型,过程如下:
监督机器学习技术
在训练数据上训练监督模型,然后在测试数据上评估模型性能是此技术中发生的两个主要步骤。在50
例如,如果评论是“我希望这些电影制片人永远不要团结起来”,其中,“实际标记的情感”为“消极”,而“预测情感”为“消极”。在预测电影评论的情绪方面,受监督的机器学习模型的准确性约为80%。这些模型之所以能够引起人们的关注,是因为它们具有描绘许多功能,易于适应更改输入和测量不确定性程度以进行分类的能力。
基于无监督词典的情感分析案例
社交媒体分析的情感分析
词典的应用被认为是情感分析的两种主要方法之一,该方法涉及根据文本中出现的短语或单词的语义取向来计算情感。该方法使用正负词的字典,其中,将正或负值分配给每个词。在基于词典的模型中,一条源文本消息被认为是某些单词的包。根据此消息的表示,将特定的情感值分配给该消息中的所有否定词和肯定词。最后,应用诸如平均或总和之类的组合函数来预测消息的整体情绪。除了情感价值外,还会考虑短语或单词的局部上下文,例如强化或否定。
情感词典-
假设使用SentiWordNet作为基线构建的情感词典包含6300个单词,并且已为词典中的每个单词或短语分配了一个值,该值描述的情感范围为100(最正)到-100(最负)。不可否认,某些否定词和肯定词有时与句子中的中性含义同时出现。为了解决这个问题,对于来自不同词典的每个单词,除了指定的情感值外,还可以估算条件概率(K)–
K(正| s)为正数s
K(负| s)为负数
根据一组标记数据,对于每个肯定词,让我们估计包含该特定词的任何随机消息为肯定的可能性,并且以相同的方式,估计否定词的概率。我们进一步研究了此类信息的应用程序是否可以管理情绪复杂的消息。训练数据集是根据消息中的缺席表情符号生成的。条件概率是根据单词的正负状态计算出来的,如下所示:
其中#s  K  和#s  N分别  表示来自样本的消息的数量,该样本的单词s为正数和负数。为了获得准确的结果,此过程重复大约100次,然后将平均概率存储在词典中。                                                              
深度学习–情感分析的下一件大事
通常,情感分析方法和系统以局限的方式查看单词或短语。通常,他们为否定词分配负分,类似地,为肯定词分配负分。以后总结这些要点。例如,“我爱这辆车”-这里的“爱”一词代表“ +1”等级,而“茶真的非常非常糟糕”不仅由于单词“坏”而产生“ -1”等级,而且由于使用了“真的,真的”一词,因此也产生了“ -2”的排名。这种基于规则的情感分析类型需要手工进行文本分析和数据解析。这种模式很难转换为其他不同的语言,并且它不适用于Twitter等社交媒体渠道,该渠道简明扼要,特质而短。
在这里,必须将深度学习应用于这些模型。情绪分析的结果必须精确才能有用。许多组织通过实施深度学习模型而获得收益-仅仅是因为实用性和准确性。
与深度学习结合使用时,情感分析不需要手工属性或全面确定的字典,而是利用推理来产生自己的模型。当与递归神经网络(RNN)协同工作时,长短期记忆(LSTM)网络体系结构和语法结构可以精确测量文本中的情感,而无需考虑其在不同通道上的大小。
深度学习使情感分析过程比传统方法更加有效,从而提高了准确性和速度。同样,通过深度学习,情感分析的结果可以准确到90%。
情感和观点报告的需求不断增长
信任和阅读在线评论的客户数量每天都在增加。现在,网络和互联网使消费者可以方便地找到既不是受欢迎的批评家也不是个人熟人的人们的经验和见解,这令人惊讶。
这是一项针对约2000名美国成年人的调查,重点关注信息的强大功能以及客户如何利用信息做出明智的选择,
超过80%的用户至少在线搜索过一次产品;
他们中有20%在典型的一天从事在线研究;
80%的受访者表示他们的购买决定受到在线评论的影响;
60%的人更喜欢五星级的产品而不是四星级的产品。
32%的人通过在线评分系统对服务,个人或产品进行了评分。
上面数据揭示的对在线建议和建议的好奇心和依赖性是引起人们高度重视处理意见和情感的系统和方法的原因之一。
意见挖掘-数据科学家的前8大挑战
情感分析工具数据科学家的爱
如果有人在谈论您,您肯定会想找到证据。对于业务流程和组织而言,别无选择-因为他们需要知道人们对品牌的看法。在这种情况下,当务之急是品牌必须认真听取客户的声音,以了解他们对公司的评价,更重要的是,要判断其正面还是负面。以下提到的工具可帮助公司跟踪客户的情绪-
乘此行来进一步发展自己的职业
情绪分析仍处于起步阶段,并在不断发展,并在众多应用程序中变得越来越流行。组织正在将情绪分析作为改善营销策略和衡量销售的主要手段。为此,一些组织正在开发自己的策略和工具,而另一些组织则将此任务外包给专门从事同一领域的公司。但是,寻找梦想工作的最高职位包括伦敦,英国,伯克希尔,伯明翰,东南部和印度。
在大数据驱动的情况下,数据科学家,数据分析师以及获得认证的开发人员都得到了充分的补偿和追捧。这是市场趋势所说的-
文本挖掘才刚刚开始-获得认证并提前进行
从获得实践技能到学习职业追求的方方面面,没有什么认证可以帮助您朝正确的方向发展。为了成为一名成功的数据分析师或数据工程师,从事情感分析事业,专业认证起着至关重要的作用,因为它提供了一种工具,使具有基本技能和知识的人可以被公认为“思想领袖”。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群