3. 微博情感分析研究现状目前关于中文微博情感分析方而的研究工作尚处于起步阶段。国外对于微博的情感分析进行了一些探索,但是具体应用到中文领域,存在一定局限性,如140字的中文所蕴含的信息要比英文更为丰富;中文微博引入了表情、图片、视频等多媒体表现形式,英文微博只是文字的表达,在产品设计上存在不同;中文与英文的语法规则和语言习惯存在很大的不同,更强调上下文语境,英文意义的表达更为直接。
3.1 国外研究现状目前国外研究方面,H.Kwak等对Twitter是一种社会网络还是新媒体进行了分析。J.Weing等提出了一种TwitterRank思想,在有影响力的Twitter发布者中寻找敏感话题。A.D.Srama对类似Twitter的论坛在其排序机制方面进行了研究。现今国外对微博的研究重点在Ranking方面,从时空角度对微博平台中谈论的事件发现、跟踪和还原正成为微博研究的又一个聚焦点。Kevin等提出了一种基于词汇的方法,该方法用简单的观点词汇来确定观点的情感语义倾向。观点词汇是指经常被用于表达正面或者负面情感的词,这种方法从根本上取决于出现在对象或对象特征附近的正面或负面观点词个数。如果正面观点词个数大于负面观点词个数,那么最终观点就是正面的,否则为负面的。观点词汇集合利用英文词网(WordNet)通过引导过程得到,这种方法简单有效,能给出较合理的结果,但也存在较大的问题,观点词是依赖于内容的,在不同的语境中它所表达的语义倾向可能完全不同。Ding等人提出了一种基于全局词汇的方法,该方法充分利用了外部证据和自然语言表达中的语言约定。Bermingham等人研究结果表明,针对微博进行情感分析相对传统博客的效果将会更好,微博已经成为情感分析与观点挖掘的有效文本领域。Go等人利用机器学习的方法对微博消息进行情感分类,即判断一条微博消息的情感倾向是正面还是负面。在训练集的选择上,利用微博中的表情作为类别标记,然后利用朴素贝叶斯和支持向量机等不同的分类算法训练分类器,从而实现微博的情感分类。Kim等人研究了Michael Jackson的死亡对Twitter用户产生的情感影响,结果表明在这段时间内用户的情感普遍表现出低落的趋势。Jansen等人对微博进行随机抽样分析,结果表明大概19%的微博会涉及到针对某个产品品牌的评论,并利用自动分类的方法提取不同用户对相应产品的情感倾向性,指出Twitter可以作为在线市场营销的重要工具。另外,还有研究人员根据Twitter用户发布的微博探测目前股票市场的走势以及预测总统选举的结果等。在应用方面,已开发了用来测量微博褒贬倾向性的在线工具TweetFeel。
在情感倾向性方面,较多相关研究使用正面、负面这两类情感来区分文本中的情感倾向。随着研究的逐步深入,也有研究认为这样的简单情感划分也许会忽略许多丰富、多维的人类情感信息。因此一些相关研究尝试对情感倾向性进行进一步细分。例如,Bollen J等在其研究中创建了一个情感分析工具 GPOMS,能够在“平静的”、“警惕的”、“确信的”、“至关重要的”、“宽容的”、“高兴的”这六个不同的维度上测度网络用户情感。也有学者进一步认为,网络评论中所表达的情感不仅有多维度的划分,每种情感的强弱程度对于情感分析也同样重要。Thelwall M.等人提出了SentiStrength 算法,基于网络英文文本的语法和拼写风格来计算情感强度。
3.2 国内研究现状国内微博的研究正处于起步阶段,不少研究问题在该领域中亟待解决。现今,热点事件的发现、监控及管理正成为微博宏大信息流中的重要研究领域,当某一热点事件在微博平台中出现时,人们通过微博来表达自身对该热点事件的观点或态度,用户群体的情感分布发生变化,从微博内容方面表现为情感词出现的几率上升,这种现象为本文的研究工作提供了重要的依据。
虽然国内相关研究起步较晚,但是近年来相关研究在多个方面取得了进展,可归纳为以下几个方面:
(1)对情感分析的概念、类型、方法、应用等进行综述。典型的有赵妍妍等人对文本情感分析的评测和资源建设情况、应用情况以及主流方法和前沿进展进行了概括和分析;陆文星等人对信息抽取和情感识别这两类情感分类任务进行介绍,总结了情感分析的应用现状及存在的问题。
(2)中文情感词识别及情感词库构建相关研究。朱嫣岚等人基于知网提出了基于语义相似度和基于语义相关场两种词汇语义倾向性计算方法。张清亮等人提出了一种在知网情感词集基础上利用 PMI-IR 算法进行领域情感词自动识别和词库构建的方法。
(3)中文句子情感分析研究。李纲等人对句子情感分析中的主客观句分类方法以及词汇上下文极性判断、评价主题识别、意见持有者识别等关键问题进行了总结。杨经等人在词特征、词性特征、语义特征析取的基础上,使用支持向量机分类方法对句子进行情感识别和分类。
(4)中文篇章级情感分析相关研究。李本阳等人基于句型和句子位置等特征,提出了利用支持向量机模型进行篇章级情感分类的方法。夏云庆等人采用基于情感单元的情感向量空间模型进行歌词情感分析,较好地解决了基于词汇的向量空间模型在文本表示效率、情感功能以及数据稀缺性等方面的不足。
(5)情感分析应用研究。曹树金等人将情感倾向性分析方法应用于对网络论坛中主题帖的舆情监控任务中,取得了较好的效果。郑文英构建了基于逐点语义分析法、基于支持向量机、基于朴素贝叶斯以及 N 元文法的情感分类器模型,对中文旅行目的地评论进行分类和效果比较。
综上所述,作为一个新兴的研究领域,情感分析正逐渐受到计算机科学、经济学、管理学、情报学等相关学科研究者的关注。相关研究已经在词语级、句子集、篇章级情感分析方面进行了有益探索,并尝试将其应用于市场预测、舆情监测、竞争情报获取等多种任务中。
4.微博情感分析主要方法4.1 分析基本流程4.1.1情感分析的对象和目标情感分析最核心和基本的研究任务如表1所示。
表1 情感分析的对象和目标
4.1.2主流的研究思路和基本技术基于文本的情感分析是一个交叉方向的研究,它涉及自然语言处理、数据库、信息检索、数据挖掘、人工智能等多个领域。如图 1所示,一个基本和典型的情感分析问题的解决,包括下面几个步骤:

图1 情感分析问题基本步骤,
(1)收集素材
目前,大部分的研究所进行情感分析的素材主要来自博客、专业的评论站点、新闻站点和一些电子商务站点。其中各种产品的用户评论,以及作为 Web2.0突出代表的博客文章,是众多研究者的首选。
(2)预处理
许多研究都进行了发现和辨别普通文本中主观性句子的工作,然后还进行了相应的情感分析。而大部分工作则直接利用现成的评论等句子进行分类。但无论怎样,为了减少干扰、提高分类的准确率,预处理都是必不可少的。根据不同的素材特性和算法需要,预处理也有不少方式,比如停用词、词缀修剪、N 元词、词性标注、必要的简化替换等。Kim等详细地列举了种种可能的方法,但结果并不乐观:在大多数情况下,这些有意的处理都降低了情感分析的准确率。
(3)特征抽取
特征抽取是分类的前提。根据分类的需要,最直接的选择就是各种代表情感的特征词,如/ Good、/不错 、/好 等;特征词可以自动抽取,但有时也需要人工参与构造情感词表,尤其是针对特定产品或特定话题的时候。而另一些文献则使用频繁模式挖掘技术来自动挖掘相关的主题和特征。
(4)分类
一般都是采用基于机器学习的标准分类器,最常用的是支持向量机 ( Support Vector Machine,SVM )和朴素贝叶斯(Naive Bayes,NB)。当然,也有利用表意较为明显的特征直接进行判断的,这可以看成是基于规则的分类器。