全部版块 我的主页
论坛 数据科学与人工智能 人工智能
2417 0
2015-08-13
对社会网络分析的基本概念有所了解后,下面我们开始学习这个案例。工作流如下:

1、商业目标
业务理解:数据名称《中国最强音微博.csv》和《星跳水立方微博.csv》 。该案例所用的数据是中国最强音官方微博数据和星跳水立方官方微博数据。其中,字段包括Author、Weibo、Forward、Time_Weibo、Time_Search、Count_Reply。如下:


表1:数据视图
业务目标:寻找意见领袖,为自媒体传播提供参考,另外还要对语义进行聚类,挖掘特征相似用户群体。
数据挖掘目标:建立社会网络图,挖掘意见领袖和微博传播路径,再使用聚类算法对语义进行聚类。

2、数据准备



第一步,使用R代码段节点,借助R的编程能力利用关键字提取提及的微博用户。代码如下:
smartmining.out<- smartmining.in
library(data.table)
library(stringr)
At<-str_extract_all(smartmining.in$"Weibo","@\\b\\w*
b")
textnumber = rep(1:nrow(summary(At)),as.numeric(summary(At)[,1]))
smartmining.out<-data.frame(提及用户=unlist(At),句子=textnumber)
节点配置如下:



第二步,使用汇总节点,以句子为组,以提及用户为选项建立列表。节点配置如下:



第三步,使用Apriori节点通过关联分析算法训练规则。节点配置如下:


第四步,使用分离集合节点分离字段antecedents。节点配置如下:


第五步,为了便于理解,我们将部分字段名称改为中文。配置如下:


前项和后项
关联规则是形如X→Y的蕴涵式,其中, X和Y分别称为前项和后项 。其中,关联规则XY,存在支持度和置信度。
假设

的集合。给定一个交易数据库D,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是D中事务已经包含X的情况下,包含Y的百分比,即条件概率。如果满足最小支持度阈值最小置信度阈值,则认为关联规则是有趣的。这些阈值是根据挖掘需要人为设定。
第六步,派生规则质量字段。我们定义规则质量=支持度*规则置信度,配置如下:



第七步,对前项和规则质量字段按照降序进行二重排序。配置如下:


第八步,筛选规则质量在20以上的记录。配置如下:


第九步,使用Java代码段(简单)节点派生边id字段。


以上九步处理结果如下表所示:

3、意见领袖挖掘

接下来,开始挖掘意见领袖。意见领袖是指在人际传播网络中经常为他人提供信息,同时对他人施加影响的"活跃分子",他们在大众传播效果的形成过程中起着重要的中介或过滤的作用,由他们将信息扩散给受众,形成信息传递的两级传播。
意见领袖的重要性在不同的产品、不同的目标市场上存在很大的区别。因此,在使用意见领袖时,第一步是通过调查或凭经验或逻辑来确定意见领袖在当前环境中的角色。这一步完成后,就可以利用意见领袖制定营销策略了。
(1). 广告
广告应力图激励人们做意见领袖,或使他们模仿意见领袖。激励包括设计一些活动,鼓励使用者谈论产品或品牌,或者让可能的购买者向使用者询问他们的感受。模仿意见领袖涉及找到一位众所周知的意见领袖——如为跑步器材找到乔伊娜( Florence Joyner)或卡尔·刘易斯(Carl Lewis),使他们认可某一品牌。或者在一则"生活片段"式的广告中,让一位醒目的意见领袖推荐产品,这种广告通常是"偷听到的两个人的谈话,其中一个人向另一个人提供选择品牌的建议。"
(2). 产品质量和顾客抱怨
非常明显的是,消费者会同其他消费者谈论他们有关产品、商店和服务的经历。因此,营销者提供满足或者超过消费者期望的产品是绝对重要的。当顾客的期望未能满足时,企业必须及时妥当地处理顾客抱怨。不愉快的顾客会将其不满平均告诉其他9个人。
(3). 市场调查
由于意见领袖接受、解释并向他人传播营销信息,在那些意见领袖作用明显的产品领域和群体里,市场调查的重点应放在意见领袖身上而不是"代表性"样本上。因此,产品使用实验、广告文案的预试和媒体偏好研究,都应当以可能成为意见领袖的个人为样本。使意见领袖接触企业的营销组合策略并做出良好反应是成功的关键。当然,在那些意见领袖影响小的产品领域或群体内,使用这种策略或许并非明智之举。
(4). 赠送产品样品
赠送样品,即将产品样品送给一个潜在的消费群体使用,是激发人们传播该产品信息的有效方法。在一项研究中,随机选择一群妇女,免费送给他们新速溶咖啡样品。结果发现,一周之内33 %的样品获得者与家庭以外的人谈论到这种咖啡。营销者不能随机选择样本,而应该尽量将产品送到可能成为意见领袖的人手中。克莱斯勒公司为了引入它的L H汽车—无畏(Dodge Intrepid)、统一( Chrysler Concorde)和鹰眼(Eagle Vi s i o n),向6000名可能的意见领袖提供新车,让他们免费使用一个周末。这些人包括经理和社区首脑,也包括经常提供意见但却不受瞩目的人,如理发师。随后的市场调查发现,有32 000多人驾驶或乘坐了这种汽车,而其口头赞誉则流传更广。
(5). 零售与个人推销
零售商或推销员有成千上万的机会使用意见领袖。服装店设计了"时尚意见委员会",由目标市场中可能成为服装款式意见领袖的人组成。面向青少年的商店使用的活跃分子和班级干部也是意见领袖。餐馆老板也可以向目标市场中的可能领袖做出特别邀请,或提供二兑一的赠券,以及菜谱等等。零售商或推销员可以鼓励现有顾客向潜在的新顾客传达信息。例如,一位现有的顾客带来一位朋友看车时,汽车推销员或经销商就可以为他免费地洗车或加油。不动产商可以为顾客或可以带来新顾客的其他人提供一张在豪华餐厅享用双人餐的赠券。
(6). 识别意见领袖
意见领袖可以通过社会学技术,或者关键信息的提供和自行设计的问卷来识别。如果想要知道一个产品在全国范围内的意见领袖,又当如何呢?意见领袖的辨认是不容易的,因为他们与被影响的人们十分相像。意见领袖大量地使用大众媒体,尤其是那些与其意见领域相关的媒体,由此为识别意见领袖提供了线索。例如,耐克推测《跑步者世界》的订阅者可能是散步鞋和跑鞋等产品的意见领袖。同时,由于意见领袖很合群,喜欢加入俱乐部和社团,耐克也可将当地跑步俱乐部的成员,特别是俱乐部的活跃分子作为意见领袖。某些产品领域有职业性的意见领袖。对于家禽产品,乡村推广机构一般都颇具影响力;理发师和发型师可以充当护发产品的意见领袖;药剂师则是很多保健护理品的重要意见领袖;计算机专业的学生,也自然而然地成为其他打算购买个人计算机的学生的意见领袖。


分为四步进行:


第一步,使用行过滤节点提出缺失值,保证数据质量。配置如下:





第二步,使用网络创建节点创建一个空的网络。
第三步,使用对象插入节点将特征添加到网络中。配置如下:


第四步,使用网络视图创建社会网络图。配置如下:


从网络图中可以看出,没有我们想要的意见领袖,只有一些亲密的群组。主要原因是我们本次只选择了一部分数据,因此没有呈现真实网络的全貌。

4、语义聚类

接下来要分析的是:将两个数据文件合并为一个,然后通过中文分词的办法对微博内容进行分析,并通过对每句话中出现的名词进行聚类,从而将语句进行相似性划分,即语义聚类。





进行语义聚类的过程如下:
第一步,使用追加节点将中国最强音.csv和星跳水立方.csv两个数据文件合并。配置如下:


第二步,使用中文节点对博文进行分词。
节点配置如下:


再使用列过滤节点过滤一些列,配置如下:


第三步,使用合并节点将《词性列表.csv》的数据合并到分词后的表中。配置如下:


本文源自:http://wiki.smartbi.com.cn/pages/viewpage.action?pageId=13599888


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群