全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
1638 4
2014-12-31

     抽样数据与大数据

      以往进行民意调查,大多是透过电话抽样,样本数会做到抽样误差在正负3% 以内,在网路媒体与指尖行为还没出现时,这种以统计抽样为核心的民意调查方式对于选情的预测,有着相当不错的準确度,如1996年台湾“总统大选”、1998年台北市长选举等。随着网路资讯发达及行动通讯的重度使用发展趋势,民众在网路上留下了大量的数据,让以往的抽样调查,已经无法涵盖现代人的生活形态。

      在过去的十年间,数据爆炸已经成为人所共知的一个话题,根据市场研究公司IDC去年发佈的数据,预估2009年到2020年期间,数字资讯总量将增长44倍。加上视频、图片、音频等等非结构化丰富的媒体数据的应用越来越频繁,社交网路的不断增长和壮大;目前,每天光是流向社群网站Facebook与 Twitter的资料量,就多达3亿张照片、25亿则发文、27亿按讚数。大数据海啸扑啸而来,这些数据散布在各个地方,每天光速成长,数据既多,也杂乱,但好处是完整详细。因此,这些都是「资讯完整的宝库」

      而大数据(Big Data)时代和一般资料库分析有什么不一样的地方?就是除了有跟山一样高的繁多资料外,还有许多对于非结构化资料的蒐集与分析。网路媒体有别于传统媒体,每个使用者都可以製造、生产讯息,网路上的讯息量比美国国会图书馆还多了N^N倍,这些资料都不是整理好的资料,甚至大多不是数值资料,为了蒐集并且分析这些资料,文字探勘(Text Mining)成了近几年的主流,分析出来的结果比抽样更準确、更有价值。

      因此,在现今汪洋数据的时代中,除了能利用量化的资料去分析外,质化的资料中更含有大量的资讯,如何利用「多维度的数据」帮客户创造价值,正是文字探勘(Text Mining)的价值。将文字和数字一起分析帮客户找出致胜密码,并利用大数据和抽样数据,让产生的资料更有价值,精準的瞭解预测民意。

▲利用多维度的数据创造价值。

文字探勘的致胜密码

      文字探勘(Text Mining) 是一种跨领域的应用,结合资料探勘技术与自然语言处理、资讯检索技术,使大量的文字资讯能经由电脑分析归纳,主要的应用有自动分类、自动摘要、文件检索、知识管理等。用以因应今日因网际网路(Internet) 兴起,而造成的庞大的数据洋流。

      文字採矿之核心技术,大多来自于资料採矿技术,将藉助案例分析与文件资料之相互查询与交叉比对,产生经验与文件报告之交互参考对应。

      近年来由于网路的发展,电子文件呈现等比级数的成长,每天均有庞大文件资料被製造生产出来,这些各式各样的文件,包括消费、广告等一般资讯或者是社会、经济、政治等即时新闻,都蕴藏着大量资讯,一旦文件暴增到数以百计或数以千计时,文件与文件之间毫无关联,庞大的文件成为一堆资料山,要在短时间内阅读或是查询某一主题资讯,将很困难,因而丧失及时资讯或机会(黄燕萍,1999)。

      文字知识发掘(Knowledge Discovery from Text ,KDT)亦可称为文字探勘(Text Mining )或是文件资讯探勘(Document Information Mining )其应用了资讯检索、资讯萃取、计算语言学、自然语言处理、资料探勘技术…等,文字探勘特别着重于利用这些技术,自非结构或半结构的文字中发掘出先前未知,隐含而有用的资讯,Dan Sullivan (2001)定义文字探勘为「一种编辑、组织及分析大量文件的过程,为了提供特定使用者特定的资讯,以及发现某些特徵及其间的关联」。相较于传统的资料探勘,文字探勘需要加上额外的资料选择处理程序,以及复杂的特徵萃取步骤。

      文字探勘整合了许多传统资讯检索技术,包括了关键字萃取、全文检索、文件自动分类、自动摘要等等,以提供文字处理更强大的功能。

      随着电脑设备及网路技术的蓬勃发展和快速普及,许多传统的资讯作业方式因此而改变,大量塬本是以书面方式存在的文件资讯,被转换成电子档的形式来储存及传递,而这些文件中极可能隐藏着许多有用的宝贵知识。但是,当资讯的产生和传递效率加速提昇时,也隐含了资讯爆炸的现象,然而,传统资讯检索方式无法有效地帮助使用者分析和了解大量的文件资料,许多试图从文件中获取知识的研究便因此而产生。

点字成金稳操胜券

      以下为利用文字探勘(Text Mining)点字成金之案例,包含:商品要卖得好、社群操作的好、危机预警等。

1. 商品卖得好

      想要商品卖得好,不外乎瞭解消费者想要的(want)。可以利用社群网站的资料词云分析,也可以利用调研,或是资料库的分析等,如利用社群词云,分析PTT的讨论区,可以看出网民透过”淘宝”网购,购买特殊品牌的包包及洋装,这些资讯就可以做为通路产品採购策略的参考,推出大家都想要的商品,商品自然卖得好。

2. 社群操作得好

      我们也可以从社群网站中挖掘出许多资料,如:利用粉丝的发文找出主题推论分析。如一个美妆FB粉丝团,我们可以看出它是以「吸引男友」、「创造自己在姊妹淘中的优越感」为诉求主轴,创造粉丝的需求,提升商品销量。


▲操作主题分析。

3. 危机预警

      观察粉丝团的po文动态,即时发现民众对某便利超商工读生在气爆事件发生后的态度。。我们可以从特定的字词中,找出与之相关联的字词,并从这些字词裡找出价值性,如:与「爱理不理」相关联的字词,有「十万火急」、「工读生」、「不好意思」和「洗手间」,再从po文中还塬出在高雄气爆发生时,工读生面对灾民想要借用洗手间,碍于公司规定,只能一再的说不好意思,民众感受到的是一种爱理不理的处理方式。面对突发事件便利超商工读生的处理态度,影响到品牌形象,品牌人员需要有警觉性。


来源:东森新闻网  作者:謝邦昌、謝邦彥


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-12-31 16:11:26
现在大数据就是屌啊,一大推乱七八糟的数据通过大数据云计算一分析就成了一推清晰明了可见好理解的报表什么的,就比如像dayHR这个系统一样,真是强大
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-31 16:12:52
不作不会死 发表于 2014-12-31 16:11
现在大数据就是屌啊,一大推乱七八糟的数据通过大数据云计算一分析就成了一推清晰明了可见好理解的报表什么 ...
是的。。很厉害。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-31 16:53:13
台湾同胞好吧。。。。。这个大家都会玩。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-1-9 13:40:06
Mirror.. 发表于 2014-12-31 16:12
是的。。很厉害。
我们公司现在就在享受这种服务                                        ——理才网dayHR
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群