全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 真实世界经济学(含财经时事)
4259 2
2012-09-07

大数据时代的机遇与挑战   KDD 2012大会见闻

文/张驰原  转载于Programmer杂志

        ACMSIGKDD是数据挖掘领域的最高盛会,这次在北京国家会议中心举行的KDD 2012是第一次在亚洲地区举行,在收录论文数量和参会人数等各方面都创造了纪录,会议还引入了诸如暑期学校、“疯狂30秒”等新元素。为了拉近学术界和工业界之间联系的Industry/Government专场,以及为本次会议专设的Asia-Pacific专场也都是亮点。


时间地点人物

       KDD 2012于8月12日-15日在北京国家会议中心举行,据主办方说,这个日子是经过精心挑选的:在2011年KDD结束之际,大家讨论来年的会议要在北京召开时,就开始担心天气和相关的自然灾害问题,经过各位数据挖掘大牛的人肉数据挖掘,最后定下了上面这个日子。最后看来结果相当不错,在闭幕大会上参会者还专门为此感谢了各位预报“专家”。

KDD 2012的注册人数超过一千,比以往任何一届都多,更有许多附近跑来旁听的人——因为除了午餐和晚宴,所有的会场都是不用任何证件就可以直接进入的。


起因、经过、结果

Big Data

       本次大会的主题是Big Data,随着数据采集(各砷移动、多媒体设备)和存储(巨大的网络空间,或者时髦一点的“云端”)的发展,我们所面临的数据越来越多也越来越“Big”。单从数量上来说就已明显超过了常规存储设备的限制,例如百度CEO李彦宏在Keynote上就提到,图片搜索里的数据量在很短时间内就超过J7之前一直积累起来的传统网页搜索的数据量。另一方面,数据的复杂度也在不断增加,使得之前的简单模型变得不再适用,例如UIUG韩家炜在他的Keynote上介绍了他们组近来关注的异质网络上的数据挖掘问题。

       “Big Data”到底和其他类似的表述,诸如“large-scale Data”、“Massive Data”有什么本质区别呢?事实上,对这个问题学术界并没有达成共识。大会的最后一天,主办方专门组织了一场讨论:Big Data到底指什么?它给我们带来了什么样的挑战和机遇?讨论会的形式是由主持人提出问题,然后由包括来自Berkeley、CMU、UIUC、北京大学、MSRA和ChoozOn的各位大牛嘉宾表述自己的观点,最后是嘉宾和观众的问答互动环节。事实上,可以发现各位嘉宾对这个问题也持有非常不同的观点。


Tutorial&Workshops

       Tutorial和Workshop都安排在8月12日。前者一般是邀请某些领域的知名人士对一个领域做相对完整的介绍,而后者则多按主题展示一些新想法。

    做口头报告时,由于演讲者的表达水平参差不齐,又受到时间限制,很多技术细节会被省略,如果你对议题非常了解,自然能够抓住关键,但对于刚入行的新手来说则很难。对于这类听众,Tutorial是一场会议里最有价值的部分了。听众能理解多少内容基本取决于与议题深度的差距,尽管Tutorial-般都邀请该领域的专家演讲,但内容由浅人深,对于刚入门的人也不会很困难。


Keynote

       Keynote是一场学术会议中最盛大、最吸引人的部分。本次大会共有四个Keynote,第一个是百度CEO李彦宏带来的《9个需要研究人员帮助解决的难题》。但我个人觉得这场演讲不是特别吸引人,大概因为是第一个出场,并且标题也比较震撼,导致期望过高。


       第二个Keynote来自数据挖掘界的大牛,UIUC的韩家炜教授,他演讲的题目是《异质网络挖掘:新的前沿》。传统在网络上做挖掘考虑的一般都是同质网络,也就是网络上的所有节点都是同一类型。例如社交网络中一般所有节点都是用户,或者学术论文的共同署名网络所有节点都是论文作者。而异质网络则允许不同类型的节点同时存在于一个网络中,例如论文的作者节点会连接到论文节点,论文节点会连接到会议或者期刊节点等。这样的图结构往往更能反映实际问题中的数据结构,不过由于传统方法通常只考虑同质网络,因此需要发展全新的框架和算法来解决这个问题。韩家炜教授介绍了他们组在这个方向上的研究进展,包括在异质网络上的分类、排序等问题的解决方案,以及2012年7月刚出版的一本新书《MiningHeterogeneous InformationNetworks》。


       接下来的两个Keynote分别来自学术界的两位大牛。首先是来自Berkeley的Michael Jordan(http://www.cs.berkeley.edu/~jordan/),他演讲的题目是《针对Big Data的分治和统计推断》,该主题的研究对象就是那种需要MapReduce集群计算和存储能力才能处理的海量数据。虽然MapReduce的排序、计数、索引等简单操作在工业界已得到广泛应用,但对于一些更复杂的统计学习算法,例如数据各个部分相互依赖无法有效地分离开来的情况,仍是难题。Jordan教授介绍了他们在这个方向上所取得的一些最新进展,其中的基本想法就是标题中所说的“分治”。不过,在这个方向上,仍然有很多难题有待解决,这一点在最后一天关于Big Data的讨论会上,Jordan教授再一次做了强调。


      接下来是宾夕法尼亚大学的Michael Kearns(http://www.cls.upenn.edu/~ mkear ns/)。他是2010年图灵奖得主Leslie Valiant (http://peopleseas.harvard.edu卜valiant/)的学生,早年和导师一起在PAC学习理论方面做出了许多贡献。他说这次被邀请做Keynote演讲,大概是因为最近几年所做的关于社会化计算的工作和KDD有许多关联。他演讲的题目是《社会化计算中的实验(及所产生的数据)》。社会化计算是指组成一个社会网络的人们共同完成一个计算任务。简单的例子是网络节点的着色问题,目标是使得所有节点的颜色一致,或者使得所有相邻的节点具有不同的颜色。我们知道,如果做全局优化,前者完全是平凡的问题,而后者则是极难的问题。然而这里的社会化计算是一个非常特殊也更接近实际的模型:网络上每个人只能观察到自己和相邻人的状态,在这个限制下尝试解决问题。Kearns教授在试验中发现,要描述这类问题的复杂性,需要发展与全局优化完全不同的理论框架才行。例如相同颜色问题随着网络结构的不同可能会变得非常困难,而相邻点着不同色的问题却有可能会变得很容易解决,这无疑非常有趣。不过Kearns教授总结说,由于需要真人参与实验,因此,他们的实验一般都限制在30人以内,从这一点看,倒是和“Big Data”差别挺大。


演讲和海报——广告时间

       虽然TLltorial和Keynote都很精彩,但一场学术会议的主体还是论文演讲和海报展示。KDD 2012给所有录用的论文都同时提供了口头演讲和海报展示,并且还提供了免费打印海报服务。

      论文演讲是许多专题同时进行的,对听众来说需要好好选择。每位演讲者有20分钟的演讲时间,之后是简短的提问环节,非常紧凑。演讲人的表达能力参差不齐,对于不善言辞的人来说,海报展示起到了很好的辅助作用。

海报展示环节是在晚宴大厅进行的。三个小时的时间,整个大厅摆了各种白天做过演讲的论文海报,大家一边吃东西一边讨论。论文的作者大多会站在自己海报旁给路过的人讲解。让更多人知道自己的工作,我想就是论文的作者在此时的主要任务吧。

       学术界与开源社区很相似:论文的数量越来越多,但除了几项核心的工作,其他工作在重要性和影响力方面大同小异,同类的工作通常也很多,互有优劣,很少有一枝独秀的。因此,让更多人知道自己的工作才显得尤为重要,因为学术影口向力就是通过别人参与你的工作来建立起的。虽然听一个云里雾里的演讲,或者在海报旁逗留5分钟的讨论似乎很快就会忘记,但说不定将来会有大作用。我们常会碰到这样的情况——知道某件事物的名字后才发现原来身边比比皆是。

       对听众而言,当然也很有乐趣。我在会场里来回逛了好几圈,在各种海报前搭讪作者或者被作者搭讪,其中有不少有趣的工作。特别是,如果在论文演讲中由于时间关系没有能问到问题的,这时就可以找到解答了。对论文的作者来说,这三个小时的时间要比演讲累得多,而且还没法围观其他海报。


疯E30秒

      “疯狂30秒”是2011年的新元素,每位论文作者可以提交一个最多不超过30秒的视频,介绍他们的工作。视频会于每个Keynote开始之前在大厅的投影屏幕上播放。

       这是一个展示个性的舞台,有的类似幻灯片,有画面没声音;也有的用“疯狂”的声音在飞快地念完一段无法识别的文字(给人感觉是30秒读了一遍论文);还有些视频做得非常专业。这个环节给人留下了深刻的印象,在大会结束时还评出了最佳视频奖。


午餐和晚宴——社交时间

       主会的第二天,碰到了来做演讲的好友Ming Ji,也是托Ming的福我在这一天结识了不少圈内人士,午饭时了解到一些有趣的学术圈故事,还有这次KDD主办方所遇到的一些困难。社交应该也是会议的另一大目的吧,因为“协作”是科研中的重要环节,所以社交也就理所当然地成为研究工作中不可缺少的一部分了。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-9-7 17:10:39
有机遇就有挑战
同时也意味着高的回报和成长以及自我提升

数据统计分析师,有你!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-9-8 08:14:41
时代大势啊~~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群