经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
新商科论坛 四区(原工商管理论坛)
›
商学院
译见:大数据科学家,听起来好听,干的是“搬砖”的活儿
楼主
午夜的太阳
2209
3
收藏
2014-08-23
大数据”这个流行词包含了各类丰富的数码数据,从网络、感应器,到手机、电脑。用智能软件来挖掘这些数据,可以得到许多发现。它使得各领域的数据导向决策过程成为可能。这也是数据科学家成为热门职业的原因。但你知道数据科学家平时都做些什么吗?
整理数据
事实上,数据科学家们百分之五十到八十的时间都在埋头整理无序的数据,直到它们能被用于挖掘,即所谓的“Data Mining”。这些精细而繁琐的工作,完全不像想象中那么信手拈来。这是因为我们正身处于大数据的现代蛮荒之中,数据从收集到可用,还需要某种程度的开垦。
Timothy Weaver是德尔蒙食品公司的CIO(信息主管),他指出了大数据的“数据噪音”(data wrangling)中存在的“冰山效应”(iceberg)。人们只看到结果,却没有看到结果背后的大量劳动。
不过,这也是一个问题与机会共生的问题。一些创业公司正在尝试通过开发自动收集、清理和管理数据的软件,来突破大数据的这种瓶颈。
在未来,会有越来越多的数据来源能够用于揭示一家公司的运营情况。比如在食品产业,能够获取的数据有产量、产地和运输、天气、零售数据和社交网络评论。我们测量的是这些数据在情感和需求上的变化信号。结果是,我们能够比以往更加具象化地看到运营的每一个步骤,能够开始量身定制生产计划和存货。
然而在集合不同类别数据的过程中,也会产生问题。传感器、文件、网络和传统数据库的数据存在不同的格式,必须把它们清理并转换成统一格式,才能加入算法。
人类语言
数据格式只是一个问题,另一个挑战是人类语言的模糊性。Iodine是一家健康创业公司,它为顾客提供药品的副作用和交互作用信息。但对于相同的副作用,食品药品管理局使用的术语往往有细微差别。“困倦”,“嗜睡”和“瞌睡”同时使用。人类能够识别这些同义词,但软件算法必须通过编程才能获得这种解读能力。这种蛋疼的工作在数据项目中需要不断地重复。
数据专家试图自动化这个过程中的每一步。“然而操作上,由于数据的复杂性,你得当好长一段时间的数据看门人,才能得到迷人的结果。” 数据科学家兼Iodine创始人Matt Mohebbi说。
数据软件能够做到的不仅仅是节约科学家们的时间,它同时也可能成为大数据计算普及化的功臣。
历史规律表明,一项新技术产生之初只被少数精英所掌握。然而随着时间推移,技术进步和投资增加,工具越来越强大,相关经济发展,商业运作开始适应,技术最终融入主流。在大数据时代,这条定律依然有用。
硅谷数据科学的CTO,John Akred看到了现代数据世界发展与技术发展的相似之处。他说,“我们见证着革命的起源,它致力于使更大的人群获得解决数据问题的能力。”
加州帕罗奥图市的一家初创企业ClearStory Data致力于开发识别、集合各种数据资源并通过表格和图表、数据地图来可视化结果的软件。它的目标就是通过软件来开发更大的用户市场。
一个可视化报告通常包括六到八个数据源。比如一个提供给零售商的报告,可能包括扫描的销售点数据、天气预报、网站浏览量、竞争对手的定价数据、智能手机软件访问量和停车场车流量的视频监控。而这些数据如果手动整理,请多少人手也不一定够。
算法仍旧没有替代手工劳动
尽管如此,数据科学家们强调,手工劳动在数据准备中仍是必不可少的。“开始的时候你为了一个特定目标准备数据,但没过多久就发现了一些新东西,你的目标也会随之改变。”哥伦比亚新闻研究生院的一位数据科学家Cathy O’Neil说。
但毫无疑问的是,在减轻数据统计压力方面,科学家们需要好好磨一磨他们的刀剑了。毕竟,工欲善其事,必先利其器嘛。(
原文来自
The New York Times
,
苇岑
编译,来源:虎嗅网
)
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
chenli2014
2014-8-23 08:52:47
众包算法算不算手工劳动?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
URSIMON
2014-8-23 08:53:16
就是因为没有程式化的规律可循才需要"mining",因为你不知道用什么样的方法,把哪些variable以何种方式进行组合能得出你想要的结论所以才需要mining
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
lovealljinan
2014-8-23 15:44:12
一般地,复杂劳动等于倍加的简单劳动,所以不足为奇。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
数据科学家可能成为2015年最热门的职业
攻克大数据——「数据科学家」的八种技能(上)
当今世界最NB的25位大数据科学家
当今世界最牛的25位顶尖大数据科学家 !
数据科学家每天都在做些什么?
哪些情况会让数据科学家抓狂?
数据科学家的10个隐形秘密
数据科学家与其他利益相关者之间摩擦的5个常见原因
呼吁为数据科学家提供新设备
数据科学家编写良好代码的5条专业提示
栏目导航
商学院
经管文库(原现金交易版)
学道会
行业分析报告
MATLAB等数学软件专版
金融实务版
热门文章
表格结构数据特征与CDA数据分析师:精准适配 ...
CDA 认证考试大纲 2025 重磅更新:一二级考 ...
新宏观丨豆包,谁是传统经济学的最大反对派
硅光芯片代工爆发式增长,重构全球半导体产 ...
新发展经济学(三):精神与物质
数论I : Fermat的梦想和类域论
普华永道 - 中国影响力报告2025
【应用统计学资料】98份应用统计学资料合集
表格结构数据的核心特征及具象实例解析
2026中信里昂风水指数
推荐文章
2026JG学术冬训营:从Stata初高到Python机器 ...
【必看】【本版版规,欢迎发悬赏贴求助】
26年寒假天津站|Gemini论文写作&数据分析 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群