经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
新商科论坛 四区(原工商管理论坛)
›
商学院
译见:大数据科学家,听起来好听,干的是“搬砖”的活儿
楼主
午夜的太阳
2113
3
收藏
2014-08-23
大数据”这个流行词包含了各类丰富的数码数据,从网络、感应器,到手机、电脑。用智能软件来挖掘这些数据,可以得到许多发现。它使得各领域的数据导向决策过程成为可能。这也是数据科学家成为热门职业的原因。但你知道数据科学家平时都做些什么吗?
整理数据
事实上,数据科学家们百分之五十到八十的时间都在埋头整理无序的数据,直到它们能被用于挖掘,即所谓的“Data Mining”。这些精细而繁琐的工作,完全不像想象中那么信手拈来。这是因为我们正身处于大数据的现代蛮荒之中,数据从收集到可用,还需要某种程度的开垦。
Timothy Weaver是德尔蒙食品公司的CIO(信息主管),他指出了大数据的“数据噪音”(data wrangling)中存在的“冰山效应”(iceberg)。人们只看到结果,却没有看到结果背后的大量劳动。
不过,这也是一个问题与机会共生的问题。一些创业公司正在尝试通过开发自动收集、清理和管理数据的软件,来突破大数据的这种瓶颈。
在未来,会有越来越多的数据来源能够用于揭示一家公司的运营情况。比如在食品产业,能够获取的数据有产量、产地和运输、天气、零售数据和社交网络评论。我们测量的是这些数据在情感和需求上的变化信号。结果是,我们能够比以往更加具象化地看到运营的每一个步骤,能够开始量身定制生产计划和存货。
然而在集合不同类别数据的过程中,也会产生问题。传感器、文件、网络和传统数据库的数据存在不同的格式,必须把它们清理并转换成统一格式,才能加入算法。
人类语言
数据格式只是一个问题,另一个挑战是人类语言的模糊性。Iodine是一家健康创业公司,它为顾客提供药品的副作用和交互作用信息。但对于相同的副作用,食品药品管理局使用的术语往往有细微差别。“困倦”,“嗜睡”和“瞌睡”同时使用。人类能够识别这些同义词,但软件算法必须通过编程才能获得这种解读能力。这种蛋疼的工作在数据项目中需要不断地重复。
数据专家试图自动化这个过程中的每一步。“然而操作上,由于数据的复杂性,你得当好长一段时间的数据看门人,才能得到迷人的结果。” 数据科学家兼Iodine创始人Matt Mohebbi说。
数据软件能够做到的不仅仅是节约科学家们的时间,它同时也可能成为大数据计算普及化的功臣。
历史规律表明,一项新技术产生之初只被少数精英所掌握。然而随着时间推移,技术进步和投资增加,工具越来越强大,相关经济发展,商业运作开始适应,技术最终融入主流。在大数据时代,这条定律依然有用。
硅谷数据科学的CTO,John Akred看到了现代数据世界发展与技术发展的相似之处。他说,“我们见证着革命的起源,它致力于使更大的人群获得解决数据问题的能力。”
加州帕罗奥图市的一家初创企业ClearStory Data致力于开发识别、集合各种数据资源并通过表格和图表、数据地图来可视化结果的软件。它的目标就是通过软件来开发更大的用户市场。
一个可视化报告通常包括六到八个数据源。比如一个提供给零售商的报告,可能包括扫描的销售点数据、天气预报、网站浏览量、竞争对手的定价数据、智能手机软件访问量和停车场车流量的视频监控。而这些数据如果手动整理,请多少人手也不一定够。
算法仍旧没有替代手工劳动
尽管如此,数据科学家们强调,手工劳动在数据准备中仍是必不可少的。“开始的时候你为了一个特定目标准备数据,但没过多久就发现了一些新东西,你的目标也会随之改变。”哥伦比亚新闻研究生院的一位数据科学家Cathy O’Neil说。
但毫无疑问的是,在减轻数据统计压力方面,科学家们需要好好磨一磨他们的刀剑了。毕竟,工欲善其事,必先利其器嘛。(
原文来自
The New York Times
,
苇岑
编译,来源:虎嗅网
)
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
chenli2014
2014-8-23 08:52:47
众包算法算不算手工劳动?
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
URSIMON
2014-8-23 08:53:16
就是因为没有程式化的规律可循才需要"mining",因为你不知道用什么样的方法,把哪些variable以何种方式进行组合能得出你想要的结论所以才需要mining
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
lovealljinan
2014-8-23 15:44:12
一般地,复杂劳动等于倍加的简单劳动,所以不足为奇。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
数据科学家可能成为2015年最热门的职业
攻克大数据——「数据科学家」的八种技能(上)
当今世界最NB的25位大数据科学家
当今世界最牛的25位顶尖大数据科学家 !
数据科学家每天都在做些什么?
哪些情况会让数据科学家抓狂?
数据科学家的10个隐形秘密
数据科学家与其他利益相关者之间摩擦的5个常见原因
呼吁为数据科学家提供新设备
数据科学家编写良好代码的5条专业提示
栏目导航
商学院
SPSS论坛
R语言论坛
管理科学与工程
宏观经济学
会计与财务管理
热门文章
蔡定创教授、李云庆院长致联合国秘书长古特 ...
2022年北京冬奥会英语观后感【10篇】
瓦尔拉斯方程组及其求解历史
一般均衡证明中的关键人物与全 1 解的关联探 ...
2018届高考化学基础模块综合检测17
达富发投资关于华策影视行情数据操作分析与 ...
宏观经济深度报告:AI视角下的美国就业市场
达富发投资关于中国电影操作数据操作分析与 ...
深圳市生态环境质量指数测评分析报告2025
2026年全球食品与饮料趋势预测
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
几种免费下载文献的方法----我的文献应助经
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群