全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
10395 15
2018-11-13
《大数据之路:阿里巴巴大数据实践》
附件列表

《大数据之路:阿里巴巴大数据实践》.pdf

大小:97.54 MB

 马上下载

《大数据之路:阿里巴巴大数据实践》

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-11-13 12:04:56
K-wzzc 发表于 2018-11-13 12:01
《大数据之路:阿里巴巴大数据实践》
楼主能简单介绍一下书么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-14 12:51:07
在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年"双11购物狂欢节"的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露......巨大的信息量给数据采集、存储和计算都带来了极大的挑战。
《大数据之路:阿里巴巴大数据实践》就是在此背景下完成的。《大数据之路:阿里巴巴大数据实践》中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。
《大数据之路:阿里巴巴大数据实践》由阿里巴巴数据技术及产品部组织并完成写作,是阿里巴巴分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信《大数据之路:阿里巴巴大数据实践》中的实践和思考对同行会有很大的启发和借鉴意义。

第1章总述1
第1篇数据技术篇
第2章日志采集8
2.1浏览器的页面日志采集8
2.1.1页面浏览日志采集流程9
2.1.2页面交互日志采集14
2.1.3页面日志的服务器端清洗和预处理15
2.2无线客户端的日志采集16
2.2.1页面事件17
2.2.2控件点击及其他事件18
2.2.3特殊场景19
2.2.4H5&Native日志统一20
2.2.5设备标识22
2.2.6日志传输23
2.3日志采集的挑战24
2.3.1典型场景24
2.3.2大促保障26
第3章数据同步29
3.1数据同步基础29
3.1.1直连同步30
3.1.2数据文件同步30
3.1.3数据库日志解析同步31
3.2阿里数据仓库的同步方式35
3.2.1批量数据同步35
3.2.2实时数据同步37
3.3数据同步遇到的问题与解决方案39
3.3.1分库分表的处理39
3.3.2高效同步和批量同步41
3.3.3增量与全量同步的合并42
3.3.4同步性能的处理43
3.3.5数据漂移的处理45
第4章离线数据开发48
4.1数据开发平台48
4.1.1统一计算平台49
4.1.2统一开发平台53
4.2任务调度系统58
4.2.1背景58
4.2.2介绍60
4.2.3特点及应用65
第5章实时技术68
5.1简介69
5.2流式技术架构71
5.2.1数据采集72
5.2.2数据处理74
5.2.3数据存储78
5.2.4数据服务80
5.3流式数据模型80
5.3.1数据分层80
5.3.2多流关联83
5.3.3维表使用84
5.4大促挑战&保障86
5.4.1大促特征86
5.4.2大促保障88
第6章数据服务91
6.1服务架构演进91
6.1.1DWSOA92
6.1.2OpenAPI93
6.1.3SmartDQ94
6.1.4统一的数据服务层96
6.2技术架构97
6.2.1SmartDQ97
6.2.2iPush100
6.2.3Lego101
6.2.4uTiming102
6.3最佳实践103
6.3.1性能103
6.3.2稳定性111
第7章数据挖掘116
7.1数据挖掘概述116
7.2数据挖掘算法平台117
7.3数据挖掘中台体系119
7.3.1挖掘数据中台120
7.3.2挖掘算法中台122
7.4数据挖掘案例123
7.4.1用户画像123
7.4.2互联网反作弊125
第2篇数据模型篇
第8章大数据领域建模综述130
8.1为什么需要数据建模130
8.2关系数据库系统和数据仓库131
8.3从OLTP和OLAP系统的区别看模型方法论的选择132
8.4典型的数据仓库建模方法论132
8.4.1ER模型132
8.4.2维度模型133
8.4.3DataVault模型134
8.4.4Anchor模型135
8.5阿里巴巴数据模型实践综述136
第9章阿里巴巴数据整合及管理体系138
9.1概述138
9.1.1定位及价值139
9.1.2体系架构139
9.2规范定义140
9.2.1名词术语141
9.2.2指标体系141
9.3模型设计148
9.3.1指导理论148
9.3.2模型层次148
9.3.3基本原则150
9.4模型实施152
9.4.1业界常用的模型实施过程152
9.4.2OneData实施过程154
第10章维度设计159
10.1维度设计基础159
10.1.1维度的基本概念159
10.1.2维度的基本设计方法160
10.1.3维度的层次结构162
10.1.4规范化和反规范化163
10.1.5一致性维度和交叉探查165
10.2维度设计高级主题166
10.2.1维度整合166
10.2.2水平拆分169
10.2.3垂直拆分170
10.2.4历史归档171
10.3维度变化172
10.3.1缓慢变化维172
10.3.2快照维表174
10.3.3极限存储175
10.3.4微型维度178
10.4特殊维度180
10.4.1递归层次180
10.4.2行为维度184
10.4.3多值维度185
10.4.4多值属性187
10.4.5杂项维度188
第11章事实表设计190
11.1事实表基础190
11.1.1事实表特性190
11.1.2事实表设计原则191
11.1.3事实表设计方法193
11.2事务事实表196
11.2.1设计过程196
11.2.2单事务事实表200
11.2.3多事务事实表202
11.2.4两种事实表对比206
11.2.5父子事实的处理方式208
11.2.6事实的设计准则209
11.3周期快照事实表210
11.3.1特性211
11.3.2实例212
11.3.3注意事项217
11.4累积快照事实表218
11.4.1设计过程218
11.4.2特点221
11.4.3特殊处理223
11.4.4物理实现225
11.5三种事实表的比较227
11.6无事实的事实表228
11.7聚集型事实表228
11.7.1聚集的基本原则229
11.7.2聚集的基本步骤229
11.7.3阿里公共汇总层230
11.7.4聚集补充说明234
第3篇数据管理篇
第12章元数据236
12.1元数据概述236
12.1.1元数据定义236
12.1.2元数据价值237
12.1.3统一元数据体系建设238
12.2元数据应用239
12.2.1DataProfile239
12.2.2元数据门户241
12.2.3应用链路分析241
12.2.4数据建模242
12.2.5驱动ETL开发243
第13章计算管理245
13.1系统优化245
13.1.1HBO246
13.1.2CBO249
13.2任务优化256
13.2.1Map倾斜257
13.2.2Join倾斜261
13.2.3Reduce倾斜269
第14章存储和成本管理275
14.1数据压缩275
14.2数据重分布276
14.3存储治理项优化277
14.4生命周期管理278
14.4.1生命周期管理策略278
14.4.2通用的生命周期管理矩阵280
14.5数据成本计量283
14.6数据使用计费284
第15章数据质量285
15.1数据质量保障原则285
15.2数据质量方法概述287
15.2.1消费场景知晓289
15.2.2数据加工过程卡点校验292
15.2.3风险点监控295
15.2.4质量衡量299
第4篇数据应用篇
第16章数据应用304
16.1生意参谋305
16.1.1背景概述305
16.1.2功能架构与技术能力307
16.1.3商家应用实践310
16.2对内数据产品平台313
16.2.1定位313
16.2.2产品建设历程314
16.2.3整体架构介绍317
附录A本书插图索引320
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-15 11:54:20
谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-11-16 10:01:36
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-24 03:29:23
K-wzzc 发表于 2018-11-13 12:01
《大数据之路:阿里巴巴大数据实践》
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群