全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
2926 2
2017-07-04

本系列文章作者是我二徒弟,一个80后,学历不高,同时运营着3家1688店铺。全套文章21篇,虽然标题是21天小白学成大师,但还真不是一天一更,平时比较忙,更新就要耐心等候了。


此篇可以视为第3篇的续篇,只是将对象从去哪儿网转变为淘宝网,附上师父的一句教诲:被逼无奈,成长最快。


打开淘宝官网

2.png

F12键→左键单击手机端标识

3.png

→搜索框

4.png

→在这里键入关键词:衬衫→回车

5.png

→销量优先

6.png

→Network

7.png

→XHR

8.png

→点击此链接
9.png

→preview

10.png

→listItem

11.png

→依次点开“0:“至”19:“

12.png

→这样我们就找到了需要的所有内容,接下来我们返回去找到链接结合函数就能抓取所有我们能看到的内容,所谓可见即可爬。

13.png

→Headers

14.png

→找到URL后,我们发现其中有一段编码,我们需要将其解码,一探究竟。

15.png

→在百度搜索框键入“站长解码”→回车

16.png

→站长工具

17.png


→URL编码/解码

18.png

→将之前的编码粘贴进去→UrlDecode解码

19.png

→解码之后我们发现编码原来就是关键词衬衫

20.png

→新建一张Excel表格→键入关键词→键入衬衫→选中→插入→表格

21.png

→在表包含标题前打钩→确定

22.png

→数据→从表格

23.png

→添加列→自定义列

24.png

→将之前我们找到带有编码的整串链接复制到“=”后面

25.png


附件列表
30.png

原图尺寸 87.88 KB

30.png

29.png

原图尺寸 74.04 KB

29.png

28.png

原图尺寸 86.72 KB

28.png

27.png

原图尺寸 101.78 KB

27.png

26.png

原图尺寸 104.73 KB

26.png

1.png

原图尺寸 371.99 KB

1.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-7-4 16:59:27

→将编码替换成函数Uri.EscapeDataString()

导盲犬:Uri.EscapeDataString()函数是转码用的,默认是ut8。

注:函数需区分大小写并且括号是在英文状态下键入的,插入函数的时候要在函数前后加上连接符号“&”以及引号。
26.png

→在括号中间选中→双击关键词

27.png


→插入Web.Contents函数

导盲犬:函数Web.Contents()是将从web URL下载的内容返回为二进制值

注:插入的函数Web.Contents()需要在括号里面加“”号,表示引用文本。

28.png


→插入Json.Document函数

导盲犬:函数Json.Document()是返回一个JSON文件的内容,直接解析json的格式化数据。

29.png

→确定

30.png


→继续

31.png


→倒三角符号

32.png


→扩展符号

33.png


→回到淘宝页面发现我们需要的数据在listItem下。

34.png


→仅勾选listItem,并把使用原始列名作为前缀前面的勾去掉→确定

35.png


→扩展

36.png

→扩展到新行

37.png

→扩展

38.png

→勾选自己需要的数据→确定

39.png

→需要的话,可双击标题键入中文,方便查看。

40.png

→开始→关闭并上载

41.png

→关闭并上载至

42.png

→到这里,一个简单的爬虫就算完成了。Power Query有一个非常强大的功能就是他可以记录我们的操作,如果需要多个关键词的数据只需要在添加后刷新一下即可。

→回到Sheet1→键入裤子→双击右侧表1

43.png

→刷新预览

44.png

→开始→关闭并上载→关闭并上载至

45.png

→右击表1→刷新

46.png

→这样就得到新的数据了

47.png

如果觉得数据量太小,意义不大,可以添加任意页码爬取,这里我把抓取前5的页的步骤讲解一下,方便大家操作。
→回到Sheet1→按图键入关键词和数字

48.png

→双击右侧表1

49.png

→双击已添加的自定义

50.png

→去掉数字1",加上连接符号“&”→双击页码→确定

51.png

→单击右侧更改的类型→单击"页码"旁边的数字→文本→插入

52.png

→重命名的列

53.png

→开始→关闭并上载→关闭并上载至

54.png

→这样我们就得到了关键词前5页的数据。

55.png
作者联系方式(微信):anzhi1111(暗之)


快速问答——

问:零一工具箱的下载地址在哪?

答:https://pan.baidu.com/s/1c1HlyLi

问:零一工具箱是否收费?

答:零一工具箱是一款提供给电商运营轻量级的免费工具。

问:零一会是一个什么样的机构?

答:零一会是一个专业数据人才培养基地。

问:零一会有哪些业务?

答:培训孵化——通过系统的培训,一对一小班指导培养数据化运营人才,毕业后就业仍然会享受信息和知识的互通。

人才认证与输送——学习期满颁发权威机构专业证书,为企业输送数据分析师和数据运营人才。

电商运营——为企业提供代运营服务,提高店铺业绩。



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-9-21 11:20:02
用的是什么浏览器?不同的浏览器F12后切换手机端按钮按下,效果不一样。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群