全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
823 2
2022-05-30
xpath,英文全称XML Path Language,即XML路径语言,它是一种用来确定XML文档中某部分位置的语言,可以在 XML文档中查找相关的信息,相对而言功能还是比较强大的。

xpath最初是一个通用的、介于XPointer与XSL间的语法模型,基于XML的树状结构,提供在数据结构树中找寻节点的能力。最初用来搜寻XML文档,同样适用于 HTML文档的搜索,所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。

xpath的节点通过沿着路径或者step来选取,它最有用的途径表达式如下图:



xpath使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。路径表达式是从一个XML节点(当前的上下文节点)到另一个节点、或一组节点的书面步骤顺序。这些步骤以“/”字符分开,每一步有三个构成成分:


轴描述(用最直接的方式接近目标节点)


节点测试(用于筛选节点位置和名称)


节点描述(用于筛选节点的属性和子节点特征


一般情况下,我们使用xpath简写后的语法。虽然完整的轴描述是一种更加贴近人类语言,利用自然语言的单词和语法来书写的描述方式,但是相比之下也更加啰嗦。
      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-18 07:00:48
网络爬虫(又称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,按照一定的规则,自动地抓取万维网信息的程序或者脚本。 不精通python,怎样快速入门python爬虫、学好爬虫技能?“小白”如何让自己在爬虫道路上少走弯路,实现弯道超车? 本期专题收录8个python爬虫经典案例,内容包含新浪微博、招聘网站、天气预报、股票评论、豆瓣电影等经典实例,其中【python新浪微博爬虫,爬取微博和用户信息】资源中不仅包含爬取微博用户的基本信息,还包含数据可视化分析代码,让你从零开始快速学会简单的Python网络爬虫,实现数据的采集与分析。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-24 20:56:38
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群