25年国庆北京约丨当Python爬虫文本遇见DeepSeek

资料狂人

7520

收藏 2025-03-04

Python师资培训2020年以来有600+老师和同学参加，

为学术量身打造的Python系列课程包括

编程基础与数据清洗，爬虫，文本分析，机器学习，深度学习，

陈远祥老师精彩细致的授课和课后耐心的答疑得到了所有学员的一致好评~

2025年Python师资培训课程上新

-基于AI辅助的爬虫与文本分析

培训时间：

爬虫遇见DeepSeek：10月1-2日 (两天)

文本分析遇见DeepSeek：10月3-4日 (两天)

授课安排：9:00-12:00；14:00-17:00；答疑

培训方式：北京现场班，同步远程直播；提供录播回放

授课及答疑讲师：

陈远祥，北京邮电大学博导。博士毕业于北京大学，2015年-2017年在北京大学做博士后研究。主要研究方向包括人工智能，智能信号处理，以及基于人工智能的信号处理技术。发表学术论文100余篇，其中第一或通讯作者论文40余篇，发明专利4项。主持国家自然科学基金面上项目，国家重点研发计划子课题，国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员，OpticsExpress, IEEE Photonics Technology Letters，PhotonicsJournal，Applied Optics等多个SCI期刊审稿人。

课程目标：

1. 爬虫

爬虫基础 ：了解网络爬虫的基本概念、原理和基本流程，掌握网页基础知识，学会简单网页制作。
页面解析和数据存储 ：掌握正则表达式的用法，学会利用正则表达式进行文本信息提取，掌握常见文本信息存储方法。
urllib 和 requests ：掌握两种基本的请求发送方法，通过案例展示，实现单页和多页数据爬取，掌握动态页面爬取方法，掌握模拟登录、IP 代理常用方法，实现高效率、大规模的网络爬取。
Beautiful Soup 和 Xpath ：通过案例，掌握两种高效的网页信息解析和提取方法，实现网络数据的高效提取。
Selenium 和 Playwright ：通过案例，掌握动态渲染页面的两种自动化的爬虫方法。
验证码的处理 ：针对验证码反爬虫机制，掌握几种常用验证码识别方法。
Scrapy 和分布式爬虫 ：掌握 scrapy 爬虫框架和常用方法，理解分布式爬虫原理。

2. 文本分析技术

文本分析概述 ：掌握文本分析的基本概念、发展历程、流程和挑战。
文本单元的提取与标注 ：掌握文本常用清洗方法，分词原理和方法，词性标注方法。
文本特征的选取与表示 ：掌握文本的常用结构化表示方法，利用多种方法实现文本特征提取，理解每种特征提取的优缺点。
关键词提取 ：掌握三种关键词提取方法。
文本分析的应用 ：掌握文本分析的常见应用，和传统的机器学习方法结合，实现文本的分类、聚类、摘要提取、情感分析等功能。
基于深度学习的文本分析技术 ：掌握最新的深度学习在文本分析中的应用，包括 RNN、LSTM、CNN、注意力、Transformer 等模型和机制的引入。

3. DeepSeek 如何辅助

基于 DeepSeek 辅助的网络爬虫 ：利用 DeepSeek 辅助爬虫，提高爬虫效率，自动提取信息、适应动态网页、突破反爬机制。
基于 DeepSeek 辅助的文本分析 ：DeepSeek 辅助文本分析，高效提取文本价值，实现文本摘要、文本翻译、文本分类、文本聚类、情感分析等功能。

课程大纲：

1. 爬虫与文本分析概述

目标：了解爬虫和文本分析常见应用场景，如何高效挖掘文本价值

1) 爬虫常见应用场景，结构化数据/文本数据的获取方法概述

2) 高效的编程语言实现结构化数据处理与文本分析的价值

2. 爬虫基础

目标：掌握爬虫基本概念，爬虫基本流程，掌握网页基础知识，学会简单网页制作

1) 什么是网络爬虫

2) 爬虫的基本原理

3) web网页基础

4) 爬虫基本流程

3. 页面解析和数据存储

目标：掌握正则表达式的用法，学会利用正则表达式进行文本信息提取，掌握常见文本信息存储方法

1) 基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储

4. urllib和requests

目标：掌握两种基本的请求发送方法，通过案例展示，实现单页和多页数据爬取，掌握动态页面爬取方法，掌握模拟登录，IP代理常用方法，实现高效率、大规模的网络爬取

1) 请求头的构造

2) get请求与post请求

3) 单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护

5. Beautiful Soup和Xpath

目标：通过案例，掌握两种高效的网页信息解析和提取方法，实现网络数据的高效提取

1) Beautiful Soup简介

2) Beautiful Soup的页面解析

3) Beautiful Soup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择

6. Selenium和Playwright

目标：通过案例，掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法

7. 验证码的处理

目标：针对验证码反爬虫机制，掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 深度学习识别滑动验证码

8. Scrapy和分布式爬虫

目标：掌握scrapy爬虫框架和常用方法，理解分布式爬虫原理

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法

5) 分布式爬虫原理

6) 分布式爬虫部署

9. 基于DeepSeek辅助的网络爬虫

目标：利用DeepSeek辅助爬虫，提高爬虫效率

1) 自动提取信息

2) 适应动态网页

3) 突破反爬机制

10. 文本分析概述

目标：掌握文本分析的基本概念，文本分析的发展历程，文本分析流程和挑战

1) 文本数据与文本分析

2) 自然语言处理的流派

3) 文本分析的常见应用

4) 文本分析的层次

5) 文本分析的流程

6) 文本分析的挑战

11. 文本单元的提取与标注

目标：掌握文本常用清洗方法，分词原理和方法，词性标注方法

1) 文本清洗

2) 分词

3) 词性标注

12. 文本特征的选取与表示

目标：掌握文本的常用结构化表示方法，利用多种方法实现文本特征提取，理解每种特征提取的优缺点

1) 文本向量化

2) 词袋模型

3) TF-IDF

4) Word2Vec

5) GloVe

6) Doc2vec

13. 关键词提取

目标：掌握三种关键词提取方法

1) TF-IDF

2) Text Rank

3) LDA

14. 文本分析的应用

目标：掌握文本分析的常见应用，和传统的机器学习方法结合，实现文本的分类，聚类，摘要提取，情感分析等功能

1) 文字云

2) 文本分类

3) 文本聚类

4) 文本摘要

5) 情感分析

15. 基于深度学习的文本分析技术

目标：掌握最新的深度学习在文本分析中的应用，包括RNN，LSTM,CNN，注意力，Transformer等模型和机制的引入

1) RNN

2) Bi-LSTM

3) text CNN

4) GRU

5) 注意力机制

6) BERT和Transformer

16. 基于DeepSeek辅助的文本分析

目标：DeepSeek辅助文本分析，高效提取文本价值

1) 文本摘要

2) 文本翻译

3) 文本分类

4) 文本聚类

5) 情感分析

Python师资培训系列课程试听及咨询：

尹老师

电话：13321178792

QQ：42884447

WeChat：JGxueshu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

资料狂人

2025-3-4 10:01:46

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lisa11yang

2025-3-4 13:51:05

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jinjian522

2025-3-4 13:55:59

谢谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lisa11yang

2025-3-4 14:56:48

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

军旗飞扬

2025-3-4 15:04:51

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

yiyijiayuan

2025-3-4 16:06:47

楼主的币真是多到天际了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

512661101

2025-3-4 19:55:55

谢谢分享！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

marytwj

2025-3-4 22:04:05

谢谢分享呀

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ahc123

2025-3-4 22:08:06

有了deepseek，还需要Python吗

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

chensichn

2025-3-5 06:38:46

资料狂人发表于 2025-3-4 09:55
Python师资培训2020年以来有600+老师和同学参加，为学术量身打造的Python系列课程包括编程基础与数据清洗， ...

感谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lina2006

2025-3-5 07:57:37

谢谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

redflame

2025-3-5 08:03:51

支持支持

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

babylaugh

2025-3-5 08:36:27

点赞分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

hsinfu

2025-3-5 08:50:23

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

xujingjun

2025-3-5 09:18:32

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

hblg2046

2025-3-5 09:44:25

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

hblg2046

2025-3-5 09:44:49

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

lisa11yang

2025-3-5 10:26:08

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

cszcszcsz

2025-3-5 11:21:35

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yyss007

2025-3-5 11:56:07

点赞楼主分享的资讯，大有裨益！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

myazure

2025-3-5 14:21:15

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

Edwardu

2025-3-5 15:02:36

支持一下

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

512661101

2025-3-5 19:57:51

谢谢分享！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

rossrachel

2025-3-5 20:18:39

支持一下！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

yytyls_2010

2025-3-5 21:46:10

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

weifeng717719

2025-3-6 12:08:46

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

weifeng717719

2025-3-6 12:16:11

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

悟空322

2025-3-7 08:05:08

资料狂人发表于 2025-3-4 09:55
Python师资培训2020年以来有600+老师和同学参加，为学术量身打造的Python系列课程包括编程基础与数据清洗， ...

谢谢分享

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

marytwj

2025-3-9 12:06:01

谢谢分享哦！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群