当Python遇见AI丨爬虫+文本分析+机器学习学术应用

资料狂人

23420

收藏 2025-04-03

近年来，人工智能技术取得了显著进展，尤其是生成式AI的爆发式增长，推动了AI在各个领域的广泛应用。Python作为AI开发的首选语言，因其简洁易读的语法、丰富的库支持以及强大的社区资源，成为学术研究中不可或缺的工具。

在学术研究中，数据量呈指数级增长，传统数据分析方法已难以满足需求。Python凭借其强大的数据处理能力，结合AI技术，能够高效地处理和分析大规模数据。

AI技术与经济学、社会科学、医学等多学科的交叉融合不断加深，Python在这些领域的应用也日益广泛。例如，在经济学研究中，Python与Stata结合，用于处理复杂的数据集和进行因果推断。

Python的学习已经被纳入多个国家的教育体系，成为AI教育的重要工具。这为AI技术的未来发展奠定了坚实基础，也使得更多学者能够掌握并应用Python进行学术研究。

Python与AI工具可以高效地解析学术论文，提取关键信息，生成摘要或可视化报告，从而推动学术知识的快速传播和应用。

AI与Python的结合在学术领域已经展现出强大的潜力，并将在未来继续推动学术研究的创新和效率提升。

在AI的助力下，Python学术系列课程的难度瞬间降低，

当Python师资培训遇见AI系列课程也在24年收获了满满的关注和好评~

2025年Python遇见AI系列课程加入了最新的AI工具DeepSeek和近期的最新发展内容

当Python遇见DeepSeek丨爬虫+文本分析+机器学习系列课程

课程信息：

课程时长：

Python爬虫遇见AI：2025年10月1-2日（两天）

Python文本分析遇见AI：2025年10月3-4日（两天）

Python机器学习遇见AI：24小时

学习方式：

爬虫文本：北京现场，同步在线直播；均提供录播回放+配套资料+授课老师答疑

机器学习：在线学习，提供配套资料和授课老师答疑

专属福利：购买爬虫文本/机器学习赠送Python基础与数据清洗15小时课程

授课及答疑嘉宾：

陈远祥，北京邮电大学博士生导师，北京大学博士，北京大学优秀博士后，数据分析与机器学习资深讲师。主要科研方向：人工智能、数据分析、大数据处理、。

发表中英文学术论文100余篇，其中第一或通讯作者论文60余篇，授权国家发明专利20余项。主持国家自然科学基金面上项目，国家重点研发计划课题，国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。国自然函评专家，IEEE、OSA会员，多个SCI期刊审稿人。

课程目标：

Python爬虫遇见DeepSeek（12小时）：

√  轻松掌握爬虫基础，学会制作简单网页；
√  精通正则表达式，实现文本信息精准提取；
√  熟练运用urllib和requests，让数据爬取更高效；
√  通过Selenium和Playwright，攻克动态页面爬虫难题；
√  掌握验证码识别技巧，突破反爬虫机制。

Python文本分析遇见DeepSeek（12小时）：

√  深入了解文本分析原理，掌握文本清洗、分词、词性标注等技巧；
√  学会多种文本特征提取方法，如词袋模型、TF-IDF、Word2Vec等；
√  精通关键词提取、文本分类、聚类、摘要提取、情感分析等实战应用；
√  掌握RNN、LSTM、BERT等深度学习模型在文本分析中的应用。

Python机器学习遇见AI（24小时）：

√  入门AI大模型，了解AI大模型底层逻辑及学术应用；
√  掌握提示词使用技巧，让GPT成为你的得力助手；
√  利用大模型辅助数据清洗与预处理，提升数据质量；
√  深入学习大模型辅助机器学习算法，如KNN、决策树、线性回归、支持向量机等，实现模型构建与优化。

Python爬虫遇见AI内容：

1. 爬虫基础

目标：掌握爬虫基本概念，爬虫基本流程，掌握网页基础知识

1) 什么是网络爬虫，爬虫的注意事项

2) http基本原理

3) web网页基础

4) 爬虫基本流程

案例：

百度，网易有道，豆瓣网页结构的理解和数据的解析；
简单网页的制作

2. 页面解析和数据存储

目标：掌握正则表达式的用法，学会利用正则表达式进行文本信息提取，掌握常见文本信息存储方法

1) 常用网页数据解析方法，基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储

案例：
正则表达式提取知网信息；
知网爬取数据的存储和读取（txt，csv，excel，json）

3. urllib和requests

目标：掌握两种基本的请求发送方法，通过案例展示，实现单页和多页数据爬取，掌握动态页面爬取方法，掌握模拟登录，IP代理常用方法，实现高效率、大规模的网络爬取

1) 请求头的构造

2) urllib中的get请求与post请求

3) requests单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护

案例：
案例1：链家房源图片的获取和下载；
案例2：链家房源数据的获取（单页和多页）；
案例3：电影分类数据的爬取（JSON数据）；
案例4：电影评论的爬取（单页跳转到多页）

4. Beautiful Soup和Xpath

目标：通过案例，掌握两种高效的网页信息解析和提取方法，实现网络数据的高效提取

1) Beautiful Soup简介

2) Beautiful Soup的页面解析

3) Beautiful Soup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择

案例：
案例1：天气预报数据的爬取（7天和40天）；
案例2：豆瓣短评的爬取（多页）

5. Selenium和Playwright

目标：通过案例，掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法

案例：
案例1：知网数据的爬取和论文的下载；
案例2：京东商品数据的爬取；
案例3：谷歌学术论文数据的爬取

6. 验证码的处理

目标：针对验证码反爬虫机制，掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 云验证码识别

案例：OCR验证码的识别

7. Scrapy和分布式爬虫

目标：掌握scrapy爬虫框架和常用方法

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法

案例：
案例1：名言引用数据的抓取；
案例2：中国新闻网数据抓取

8. 基于大模型辅助的网络爬虫

目标：利用DeepSeek辅助爬虫，提高爬虫效率

1) 大模型在爬虫中的作用

2) 网页结构解析和信息提取：基于提示词的信息提取，生成代码进行信息提取

3) 爬虫代码的自动生成

4) 爬虫代码的解读和优化

案例：

案例1：基于deepseek提示词的评论数据抓取；

案例2：基于deepseek生成代码的评论数据抓取；
案例3：微博数据抓取

Python文本分析遇见AI内容：

1. 文本分析概述

目标：掌握文本分析的基本概念，文本分析的发展历程，文本分析流程和挑战

1) 文本数据与文本分析

2) 自然语言处理的流派

3) 文本分析的常见应用

4) 文本分析的层次

5) 文本分析的流程

6) 文本分析的挑战

2. 文本单元的提取与标注

目标：掌握文本常用清洗方法，分词原理和方法，词性标注方法

1) 文本数据的读取：csv, excel, word, pdf, txt

2) 文本数据的清洗

3) 分词

4) 词性标注

案例：
案例1：年报数据的读取；
案例2：评论数据分词和词云图绘制；
案例3：新闻词性标注

3. 文本特征的选取与表示

目标：掌握文本的常用结构化表示方法，利用多种方法实现文本特征提取，理解每种特征提取的优缺点

1) 词袋模型

2) TF-IDF

3) Word2Vec

4) GloVe

5) Doc2vec

6) FastText

7) BERT深度学习方法

案例：
案例1：基于word2vec的西游记人物相似性分析；
案例2：基于维基百科的glove模型特征提取

4. 关键词提取

目标：掌握三种关键词提取方法

1) 基于统计的方法：TF-IDF

2) 基于图算法的方法：TextRank，RAKE

3) YAKE

4) LDA

案例：
案例1：新闻语料关键词提取；
案例2：LDA关键词提取和可视化

5. 文本分析的常见应用

目标：掌握文本分析的常见应用，和传统的机器学习方法结合，实现文本的分类，聚类，摘要提取，情感分析等功能

1) 文字云

2) 文本分类

3) 文本聚类

4) 文本摘要

5) 情感分析

案例：
案例1：评论数据词云图的绘制；
案例2：基于贝叶斯的新闻分类；
案例3：爬取豆瓣评论并构建分类器；
案例4：百科数据聚类；
案例5：豆瓣读书数据聚类

6. 基于深度学习的文本分析技术

目标：掌握最新的深度学习在文本分析中的应用，包括RNN，LSTM,CNN，注意力，Transformer等模型和机制的引入

1) RNN

2) LSTM

3) textCNN

4) GRU

5) 注意力机制

6) BERT和Transformer

案例：

案例1：基于DNN的评论分类；

案例2：基于RNN的评论分类；

案例3：基于LSTM的文本分类；

案例4：基于Text-CNN的文本分类

7. 基于大模型的文本分析

目标：AI大模型辅助文本分析，高效提取文本价值

1) 利用大模型进行文本特征提取

2) 利用嵌入特征进行文本分类

3) 利用嵌入特征进行回归

4) 利用嵌入特征文本相似性提取和推荐

5) 利用嵌入特征进行零样本分类

6) 利用嵌入特征进行聚类

7) 少样本学习

8) 结构化数据提取

9) 内容摘要的提取

10) 内容分类

11) 情感分析

12) 文本知识图谱构建

13) 文本聊天机器人构建

14) 基于微调大模型的文本分析

案例：
案例1：美食点评数据分析（基于通义千问的文本嵌入特征获取）；
案例2：点评数据的分类和回归；
案例3：基于deepseek的豆瓣文本情感分析；
案例4：基于deepseek的文本情感词提取；
案例5：基于deepseek的新闻文本分类；
案例6：基于deepseek的结构化信息提取；
案例7：基于deepseek的文本情感词提取；
案例8：deepseek聊天机器人构建；
案例9：中药文本知识图谱构建；
案例10：法律大模型微调实践

Python机器学习遇见AI内容：

一. 机器学习基础

1. 机器学习基本思想

2. 机器学习分类

3. 常用机器学习算法

4. 机器学习评价标准

5. 机器学习算法库介绍

二. 机器学习在学术中的典型应用

1. 机器学习与金融预测：提升对宏观经济走势、企业财务表现与市场波动的预测精度，应用于量化投资、信用评估与风险预警等领域

2. 机器学习与代理变量构造：从传统财务报表、交易记录到非结构化文本、图像等另类数据中提取更具经济意义和预测力的变量，用于建模和政策分析

3. 机器学习与因果推断：结合因果图模型、双重机器学习等技术手段，识别和评估政策干预、市场策略与企业行为的因果效应

4. 机器学习与时间序列分析：融合ARIMA、LSTM等方法，提升对收入、销售、库存、股价等经济变量的动态建模与预测能力，广泛应用于财务预算、战略决策与量化交易

5. 机器学习与异常检测与聚类：应用孤立森林识别企业交易、运营和财务数据中的异常行为，辅助反舞弊和合规检查；利用聚类分析客户结构、供应链分布或行业竞争格局，支持业务分层、差异化服务和战略定位

三. 大模型如何助力机器学习

1. 大模型在机器学习中的优势

2. 如何利用大模型辅助机器学习

1) 原理的理解

2) 数据标注：通过大模型的零样本或少样本能力

3) 特征获取：预训练嵌入

4) 端到端代码生成与Pipeline自动化

5) 模型结果的解释与理解

6) 错误诊断和生成改进建议

四. 大模型辅助的机器学习算法与实战

1. 大模型辅助特征生成与理解

1) 特征工程的基本概念

2) 特征处理

无量纲化
分箱与编码
统计变换

3) 特征选择

过滤法
嵌入法
包装法

4) 特征转换

主成分分析法
因子分析法

2. 线性回归与逻辑回归

1) 应用场景

信用风险评估：预测企业或个人违约概率，替代或增强传统信用评级模型（如Z-score）
员工流失预测：通过逻辑回归预测员工离职概率，支持人力资源优化配置和组织结构调整
财务报表舞弊识别：利用线性模型筛查异常财务指标，辅助财务审计与监管合规
企业增长潜力评估：通过多维特征回归建模，评估企业中长期成长性，辅助投资与战略分析

2) 线性回归与逻辑回归

回归模型基本原理
回归模型中的正则化
从线性回归到逻辑回归
回归模型的实现和参数优化
利用大模型对线性回归和逻辑回归进行建模与代码生成
回归模型的解释
案例实操：数字化人力资源之员工流失风险预警

3. KNN与SVM

1) 应用场景

客户行为预测：基于用户历史行为数据，使用KNN对客户进行分类，实现客户细分与精准营销
市场响应预测：使用SVM构建市场活动响应模型，优化广告投放与促销策略
欺诈识别与风险防控：利用KNN和SVM模型识别信用卡欺诈行为或企业信用风险事件
营销推荐系统：通过相似客户的历史偏好进行商品推荐，提升转化率与客户满意度
信用评分建模：结合结构化与非结构化特征，构建信用风险分类模型，辅助信贷决策
招聘筛选与人岗匹配：分析候选人特征与岗位需求，自动化提升招聘效率

2) KNN算法原理

KNN算法原理
KNN用于分类和回归
KNN模型的优化与调参
利用大模型对KNN进行建模和代码生成
利用大模型对建模结果的详细解释和可视化
KNN的优缺点分析
案例实操：中风患者预测

3) 支持向量机

支持向量机分类原理
线性SVM和非线性SVM
SVM中的核函数
大模型辅助贝叶斯核函数的选择
利用大模型进行支持向量机代码生成
模型解释
案例实操：上市公司欺诈预测

4. 决策树与随机森林

1) 应用场景

营销响应建模：根据用户特征预测是否会对某类营销活动产生响应，辅助精准广告投放
信贷审批辅助：通过用户信用历史与财务特征建立决策树模型，提升信贷审批自动化水平
客户流失预测：通过树模型构建流失概率模型，助力客户留存
企业财务健康预警：结合历史财务数据和经营数据，构建随机森林模型识别企业潜在风险
保险理赔欺诈识别：利用集成模型分析理赔申请的异常性，提高欺诈检测效率
股价波动驱动因素识别：通过随机森林模型分析影响公司股价波动的重要变量，辅助投资策略制定
绩效考核与员工分层：结合员工行为数据构建多层级绩效评分机制，支持人力资源管理

2) 决策树

算法原理
决策树分类
决策树用于分类和回归实现
决策树参数优化
决策树的可视化
利用大模型对决策树进行建模与代码生成
决策树的可视化与解释
案例实操：利用决策树进行保险行业用户画像

3) 随机森林与集成学习

决策树与随机森林
随机森林原理
随机森林的实现与参数调优
集成学习
XGBoost
lightGBM
随机森林用于特征选择
大模型辅助的随机森林建模与代码生成
模型调参和评估
案例实操：利用随机森林的多因子选股策略

5. 因果树与因果森林

1) 应用场景

广告效果评估：利用因果树识别不同用户群体对广告投放的响应差异，优化预算配置
定价策略评估：应用因果森林分析价格变动对销售的异质性影响，制定差异化定价策略
教育或培训项目评估：通过因果模型评估企业内部培训项目对员工绩效的实际提升效果
政策干预评估：企业在实施组织调整或激励方案后，运用因果推断量化不同部门的响应差异
投资策略优化：通过双重机器学习结合宏观和公司层面特征，识别策略实施对回报的边际增益

2) 因果树

算法原理
因果树的分类
因果树的实现
参数优化与调参
因果树的可视化
大模型辅助因果树建模
案例实操：教育干预异质性分析

3) 因果森林

因果森林原理
与随机森林的对比
实现与调优
模型评估与验证
因果模型评估方法
可解释性工具
案例实操：差异化定价策略效果评估

4) 双重机器学习

核心思想（Neyman正交性）
实现形式（DML、DRLearner、RLearner）
与因果森林的对比
案例实操：广告投放的增量收益(ROI)估计

6. 贝叶斯与文本数据

1) 应用场景

舆情监测与风险预警：分析媒体与社交平台文本内容，识别潜在品牌危机或宏观风险信号
客户评论分析：识别客户对产品或服务的情感倾向，辅助改进产品设计与服务体验
财经文本分类：将新闻、公告等金融文本分类，用于预测市场走向或构建因子模型
招股书文本分析：挖掘招股说明书中的关键词和风险表述，辅助IPO风险评估与投资判断

2) 贝叶斯与文本数据

算法应用场景
贝叶斯原理
朴素贝叶斯
贝叶斯模型分类
贝叶斯模型的优缺点和局限性
利用大模型对贝叶斯进行建模与代码生成
贝叶斯模型解释
案例实操：利用贝叶斯进行情感分析

3) 大模型增强的贝叶斯建模

利用大模型生成文本嵌入
基于嵌入特征的文本分类和回归

7. 孤立森林与聚类

1) 应用场景

智能审计：通过分析企业交易明细、员工报销单据与合同文本等数据，自动识别异常交易、审计线索，提升审计效率与合规水平
市场营销：结合客户的购买行为、搜索路径、人口统计特征等数据，进行客户分群、偏好识别与精准营销策略制定，提升转化率和客户满意度
客户生命周期建模：运用聚类算法将客户按照活跃度、购买频次与复购潜力进行分层，为制定差异化运营策略提供依据
供应链优化：结合物流路径、订单频次和库存数据，识别异常供应行为或优化仓储配送策略竞争对手分析：通过文本和行为数据聚类，对行业竞争者进行画像，辅助战略分析与市场定位

2) 孤立森林

算法应用场景
孤立森林算法原理与核心思想
参数的解读
训练与预测异常
可视化：异常点在特征空间中的分布
案例实操：信用卡欺诈识别

3) 聚类

聚类分析的目标
常用聚类算法
K-Means：基于距离的经典方法
DBSCAN：密度聚类与噪声处理
层次聚类：树状结构与业务解释性
聚类中的特征工程
聚类算法选择
聚类的评估指标
案例实操：航空客户人群细分

8. 时间序列分析：ARIMA与LSTM

1) 应用场景

销售趋势预测：利用历史价格、宏观数据、行业舆情与文本信息等，预测未来销售趋势，辅助制定产品策略与财务预算
收入与利润预测：通过时间序列模型对企业财务指标进行建模，支持预算编制、绩效考核和投资分析
股价波动预测：融合历史股价数据与金融文本，构建预测模型辅助量化策略设计和投资组合管理

2) ARIMA

时间序列特性与业务场景
评估指标与实验设计
ARIMA模型原理
自相关
偏自相关
ARIMA流程
平稳化
参数选择
模型拟合
诊断检验
案例实操：销售额数据预测

3) LSTM

RNN与LSTM核心思想
LSTM结构
LSTM变体
LSTM+注意力机制
超参数调优与可视化
案例实操：股票价格预测

课程咨询及试听：

尹老师

电话：13321178792

QQ：42884447

WeChat：JGxueshu

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

资料狂人

2025-4-3 10:50:20

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

资料狂人

2025-4-3 10:52:14

Python爬虫遇见DeepSeek：
√  轻松掌握爬虫基础，学会制作简单网页；
√  精通正则表达式，实现文本信息精准提取；
√  熟练运用urllib和requests，让数据爬取更高效；
√  通过Selenium和Playwright，攻克动态页面爬虫难题；
√  掌握验证码识别技巧，突破反爬虫机制。

Python文本分析遇见DeepSeek：
√  深入了解文本分析原理，掌握文本清洗、分词、词性标注等技巧；
√  学会多种文本特征提取方法，如词袋模型、TF-IDF、Word2Vec等；
√  精通关键词提取、文本分类、聚类、摘要提取、情感分析等实战应用；
√  掌握RNN、LSTM、BERT等深度学习模型在文本分析中的应用。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

资料狂人

2025-4-3 10:52:32

Python机器学习遇见AI（30小时在线学习）：

√  入门AI大模型，了解AI大模型底层逻辑及学术应用；
√  掌握提示词使用技巧，让GPT成为你的得力助手；
√  利用大模型辅助数据清洗与预处理，提升数据质量；
√  深入学习大模型辅助机器学习算法，如KNN、决策树、线性回归、支持向量机等，实现模型构建与优化。