近年来,人工智能技术取得了显著进展,尤其是生成式AI的爆发式增长,推动了AI在各个领域的广泛应用。Python作为AI开发的首选语言,因其简洁易读的语法、丰富的库支持以及强大的社区资源,成为学术研究中不可或缺的工具。
在学术研究中,数据量呈指数级增长,传统数据分析方法已难以满足需求。Python凭借其强大的数据处理能力,结合AI技术,能够高效地处理和分析大规模数据。
AI技术与经济学、社会科学、医学等多学科的交叉融合不断加深,Python在这些领域的应用也日益广泛。例如,在经济学研究中,Python与Stata结合,用于处理复杂的数据集和进行因果推断。
Python的学习已经被纳入多个国家的教育体系,成为AI教育的重要工具。这为AI技术的未来发展奠定了坚实基础,也使得更多学者能够掌握并应用Python进行学术研究。
Python与AI工具可以高效地解析学术论文,提取关键信息,生成摘要或可视化报告,从而推动学术知识的快速传播和应用。
AI与Python的结合在学术领域已经展现出强大的潜力,并将在未来继续推动学术研究的创新和效率提升。
在AI的助力下,Python学术系列课程的难度瞬间降低,
当Python师资培训遇见AI系列课程也在24年收获了满满的关注和好评~
2025年Python遇见AI系列课程加入了最新的AI工具DeepSeek和近期的最新发展内容
当Python遇见DeepSeek丨爬虫+文本分析+机器学习系列课程
课程信息:
课程时长:
Python爬虫遇见AI:2025年10月1-2日(两天)
Python文本分析遇见AI:2025年10月3-4日(两天)
Python机器学习遇见AI:24小时
学习方式:
爬虫文本:北京现场,同步在线直播;均提供录播回放+配套资料+授课老师答疑
机器学习:在线学习,提供配套资料和授课老师答疑
专属福利:购买爬虫文本/机器学习赠送Python基础与数据清洗15小时课程
授课及答疑嘉宾:
陈远祥,北京邮电大学博士生导师,北京大学博士,北京大学优秀博士后,数据分析与机器学习资深讲师。主要科研方向:人工智能、数据分析、大数据处理、。
发表中英文学术论文100余篇,其中第一或通讯作者论文60余篇,授权国家发明专利20余项。主持国家自然科学基金面上项目,国家重点研发计划课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。国自然函评专家,IEEE、OSA会员,多个SCI期刊审稿人。
课程目标:
Python爬虫遇见DeepSeek(12小时):
√ 轻松掌握爬虫基础,学会制作简单网页;
Python文本分析遇见DeepSeek(12小时):
√ 深入了解文本分析原理,掌握文本清洗、分词、词性标注等技巧;
Python机器学习遇见AI(24小时):
√ 入门AI大模型,了解AI大模型底层逻辑及学术应用;
Python爬虫遇见AI内容:
1. 爬虫基础
目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识
1) 什么是网络爬虫,爬虫的注意事项
2) http基本原理
3) web网页基础
4) 爬虫基本流程
案例:
百度,网易有道,豆瓣网页结构的理解和数据的解析;
简单网页的制作
2. 页面解析和数据存储
目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法
1) 常用网页数据解析方法,基于正则表达式的文本信息提取
2) 文本文件存储
3) JSON文件存储
案例:
正则表达式提取知网信息;
知网爬取数据的存储和读取(txt,csv,excel,json)
3. urllib和requests
目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模拟登录,IP代理常用方法,实现高效率、大规模的网络爬取
1) 请求头的构造
2) urllib中的get请求与post请求
3) requests单页和多页数据的爬取
4) 动态页面的数据爬取
5) 模拟登录
6) 代理的基本使用
7) 高效代理池的维护
案例:
案例1:链家房源图片的获取和下载;
案例2:链家房源数据的获取(单页和多页);
案例3:电影分类数据的爬取(JSON数据);
案例4:电影评论的爬取(单页跳转到多页)
4. Beautiful Soup和Xpath
目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取
1) Beautiful Soup简介
2) Beautiful Soup的页面解析
3) Beautiful Soup节点选择方法
4) 什么是Xpath
5) Xpath常用匹配规则
6) Xpath的节点选择
案例:
案例1:天气预报数据的爬取(7天和40天);
案例2:豆瓣短评的爬取(多页)
5. Selenium和Playwright
目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法
1) Selenium的安装与配置
2) Selenium的基本使用
3) 页面的访问与节点定位
4) 节点信息的获取
5) Playwright的安装
6) Playwright的编写模式
7) Playwright代码生成
8) Playwright的常用操作方法
案例:
案例1:知网数据的爬取和论文的下载;
案例2:京东商品数据的爬取;
案例3:谷歌学术论文数据的爬取
6. 验证码的处理
目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法
1) OCR识别验证码
2) 图像匹配识别滑动验证码
3) 云验证码识别
案例:OCR验证码的识别
7. Scrapy和分布式爬虫
目标:掌握scrapy爬虫框架和常用方法
1) scrapy框架介绍
2) scrapy入门
3) scrapy的节点选择
4) Spider的用法
案例:
案例1:名言引用数据的抓取;
案例2:中国新闻网数据抓取
8. 基于大模型辅助的网络爬虫
目标:利用DeepSeek辅助爬虫,提高爬虫效率
1) 大模型在爬虫中的作用
2) 网页结构解析和信息提取:基于提示词的信息提取,生成代码进行信息提取
3) 爬虫代码的自动生成
4) 爬虫代码的解读和优化
案例:
案例1:基于deepseek提示词的评论数据抓取;
案例2:基于deepseek生成代码的评论数据抓取;
案例3:微博数据抓取
Python文本分析遇见AI内容:
1. 文本分析概述
目标:掌握文本分析的基本概念,文本分析的发展历程,文本分析流程和挑战
1) 文本数据与文本分析
2) 自然语言处理的流派
3) 文本分析的常见应用
4) 文本分析的层次
5) 文本分析的流程
6) 文本分析的挑战
2. 文本单元的提取与标注
目标:掌握文本常用清洗方法,分词原理和方法,词性标注方法
1) 文本数据的读取:csv, excel, word, pdf, txt
2) 文本数据的清洗
3) 分词
4) 词性标注
案例:
案例1:年报数据的读取;
案例2:评论数据分词和词云图绘制;
案例3:新闻词性标注
3. 文本特征的选取与表示
目标:掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点
1) 词袋模型
2) TF-IDF
3) Word2Vec
4) GloVe
5) Doc2vec
6) FastText
7) BERT深度学习方法
案例:
案例1:基于word2vec的西游记人物相似性分析;
案例2:基于维基百科的glove模型特征提取
4. 关键词提取
目标:掌握三种关键词提取方法
1) 基于统计的方法:TF-IDF
2) 基于图算法的方法:TextRank,RAKE
3) YAKE
4) LDA
案例:
案例1:新闻语料关键词提取;
案例2:LDA关键词提取和可视化
5. 文本分析的常见应用
目标:掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类,聚类,摘要提取,情感分析等功能
1) 文字云
2) 文本分类
3) 文本聚类
4) 文本摘要
5) 情感分析
案例:
案例1:评论数据词云图的绘制;
案例2:基于贝叶斯的新闻分类;
案例3:爬取豆瓣评论并构建分类器;
案例4:百科数据聚类;
案例5:豆瓣读书数据聚类
6. 基于深度学习的文本分析技术
目标:掌握最新的深度学习在文本分析中的应用,包括RNN,LSTM,CNN,注意力,Transformer等模型和机制的引入
1) RNN
2) LSTM
3) textCNN
4) GRU
5) 注意力机制
6) BERT和Transformer
案例:
案例1:基于DNN的评论分类;
案例2:基于RNN的评论分类;
案例3:基于LSTM的文本分类;
案例4:基于Text-CNN的文本分类
7. 基于大模型的文本分析
目标:AI大模型辅助文本分析,高效提取文本价值
1) 利用大模型进行文本特征提取
2) 利用嵌入特征进行文本分类
3) 利用嵌入特征进行回归
4) 利用嵌入特征文本相似性提取和推荐
5) 利用嵌入特征进行零样本分类
6) 利用嵌入特征进行聚类
7) 少样本学习
8) 结构化数据提取
9) 内容摘要的提取
10) 内容分类
11) 情感分析
12) 文本知识图谱构建
13) 文本聊天机器人构建
14) 基于微调大模型的文本分析
案例:
案例1:美食点评数据分析(基于通义千问的文本嵌入特征获取);
案例2:点评数据的分类和回归;
案例3:基于deepseek的豆瓣文本情感分析;
案例4:基于deepseek的文本情感词提取;
案例5:基于deepseek的新闻文本分类;
案例6:基于deepseek的结构化信息提取;
案例7:基于deepseek的文本情感词提取;
案例8:deepseek聊天机器人构建;
案例9:中药文本知识图谱构建;
案例10:法律大模型微调实践
Python机器学习遇见AI内容:
一. 机器学习基础
1. 机器学习基本思想
2. 机器学习分类
3. 常用机器学习算法
4. 机器学习评价标准
5. 机器学习算法库介绍
二. 机器学习在学术中的典型应用
1. 机器学习与金融预测:提升对宏观经济走势、企业财务表现与市场波动的预测精度,应用于量化投资、信用评估与风险预警等领域
2. 机器学习与代理变量构造:从传统财务报表、交易记录到非结构化文本、图像等另类数据中提取更具经济意义和预测力的变量,用于建模和政策分析
3. 机器学习与因果推断:结合因果图模型、双重机器学习等技术手段,识别和评估政策干预、市场策略与企业行为的因果效应
4. 机器学习与时间序列分析:融合ARIMA、LSTM等方法,提升对收入、销售、库存、股价等经济变量的动态建模与预测能力,广泛应用于财务预算、战略决策与量化交易
5. 机器学习与异常检测与聚类:应用孤立森林识别企业交易、运营和财务数据中的异常行为,辅助反舞弊和合规检查;利用聚类分析客户结构、供应链分布或行业竞争格局,支持业务分层、差异化服务和战略定位
三. 大模型如何助力机器学习
1. 大模型在机器学习中的优势
2. 如何利用大模型辅助机器学习
1) 原理的理解
2) 数据标注:通过大模型的零样本或少样本能力
3) 特征获取:预训练嵌入
4) 端到端代码生成与Pipeline自动化
5) 模型结果的解释与理解
6) 错误诊断和生成改进建议
四. 大模型辅助的机器学习算法与实战
1. 大模型辅助特征生成与理解
1) 特征工程的基本概念
2) 特征处理
3) 特征选择
4) 特征转换
2. 线性回归与逻辑回归
1) 应用场景
2) 线性回归与逻辑回归
3. KNN与SVM
1) 应用场景
2) KNN算法原理
3) 支持向量机
4. 决策树与随机森林
1) 应用场景
2) 决策树
3) 随机森林与集成学习
5. 因果树与因果森林
1) 应用场景
2) 因果树
3) 因果森林
4) 双重机器学习
6. 贝叶斯与文本数据
1) 应用场景
2) 贝叶斯与文本数据
3) 大模型增强的贝叶斯建模
7. 孤立森林与聚类
1) 应用场景
2) 孤立森林
3) 聚类
8. 时间序列分析:ARIMA与LSTM
1) 应用场景
2) ARIMA
3) LSTM
课程咨询及试听:
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu

| Python爬虫遇见DeepSeek: √ 轻松掌握爬虫基础,学会制作简单网页; √ 精通正则表达式,实现文本信息精准提取; √ 熟练运用urllib和requests,让数据爬取更高效; √ 通过Selenium和Playwright,攻克动态页面爬虫难题; √ 掌握验证码识别技巧,突破反爬虫机制。 |
扫码加好友,拉您进群



收藏
