全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件
43810 51
2025-04-22

Python爬虫与文本分析技术为学术研究带来了前所未有的便利和机遇。

它们不仅提高了数据收集和处理的效率,拓展了研究的资料来源和视野,还能够助力学术研究者深入挖掘文本数据中的价值,验证理论假设,促进跨学科研究的开展。

已经掌握的人会知道Python在科研中的使用不要太香,可以达到事半功倍的效果。


现在有了AI工具,比如DeepSeek(以下简称DS)和ChatGPT,Python的使用和学习变得及其简单,很多代码基本不需要自己再去手敲,另外也不怕各种报错找不到处理办法了。大部分时候通过Deepseek都可以直接帮你完成代码撰写,你只需要和AI提要求,然后能够理解他的运行逻辑就行了。


Python师资培训经典课程-爬虫与文本分析

25年加入DeepSeek助力

包含40个案例帮助掌握学术应用

课程信息:

培训时间:10月1-4日(四天)

授课安排:9:00-12:00;14:00-17:00;答疑

培训方式:北京现场班/同步远程直播;均提供录播回放

现场参加备注:

参加现场9月30日抵达,10月5日离会,主办方JG学术培训在报名后提供交通住宿指南,会议酒店住宿提供协议价(含早);

现场班根据缴费顺序安排座位,现场名额限30人。

授课及答疑嘉宾:

陈老师,北京邮电大学博导。博士毕业于北京大学,2015年-2017年在北京大学做博士后研究。主要研究方向包括人工智能,大数据分析等。发表学术论文100余篇,主持国家自然科学基金面上项目,国家重点研发计划子课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。国自然函评专家。多个SCI期刊审稿人。给多家企业及高校研究所进行过人工智能培训,授课经验丰富,学员好评如潮。


课程目标:

1. 掌握爬虫与文本分析原理与全流程

2. 高效数据采集与存储

3. 动态页面与反爬虫应对

4. 验证码识别突破

5. 分布式爬虫架构搭建

6. 文本分析全流程掌控

7. 文本挖掘与知识发现

8. 深度学习技术应用

9. DeepSeek辅助实战提升

10. 项目实战与应用拓展


课程内容:(标注蓝色的本次新增内容)

爬虫与文本分析概述

目标:了解爬虫和文本分析常见应用场景,如何高效分析文本价值

1) 爬虫常见应用场景,结构化数据/文本数据的获取方法概述

2) 爬虫和文本分析的技术难点,大模型如何辅助爬虫和文本分析


AI助力Python爬虫

1. 爬虫基础

目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识

1) 什么是网络爬虫,爬虫的注意事项

2) http基本原理

3) web网页基础

4) 爬虫基本流程

案例:

百度,网易有道,豆瓣网页结构的理解和数据的解析;
简单网页的制作


2. 页面解析和数据存储

目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法

1) 常用网页数据解析方法,基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储

案例:
正则表达式提取知网信息;
知网爬取数据的存储和读取(txt,csv,excel,json)


3. urllib和requests

目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模拟登录,IP代理常用方法,实现高效率、大规模的网络爬取

1) 请求头的构造

2) urllib中的get请求与post请求

3) requests单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护

案例:
案例1:链家房源图片的获取和下载;
案例2:链家房源数据的获取(单页和多页);
案例3:电影分类数据的爬取(JSON数据);
案例4:电影评论的爬取(单页跳转到多页)


4. Beautiful Soup和Xpath

目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取

1) Beautiful Soup简介

2) Beautiful Soup的页面解析

3) Beautiful Soup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择

案例:
案例1:天气预报数据的爬取(7天和40天);
案例2:豆瓣短评的爬取(多页)


5. Selenium和Playwright

目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法

案例:
案例1:知网数据的爬取和论文的下载;
案例2:京东商品数据的爬取;
案例3:谷歌学术论文数据的爬取


6. 验证码的处理

目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 云验证码识别

案例:OCR验证码的识别


7. Scrapy和分布式爬虫

目标:掌握scrapy爬虫框架和常用方法

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法

案例:
案例1:名言引用数据的抓取;
案例2:中国新闻网数据抓取


8. 基于大模型辅助的网络爬虫

目标:利用DeepSeek辅助爬虫,提高爬虫效率

1) 大模型在爬虫中的作用

2) 网页结构解析和信息提取:基于提示词的信息提取,生成代码进行信息提取

3) 爬虫代码的自动生成

4) 爬虫代码的解读和优化

案例:

案例1:基于deepseek提示词的评论数据抓取;

案例2:基于deepseek生成代码的评论数据抓取;
案例3:微博数据抓取


AI助力Python文本分析:

1. 文本分析概述

目标:掌握文本分析的基本概念,文本分析的发展历程,文本分析流程和挑战

1) 文本数据与文本分析

2) 自然语言处理的流派

3) 文本分析的常见应用

4) 文本分析的层次

5) 文本分析的流程

6) 文本分析的挑战


2. 文本单元的提取与标注

目标:掌握文本常用清洗方法,分词原理和方法,词性标注方法

1) 文本数据的读取:csv, excel, word, pdf, txt

2) 文本数据的清洗

3) 分词

4) 词性标注

案例:
案例1:年报数据的读取;
案例2:评论数据分词和词云图绘制;
案例3:新闻词性标注


3. 文本特征的选取与表示

目标:掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点

1) 词袋模型

2) TF-IDF

3) Word2Vec

4) GloVe

5) Doc2vec

6) FastText

7) BERT深度学习方法

案例:
案例1:基于word2vec的西游记人物相似性分析;
案例2:基于维基百科的glove模型特征提取


4. 关键词提取

目标:掌握三种关键词提取方法

1) 基于统计的方法:TF-IDF

2) 基于图算法的方法:TextRank,RAKE

3) YAKE

4) LDA

案例:
案例1:新闻语料关键词提取;
案例2:LDA关键词提取和可视化


5. 文本分析的常见应用

目标:掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类,聚类,摘要提取,情感分析等功能

1) 文字云

2) 文本分类

3) 文本聚类

4) 文本摘要

5) 情感分析

案例:
案例1:评论数据词云图的绘制;
案例2:基于贝叶斯的新闻分类;
案例3:爬取豆瓣评论并构建分类器;
案例4:百科数据聚类;
案例5:豆瓣读书数据聚类


6. 基于深度学习的文本分析技术

目标:掌握最新的深度学习在文本分析中的应用,包括RNN,LSTM,CNN,注意力,Transformer等模型和机制的引入

1) RNN

2) LSTM

3) textCNN

4) GRU

5) 注意力机制

6) BERT和Transformer

案例:

案例1:基于DNN的评论分类;

案例2:基于RNN的评论分类;

案例3:基于LSTM的文本分类;

案例4:基于Text-CNN的文本分类


7. 基于大模型的文本分析

目标:AI大模型辅助文本分析,高效提取文本价值

1)  利用大模型进行文本特征提取

2)  利用嵌入特征进行文本分类

3)  利用嵌入特征进行回归

4)  利用嵌入特征文本相似性提取和推荐

5)  利用嵌入特征进行零样本分类

6)  利用嵌入特征进行聚类

7)  少样本学习

8)  结构化数据提取

9)  内容摘要的提取

10) 内容分类

11) 情感分析

12) 文本知识图谱构建

13)  文本聊天机器人构建

14)  基于微调大模型的文本分析

案例:
案例1:美食点评数据分析(基于通义千问的文本嵌入特征获取);
案例2:点评数据的分类和回归;
案例3:基于deepseek的豆瓣文本情感分析;
案例4:基于deepseek的文本情感词提取;
案例5:基于deepseek的新闻文本分类;
案例6:基于deepseek的结构化信息提取;
案例7:基于deepseek的文本情感词提取;
案例8:deepseek聊天机器人构建;
案例9:中药文本知识图谱构建;
案例10:法律大模型微调实践


课程目标:

  • 提升研究质量:通过精确的数据抓取和深入的文本分析,本课程将帮助您提高研究的准确性和可靠性,从而提升论文的发表概率和学术影响力。
  • 解锁数据潜能:掌握爬虫技术意味着您能够访问和利用互联网上的海量数据资源,为您的研究提供丰富的数据支持,解锁数据的潜在价值。
  • 研究效率倍增:高效的网络爬虫和文本分析技能将极大缩短数据收集和预处理的时间,让您有更多时间专注于研究的核心部分——分析和撰写。
  • 学术竞争力:在学术界,掌握前沿技术是提升个人竞争力的关键。本课程将使您在同行中脱颖而出,无论是在学术会议还是期刊发表上。
  • 持续学术支持:我们提供持续的技术支持和学术咨询,确保您在研究过程中始终处于技术前沿,不断提升研究水平。

Python师资培训系列课程试听及咨询:

尹老师

电话: 13321178792

微信: JGxueshu


学会Python+AI,让您的科研效率起飞!

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2025-4-22 09:59:47

爬虫和文本分析是获取和处理网络信息的核心技术。掌握这两项技能,意味着你能够:

  • 高效获取数据:通过爬虫技术,可以自动化地从网站获取大量数据,为分析提供原材料。
  • 深入理解文本:文本分析技术能够帮助我们从海量文本中提取有用信息,进行情感分析、主题挖掘等。
  • 智能处理信息:结合AI技术,可以对获取的数据进行更深层次的理解和分析,提升数据处理的智能化水平。

在这个数据驱动的时代,掌握Python和AI技术,将为你的职业生涯和学术研究带来无限可能。利用AI技术推动科研飞跃,Python和AI都是你不可或缺的技能。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-4-22 10:00:42
Python师资培训2020年以来有500+老师和同学参加,为学术量身打造的Python系列课程包括编程基础与数据清洗,爬虫,文本分析,机器学习,深度学习,陈远祥老师精彩细致的授课和课后耐心的答疑得到了所有学员的一致好评~


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-4-22 10:00:54

通过本次课程,你将:

  • 系统掌握Python编程:从基础语法到高级应用,构建坚实的编程基础。
  • 深入理解AI原理:学习机器学习和深度学习的基本概念,掌握构建智能系统的基本原理。
  • 实战应用能力提升:通过项目实战,将理论知识转化为实际技能,提升解决实际问题的能力。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-4-22 10:01:05

温馨提示:

  • 参加线下培训同样可获得培训课程线上回放;
  • 参加线下培训提供会场酒店交通住宿指南及酒店住宿协议价;
  • 课程内容涉及实操,请线下参培学员携带笔记本电脑。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2025-4-22 10:01:19

课程特色:

  • 研究加速器:本课程是为经管领域的研究者量身定制的,通过掌握爬虫与文本分析技能,您将能够快速收集和处理大量数据,极大加速研究项目进度。
  • 学术深度:课程内容深入探讨了文本分析的各个层面,包括最新的深度学习技术,确保您的研究方法论紧跟学术界的最新趋势。
  • 研究创新:通过学习AI辅助的爬虫技术和文本分析方法,您将能够在研究中采用创新的视角和方法,从而在学术界脱颖而出。
  • 论文发表加分:高质量的数据和深入的文本分析是发表高水平论文的关键。本课程将为您提供必要的技能,以提高您的研究成果的质量和影响力。
  • 跨学科能力:经管领域的研究往往需要跨学科的知识。本课程教授的技能将使您能够轻松地从其他领域(如计算机科学、统计学)获取和整合信息,拓宽研究视野。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群