全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
581 0
2025-10-17
豆瓣影评数据集[945万条]:14万部电影+用户评分+影评+名人数据,2024电影数据分析/学术研究必备资源




一、数据集背景介绍
本豆瓣影评数据集是国内互联网公开渠道中覆盖维度最全、数据量最大的电影相关数据集之一,数据采集于豆瓣电影平台,时间节点清晰可追溯。  
电影基础信息(含演员关联数据)采集于2019年8月上旬,保证数据的时效性与完整性;  
用户评分、影评内容及用户信息采集于2019年9月初,避开平台数据抓取限制,最大化覆盖有效内容;  
数据集已完成去重、过滤处理,剔除了无效ID(如无对应PERSON_ID的名人数据),可直接满足分析需求,无需额外清洗基础数据。


wechat_2025-10-17_132307_673.png
二、核心数据规模:945万条数据全覆盖
数据集总容量达945万条,涵盖电影、名人、用户、评分、影评5大核心维度,具体数据量如下:  
电影数据:140502部,其中2019年前上映的有139129部,未上映的有1373部;  
名人数据:72959人,仅包含演员与导演,不涉及普通用户数据;  
用户数据:639125人,包含豆瓣用户ID、昵称等关联信息,且与评分、影评数据直接绑定;  
评分数据:4169420条,覆盖68471部电影,评分范围为1-5分(1分代表很差,2分较差,3分还行,4分推荐,5分力荐),受豆瓣限制每部电影最多320条评分;  
影评数据:4428475条,包含评论内容、赞同数、发布时间,支持情感分析等深度应用。




三、文件格式与核心字段(5大CSV文件详解)
数据集以CSV格式存储,兼容Excel、Python、R等主流数据处理工具,5个文件的核心信息与字段分别如下:  


1. movies.csv(电影基础信息)  
包含140502部电影的21个字段,关键字段有MOVIE_ID(对应豆瓣DOUBAN_ID)、NAME(电影名称)、GENRES(电影类型)、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、ACTOR_IDS(演员与PERSON_ID的对应关系,多个演员用“|”分割,格式为“演员A:ID|演员B:ID”)、DIRECTOR_IDS(导演与PERSON_ID的对应关系,格式同演员),部分字段(如官方网站、片长)存在空值。  


2. person.csv(演员/导演名人信息)  
包含72959个名人的10个字段,关键字段有PERSON_ID(名人ID)、NAME(演员/导演名称)、SEX(性别)、BIRTH(出生日期)、BIRTHPLACE(出生地)、PROFESSION(职业)、BIOGRAPHY(简介,仅15135个名人有简介数据),每个PERSON_ID都对应唯一名称,无无效ID。  


3. users.csv(豆瓣用户信息)  
包含639125个用户的4个字段,关键字段有USER_ID(豆瓣用户ID)、USER_NICKNAME(评论用户昵称)、USER_AVATAR(用户头像地址)、USER_URL(用户主页链接),数据与评论、评分直接绑定,无脱敏处理。  


4. ratings.csv(电影评分数据)  
包含4169420条评分的5个字段,关键字段有RATING_ID(评分ID)、USER_ID(用户ID)、MOVIE_ID(电影ID)、RATING(评分值1-5分)、RATING_TIME(评分时间),覆盖68471部电影,符合豆瓣未登录用户数据查看限制。  


5. comments.csv(电影影评数据)  
包含4428475条影评的6个字段,关键字段有COMMENT_ID(评论ID)、USER_ID(用户ID)、MOVIE_ID(电影ID)、CONTENT(评论内容)、VOTES(评论赞同数)、COMMENT_TIME(评论发布时间),数据完整性高,支持多维度分析。




四、数据集可用途径(多场景适配)
本数据集可满足学术研究、商业分析、技术开发等多类需求,具体应用场景如下:  
1. 学术场景:用于电影产业趋势研究、用户观影偏好分析、影评情感倾向(NLP)研究等;  
2. 商业场景:支撑电影市场受众定位、影视内容推荐系统原型开发、票房预测模型训练(结合评分与影评数据);  
3. 技术场景:作为数据挖掘实战案例(如用户聚类、关联规则分析)、数据分析教学素材、可视化项目开发(如电影类型分布展示);  
4. 个人学习:帮助了解豆瓣平台数据结构、练习用户行为分析、提升CSV文件处理技能。


五、获取与使用规范
数据来源:采集自豆瓣电影公开信息,仅支持非商业用途(如学术研究、个人学习),使用前需遵守豆瓣平台用户协议;  
兼容性:支持Windows、macOS、Linux系统,可用Excel直接打开查看,或通过常用数据工具读取;  
补充说明:部分字段(如电影官方网站、名人简介)存在空值,已在原始数据中如实保留,可根据需求筛选非空数据使用。

附件列表
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群