Amazon商品评论数据集含NLP Python程序代码电子商务推荐系统情感分析经典

yusb

1249

收藏 2022-08-21

Amazon商品评论数据集含NLP Python程序代码电子商务推荐系统情感分析经典

Amazon商品评论数据集含Python程序代码的网盘链接.docx
大小:(69.89 KB)

只需: RMB 59元马上下载

（600多MB的数据文件压缩包）
Amazon Review Dataset数据集记录了用户对亚马逊网站商品的评价，是推荐系统的经典数据集、

该数据集由数百万个Amazon客户评论（输入文本）和星级（输出标签）组成，用于学习如何训练fastText进行情感分析。这里的想法是数据集不仅仅是玩具-合理规模的真实业务数据-但可以在适度的笔记本电脑上在几分钟内进行训练。

Amazon数据集可以根据商品类别分为 Books，Electronics，Movies and TV，CDs and Vinyl等子数据集，这些子数据集包含两类信息：商品信息描述asin 商品idtitle 商品名称price 价格imUrl 商品图片链接related 相关商品salesRank 折扣信息brand 品牌categories 目录类别官方例子：{"asin": "0000031852","title": "Girls Ballet Tutu Zebra Hot Pink","price": 3.17,"imUrl": "http://ecx.images-amazon.com/images/I/51fAmVkTbyL._SY300_.jpg","related":{ "also_bought": ["B00JHONN1S", "B002BZX8Z6"], "also_viewed": ["B002BZX8Z6", "B00JHONN1S"], "bought_together": ["B002BZX8Z6"]},"salesRank": {"Toys & Games": 211836},"brand": "Coxlures","categories": [["Sports & Outdoors", "Other Sports", "Dance"]]}123456789101112131415用户评分记录数据reviewerID 用户idasin 商品idreviewerName 用户名helpful 有效评价率（helpfulness rating of the review, e.g. 2/3）reviewText 评价文本overall 评分summary 评价总结unixReviewTime 评价时间戳reviewTime 评价时间{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is at times hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009"}1234567891011Amazon数据集读取：因为下载的数据是json文件，不易操作，这里主要介绍如何将json文件转化为csv格式文件。以2014版Amazon Electronics数据集的转化为例：商品信息读取import pickleimport pandas as pdfile_path = 'meta_Electronics.json'fin = open(file_path, 'r')df = {}useless_col = ['imUrl','salesRank','related','title','description'] # 不想要的字段i = 0for line in fin: d = eval(line) for s in useless_col: if s in d: d.pop(s) df = d i += 1df = pd.DataFrame.from_dict(df, orient='index')df.to_csv('meta_Electronics.csv',index=False)123456789101112131415161718用户评分记录数据读取file_path = 'Electronics_10.json'fin = open(file_path, 'r')df = {}useless_col = ['reviewerName','reviewText','unixReviewTime','summary'] # 不想要的字段i = 0for line in fin: d = eval(line) for s in useless_col: if s in d: d.pop(s) df = d i += 1df = pd.DataFrame.from_dict(df, orient='index')df.to_csv('Electronics_10.csv',index=False)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

相关推荐

【Python】情感分析的新方法

21天学通PYTHON

【转载】手把手教你如何用 Python 做情感分析

Python算法详解

【python代码】python文本提取与情感分析程序

情感分析代码注释.ipynb in Python & Pytorch

基于Python分析实现酒店评论的中文情感分析NLP程序源代码+数据说明

基于python实现京东商品评论的情感分析与预测深度学习程序代码+数据集

深度学习爬取京东评论好评差评情感分析系统朴素贝叶斯算法应用python程序源代码数据集

Python中英文文本分析文本可读性情感分析余弦相似度不确定性品牌重要性代码命令包

栏目导航

经管文库（原现金交易版）

文献求助专区

数据交流中心

宏观经济学

公共经济学

学术道德监督

热门文章

精准匹配，菁英相伴--经管之家单身俱乐部， ...

科研时间70%耗在“下载-复制-粘贴”？零代码 ...

我该如何记住你？智能体记忆系统的演化之路

CDA数据分析脱产就业班于2026年3月7日开班！ ...

CDA 认证考试大纲 2025 重磅更新：一二级考 ...

表格结构数据的核心特征及具象实例解析

伍德里奇计量经济学导论第六版教材PDF

2026年Agent领域十大趋势判断

湖南统计年鉴2025（Excel版）

中外历史年代对照表

推荐文章

2026JG学术冬训营:从Stata初高到Python机器 ...

【必看】【本版版规，欢迎发悬赏贴求助】

26年寒假天津站｜Gemini论文写作&数据分析 ...

关于如何利用文献的若干建议

关于学术研究和论文发表的一些建议

关于科研中如何学习基础知识的一些建议 (一 ...

一个自编的经济学建模小案例 --写给授课本科 ...

AI智能体赋能教学改革: 全国AI教育教学应用 ...

2025中国AIoT产业全景图谱报告-406页

关于文献求助的一些建议

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群