全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
291 0
2024-01-04
深度学习爬取京东评论好评差评情感分析系统朴素贝叶斯算法应用python程序源代码数据集

使用朴素贝叶斯算法实现对爬取到的京东评论进行情感分析其中包含源代码、数据集、停用词库等





70503aa0dcc6cd507bff53cd24194b3.png


{ "cells": [  {   "cell_type": "markdown",   "id": "423eac66",   "metadata": {},   "source": [    "## Step1: 爬取京东评论,作为模型数据集"   ]  },  {   "cell_type": "markdown",   "id": "7f41834d",   "metadata": {},   "source": [    "爬取10个京东商品的评论信息,每个商品爬取1000条,其中好评信息爬取6000条,差评信息爬取4000条。\n",    "\n",    "作为本次评论情感分析的**数据集**。"   ]  },  {   "cell_type": "markdown",   "id": "f83461b9",   "metadata": {},   "source": [    "### 测试爬虫"   ]  }
。。。。
"source": [
    "import requests\n",
    "import json\n",
    "\n",
    "\n",
    "#获取评论请求地址\n",
    "url = 'https://club.jd.com/comment/productPageComments.action'\n",
    "\n",
    "#请求参数\n",
    "params = {\n",
    "    'callback': 'fetchJSON_comment98',\n",
    "    'productId': '100021771660',\n",
    "    'score': '2',            #类型代表差评\n",
    "    'sortType': '5',         #默认排序\n",
    "    'page': '99',            #第99页数据\n",
    "    'pageSize': '10',\n",
    "    'isShadowSku': '0',\n",
    "    'fold': '1',\n",
    "}\n",
    "\n",
    "#请求头参数,反反爬策略 UA 伪装\n",
    "headers = {\n",
    "    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'\n",
    "}\n",
    "\n",
    "#获取响应,并分析响应内容\n",
    "response = requests.get(url = url, params=params, headers=headers)\n",
    "\n",
    "#拆分京东返回的响应数据,得到json类型数据\n",
    "data_json = response.text.replace('fetchJSON_comment98(', '')[:-2]\n",
    "\n",
    "#将json字符串加载为 python的对象中\n",
    "data = json.loads(data_json)\n",
    "\n",
    "good_comments = []\n",
    "\n",
    "for comment in data['comments']:\n",
    "    \n",
    "    #生成每条评论以及它的标签, 0代表好评, 1代表差评\n",

。。。。’‘’
{   "cell_type": "markdown",   "id": "ec70c184",   "metadata": {},   "source": [    "由于朴素贝叶斯的设定每个特征之间都是独立的,可以推出:"   ]  },  {   "cell_type": "markdown",   "id": "9c43aeb3",   "metadata": {},   "source": [    "$$P(特征|类别) = P(特征1|类别) * P(特征2|类别) * P(特征3|类别) * ... * P(特征n|类别)$$"   ]  },  {   "cell_type": "markdown",   "id": "58a3b980",   "metadata": {},   "source": [    "那么, 我们可以依次求出 P(特征1|类别)、P(特征2|类别)、P(特征3|类别)...P(特征n|类别),即"   ]  },
....


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群