全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1261 0
2020-08-14
使用神经网络的文本分类
了解聊天机器人的工作方式非常重要。聊天机器人内部的基本机器是文本分类器。让我们看一下用于文本分类的人工神经网络(ANN)的内部工作原理。
我们将使用2层神经元(1个隐藏层)和“单词袋”方法来组织训练数据。文本分类分为3种类型:模式匹配,算法,神经网络。尽管使用多项朴素贝叶斯算法非常有效,但它具有3个基本缺陷:
该算法产生一个得分而不是概率。 我们希望有一个概率可以忽略低于某个阈值的预测。这类似于VHF收音机上的“静音”拨盘。
该算法会从类中的内容示例中“学习”,而不是非类中的示例。学习不属于班级的模式通常非常重要。
训练集比例过大的课程可能会产生失真的分类得分,从而迫使算法调整相对于班级规模的得分。这是不理想的。
加入3位 0000多人的行列,他们每周阅读一次机器学习 新闻,了解AI将如何影响他们的工作和生活方式。
与其“天真”对应物一样,该分类器并非试图理解句子的含义,而是对其进行分类。实际上所谓的“ AI聊天机器人”不懂语言,但这是另一回事。
如果您不熟悉人工神经网络,这里就是它们的工作原理。
要了解分类的算法方法,请参见此处。
让我们一次检查一下文本分类器。我们将采取以下步骤:
引用我们需要的库
提供培训数据
整理我们的数据
迭代:代码+测试结果+调整模型
抽象
代码在这里,我们使用的是iPython Notebook,这是处理数据科学项目的一种非常有效的方式。代码语法是Python。
我们首先导入自然语言工具包。我们需要一种可靠地将句子标记为单词的方法和词干的方法。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群