全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 学道会
434 2
2019-12-24
2019/12/24
《No.23: p181-p190》《增强型分析-AI驱动的数据分析、业务决策与案例实践》读书笔记
第6章 深入探讨CNN

6.3 Embedding
Embedding定义:一个数学结构包含另一个数学结构。将低维度的数据转换为高维度向量。
Word Embedding: 利用机器学习的技术,将稀疏的低维度信息转换为高维度信息,使得有语意关联的词语在高维度具有比较紧密的关系。
6.3.1 文本向量化的一般方法
  比较经典的文本向量化做法就是”TF-IDF”算法
  1.TF的计算: 就是词频(Term Frequency)。计算词语在文档中出现的次数。
  2.IDF的计算: 词语在全量文档出现的文档数。
  3.TF-IDF计算: TF*IDF(TF与IDF的乘积),若TF-IDF值大,表示包含较多的语意信息。
  4.TF-IDF计算的结果,可用来计算词语在不同文档间的相似性。原理是计算向量间的余弦相似度,其值越小,代表相似度越高。
6.3.2 Word Embedding的原理及实现
  1.实现word embedding的两种方法
   1)Count-based methods方法: 如LSI/LSA,工具是”Glove”。
   2)Predictive methods方法: 如Neural Probabilistic Language Models, 工具如: “WordsVec”。
  2.支持Word Embedding的开源工具: gensim。中文词料库(Corpus)
  3.展现词向量的方法: 降维; 如PCA或t-SNE(t-distributed stochastic Neighbor Embedding)算法。
  4.在实际项目中,大多需要开发者自己做word embedding,因各种行业领域不同,词语搭配就会不同。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2019-12-24 23:06:53
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2020-1-27 14:29:17
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群