【学习笔记】2019/12/24 《No.23: p181-p190》《增强型分析-AI驱动的数据分析 ...

434

收藏 2019-12-24

2019/12/24
《No.23: p181-p190》《增强型分析-AI驱动的数据分析、业务决策与案例实践》读书笔记
第6章深入探讨CNN

6.3 Embedding
Embedding定义:一个数学结构包含另一个数学结构。将低维度的数据转换为高维度向量。
Word Embedding: 利用机器学习的技术，将稀疏的低维度信息转换为高维度信息，使得有语意关联的词语在高维度具有比较紧密的关系。
6.3.1 文本向量化的一般方法
  比较经典的文本向量化做法就是”TF-IDF”算法
  1.TF的计算: 就是词频(Term Frequency)。计算词语在文档中出现的次数。
  2.IDF的计算: 词语在全量文档出现的文档数。
  3.TF-IDF计算: TF*IDF(TF与IDF的乘积)，若TF-IDF值大，表示包含较多的语意信息。
  4.TF-IDF计算的结果，可用来计算词语在不同文档间的相似性。原理是计算向量间的余弦相似度，其值越小，代表相似度越高。
6.3.2 Word Embedding的原理及实现
  1.实现word embedding的两种方法
1)Count-based methods方法: 如LSI/LSA，工具是”Glove”。
2)Predictive methods方法: 如Neural Probabilistic Language Models, 工具如: “WordsVec”。
  2.支持Word Embedding的开源工具: gensim。中文词料库(Corpus)
  3.展现词向量的方法: 降维；如PCA或t-SNE(t-distributed stochastic Neighbor Embedding)算法。
  4.在实际项目中，大多需要开发者自己做word embedding，因各种行业领域不同，词语搭配就会不同。