2019/12/24
《No.23: p181-p190》《增强型分析-AI驱动的
数据分析、业务决策与案例实践》读书笔记
第6章 深入探讨CNN
6.3 Embedding
Embedding定义:一个数学结构包含另一个数学结构。将低维度的数据转换为高维度向量。
Word Embedding: 利用
机器学习的技术,将稀疏的低维度信息转换为高维度信息,使得有语意关联的词语在高维度具有比较紧密的关系。
6.3.1 文本向量化的一般方法
比较经典的文本向量化做法就是”TF-IDF”算法
1.TF的计算: 就是词频(Term Frequency)。计算词语在文档中出现的次数。
2.IDF的计算: 词语在全量文档出现的文档数。
3.TF-IDF计算: TF*IDF(TF与IDF的乘积),若TF-IDF值大,表示包含较多的语意信息。
4.TF-IDF计算的结果,可用来计算词语在不同文档间的相似性。原理是计算向量间的余弦相似度,其值越小,代表相似度越高。
6.3.2 Word Embedding的原理及实现
1.实现word embedding的两种方法
1)Count-based methods方法: 如LSI/LSA,工具是”Glove”。
2)Predictive methods方法: 如Neural Probabilistic Language Models, 工具如: “WordsVec”。
2.支持Word Embedding的开源工具: gensim。中文词料库(Corpus)
3.展现词向量的方法: 降维; 如PCA或t-SNE(t-distributed stochastic Neighbor Embedding)算法。
4.在实际项目中,大多需要开发者自己做word embedding,因各种行业领域不同,词语搭配就会不同。