2019/12/30
《No.29: p216-p234》《增强型分析-AI驱动的
数据分析、业务决策与案例实践》读书笔记
第7章 深入探讨RNN
7.4让机算机学会写唐诗
7.4.1 构想
1.使用RNN模型,将现有诗集作为训练集,让模型能学习到每一个结束后再接入哪个字是最符合其学到的写诗模式。
2.就是”在给定输入的情况下,通过预测下一个字的概率来确定最有可能的字为何?”
7.4.2 构建
1.唐诗三百首语料库的处理。不包括题目、作者、标准符号,并将所有诗文拼接成一个文档。
2.是按照”字”而非”词”来生成训练数据
3.用LSTM实现。
4.模型应用: 写诗模型从文学角度来看,还有待加强。
7.5预测客户下一个行为
7.5.1 构想
1.使用LSTM来预测客户下一个行为。
2.数据处理: 依照Item的数量将Transaction向量化
7.5.2 构建
1.采用Kaggle上Acquire Valued Shoppers Challenge的数据集作为数据源。将事务作为LSTM模型中分析的变量。
2.需将事务向量化,再按照客户进行分组。
3.模型验证: 只要预测事务中可能性最大的Item在实际事务中出现,即可认为预测正确。
7.6计算机,请告诉我你看到什么?
7.6.1 构想
1.结合CNN、Word Embedding、RNN及LATM多种算法来生成图片描述
2.CNN: 能够对大量的图像进行类别判断
3.Word Embedding: 考虑文字上下文的向量方法,做比较好的类别判断
4.RNN: 对文本数据学习而创作出文字
5.LSTM: 构建一个给定图片,输出中文描述
7.6.2实现
1.数据准备: 以Flicker8k数据集为数据源。
2.利用CNN获取数据集中所有图片的特征: 以VGG16作为图像特征获取模型
3.利用分词等工具处理每一张图片对应的描述信息: 采用jieba分词工具对描述信息进行处里。
4.定义和训练模型: 将CNN的结果、Word Embedding、LSTM等要素结合起来。
5.模型应用: 输入图片,输出一段符合图片描述的文字。
7.6.3 VQA
1.VQA是近几年热门话题,Visual question answering,视觉问题回答。
2.过程
1)将图像转换为文本,如用CNN及LSTM
2)基于所问问题给出答案
a.文本和图像特征融和
b.图像和文本之间的语意层面的对应关系。