简介
主要内容包括
如何将文本处理为Tensorflow LSTM的输入
如何定义LSTM
用训练好的LSTM进行文本分类
代码
导入相关库
#coding=utf-8
import tensorflow as tf
from tensorflow.contrib import learn
import numpy as np
from tensorflow.python.ops.rnn import static_rnn
from tensorflow.python.ops.rnn_cell_impl import BasicLSTMCell
# 数据
positive_texts = [
"我 今天 很 高兴",
"我 很 开心",
"他 很 高兴",
"他 很 开心"
negative_texts = [
"我 不 高兴",
"我 不 开心",
"他 今天 不 高兴",
"他 不 开心"
label_name_dict = {
0: "正面情感",
1: "负面情感"
}
配置信息
embedding_size = 50
num_classes = 2
将文本和label数值化
# 将文本和label数值化
all_texts = positive_texts + negative_textslabels = [0] * len(positive_texts) + [1] * len(negative_texts)
max_document_length = 4
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)
datas = np.array(list(vocab_processor.fit_transform(all_texts)))
vocab_size = len(vocab_processor.vocabulary_)
定义placeholder(容器),存放输入输出
# 容器,存放输入输出
datas_placeholder = tf.placeholder(tf.int32, [None, max_document_length])
labels_placeholder = tf.placeholder(tf.int32, [None])
词向量处理
# 词向量表
embeddings = tf.get_variable("embeddings", [vocab_size, embedding_size], initializer=tf.truncated_normal_initializer)
# 将词索引号转换为词向量[None, max_document_length] => [None, max_document_length, embedding_size]
embedded = tf.nn.embedding_lookup(embeddings, datas_placeholder)
将数据处理为LSTM的输入格式
# 转换为LSTM的输入格式,要求是数组,数组的每个元素代表某个时间戳一个Batch的数据
rnn_input = tf.unstack(embedded, max_document_length, axis=1)
# 定义LSTM
lstm_cell = BasicLSTMCell(20, forget_bias=1.0)
rnn_outputs, rnn_states = static_rnn(lstm_cell, rnn_input, dtype=tf.float32)
#利用LSTM最后的输出进行预测
logits = tf.layers.dense(rnn_outputs[-1], num_classes)
predicted_labels = tf.argmax(logits, axis=1)
一、大数据概述
二、大数据处理架构Hadoop
三、分布式文件系统HDFS
四、分布式数据库HBase
五、MapReduce
六、Spark :1.Spark生态与运行架构
七、IPython Notebook运行Python Spark程序
八、Python Spark集成开发环境
九、Python Spark决策树二分类与多分类
十、Python Spark支持向量机
十一、Python Spark 贝叶斯模型
十二、Python Spark逻辑回归
十三、Python Spark回归分析
十四、Spark ML Pipeline 机器学习流程分类
十五、Python Spark 创建推荐引擎
十六、项目实践
关注 我 并发布评论,来获取更多有效资料吧!!!