在Python中创建文字云或标签云
从开始从事数据可视化工作的那一天起,我就一直爱上它。我总是喜欢从数据中获得有用的见解。在此之前,我只了解基本图表,例如条形图,散点图,直方图等,这些基本图表内置在tableau中,而Power BI则用于数据可视化。通过每天完成此任务,我遇到了许多新图表,例如径向规图,华夫饼图等。
因此,出于好奇,最近我正在搜索数据可视化中使用的所有图表类型,这些词云引起了我的注意,我发现它非常有趣。直到现在,看到这些词云图像迫使我认为这些只是随机排列的图像,这些单词是随机排列的,但是我错了,而且一切都从这里开始。之后,我尝试使用Tableau和Power BI中的少量数据制作词云。在成功尝试之后,我想通过编写条形图,饼形图和其他图表的代码来进行尝试。
词云基本上是什么?
定义:词云是一个简单但功能强大的可视化表示对象,用于文本处理,它以更大,更大胆的字母和不同的颜色显示最常用的词。单词的大小越小,重要性就越小。
词云
样本云
标签云的用途
1)社交媒体上的热门标签(Instagram,Twitter): 全世界,社交媒体都趋向于提供最新更新,因此我们可以获取人们在其帖子中使用的最常用的标签。
2)媒体中的热门话题: 分析新闻报道,我们可以在头条新闻中找到关键字,然后提取前n个需求较高的主题,并获得所需的结果,即前n个热门媒体主题。
3)电子商务中的搜索词: 在电子商务购物网站中,所有者可以使被搜索次数最多的购物商品的词云。因此,他可以了解在特定时期内哪些购物需求量很大。
让我们开始在python中编码以实现这种词云
首先,我们需要在jupyter笔记本中安装所有库。
因此,在python中,我们将安装一个内置库wordcloud。在Anaconda命令提示符下,输入以下代码:
点安装wordcloud
如果您的anaconda环境支持conda,请输入:
康达安装wordcloud
虽然,可以直接在笔记本本身中实现,只需添加“!”即可。在代码的开头
喜欢:
!pip安装wordcloud
现在,在这里,我将生成任何主题的Wikipedia文本的词云。因此,我将需要一个Wikipedia库来访问Wikipedia API,这可以通过在anaconda命令提示符下安装Wikipedia来完成,如下所示:
点安装维基百科
现在我们还需要其他一些库,它们都是numpy。matplotlib和熊猫。
截至目前,我们拥有所有库来创建标签云
导入维基百科
result = wikipedia.page(“ MachineLearning”)
final_result = result.content
打印(最终结果)
最后结果
机器学习维基百科页面的输出
上图是我们通过检索Wikipedia的机器学习页面获得的输出的图像。在那里,我们还可以看到向下滚动,这表示将检索整个页面。
在这里,我们还可以得到由简易的方法,如下页的总结:和
result = wikipedia.summary(“ MachineLearning”,句子= 5)
打印(结果)
这里我们有句子的参数,因此我们可以使用它来检索特定数量的行。
维基百科结果
输出5句
让我们现在有了wordcloud
从wordcloud导入WordCloud,StopWords
导入matplotlib.pyplot作为plt
def plot_cloud(wordcloud):
plt.figure(figsize =(10,10))
plt.imshow(wordcloud)
plt.axis(“ off”);
wordcloud = WordCloud(宽度= 500,高度= 500,background_color ='粉红色',random_state = 10).generate(final_result)
plot_cloud(wordcloud)
停用词是没有任何含义的单词,例如“是”,“是”,“一个”,“我”等。
Wordcloud带有内置的停用词库,它将自动从文本中删除停用词。
但是,有趣的是,我们可以通过stopwords.add()函数在python中添加停用词的选择。
Wordcloud方法将设置宽度和高度,我将它们都设置为500,背景色设置为粉红色。如果不添加随机状态,则每次运行代码时,词云都会看起来不同。应该将其设置为int值。
这是所需的词云,我们将从上面的代码中获得:
词云-维基百科
通过查看上图,我们可以看到机器学习是最常用的词,还有一些其他经常使用的词是模型,任务,训练和数据。因此,我们可以得出结论,机器学习是训练数据模型的任务。
我们还可以在这里通过背景颜色方法更改背景颜色,并通过colormap方法更改字体颜色,还可以在背景颜色中添加颜色的哈希码,但是mapcolor带有内置的特定颜色。
让我们通过使用其哈希码将背景颜色更改为蓝绿色,将字体颜色更改为蓝色:
从wordcloud导入WordCloud,StopWords
导入matplotlib.pyplot作为plt
def plot_cloud(wordcloud):
plt.figure(figsize =(10,10))
plt.imshow(wordcloud)
plt.axis(“ off”);
wordcloud = WordCloud(宽度= 500,高度= 500,background_color ='#40E0D0',colormap =“ ocean”,random_state = 10).generate(final_result)
plot_cloud(wordcloud)
新背景
在这里,我指定了Ocean,如果我添加了一些错误的颜色图,jupyter将抛出一个值错误,并向我显示颜色图的可用选项,如下所示:
错误
使用PIL库,还可以在任何图像中实现Wor Cloud。
题库