温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

怎么用Python分析红楼梦关键词

发布时间:2021-12-27 13:37:24 来源:亿速云 阅读:389 作者:iii 栏目:大数据

这篇文章主要介绍“怎么用Python分析红楼梦关键词”,在日常操作中,相信很多人在怎么用Python分析红楼梦关键词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python分析红楼梦关键词”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

Python工具包准备

想要完成一个文本的分词,我们需要分词工具;而要将分词统计结果用词云图画出来,我们需要一个词云工具:


0       1      
分词工具jieba      


jieba 是基于Python的中文分词工具,安装使用非常方便。


我们使用pip安装:


怎么用Python分析红楼梦关键词


02
词云工具wordcloud


wordcloud库,可以说是python非常优秀的词云展示第三方库。词云以词语为基本单位更加直观和艺术的展示文本词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。


效果举例:


怎么用Python分析红楼梦关键词


我们使用pip安装:


怎么用Python分析红楼梦关键词


文本和图片准备


0 1      
红楼梦.txt


为了让分词工具进行分析,我们下载红楼梦小说txt格式。为了方便,我们将红楼梦文档放在程序“fenci.py”所在目录“分词”下的txt文件夹里面:


怎么用Python分析红楼梦关键词



0 2      
背景.jpg


像上面的词云图的形状是一个鲸鱼,我们需要准备一个有图案的背景图,让最后的词云图贴合背景图案。


我们选用这张宝玉的美男子画像图作为背景图:


怎么用Python分析红楼梦关键词

文件保存在程序当前文件夹的img目录下:


怎么用Python分析红楼梦关键词



0 3      
停用词.txt


在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。


但是,由于红楼梦有很多特殊的用词,比如“这会子”,"明儿"等等,大家可以选择自行添加一些停用词。比如我加了一些词:


怎么用Python分析红楼梦关键词


我们把停用词放在words文件夹下面:


怎么用Python分析红楼梦关键词



程序运行

我们将最大次数设置成500个,为了能让背景图案比较明显:


怎么用Python分析红楼梦关键词

从结果看来,宝玉是当之无愧的主角。凤姐,贾母,王夫人等人戏份也不少。由于黛玉和林黛玉被分成了两个词,因此显得戏份很少,大家想想有没有办法解决这个问题?另外,我们可以看到“这会子”这个词出现频率也不低,从中可以一窥当时的方言的感觉。

到此,关于“怎么用Python分析红楼梦关键词”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI