温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Python爬虫实现自动化爬取b站实时弹幕的方法

发布时间:2021-04-28 14:13:23 来源:亿速云 阅读:218 作者:小新 栏目:编程语言

这篇文章主要介绍了Python爬虫实现自动化爬取b站实时弹幕的方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

Python主要用来做什么

Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬虫;4、嵌入式应用开发;5、游戏开发;6、桌面应用开发。

1、导入需要的库

import jieba  # 分词
from wordcloud import WordCloud  # 词云
from PIL import Image  # 图片处理
import numpy as np  # 图片处理
import matplotlib.pyplot as plt  # 画图

2、 jieba分词

所谓的分词就是将一句话分成一个或几个词语的形式,

分词代码

# 读取停用词库,注意编码应为‘utf8’
f = open('小夜斗的停用词表.txt', encoding='utf8')
stopwords = f.read().split('\n')
print(stopwords)  # 打印停用词
f.close()  # 关闭停用词文件

3、打印出的为一个停用词列表

with open("冰冰vlog2.txt", "r", encoding='utf8') as fp:
	text = fp.read()

4、读取冰冰弹幕数据文件的操作,将其保存到text变量中

segs = jieba.cut(text)  # 进行jieba分词
mytext_list = []  # 构建一个容纳过滤掉停用词的冰冰弹幕数据文件
# 文本清洗
for seg in segs:  # 循环遍历每一个分词文本
	# 如果该词不属于停用词表 并且非空 长度不为1
	if seg not in stopwords and seg != "" and len(seg) != 1:
		# 将该词语添加到mytext_list列表中
		mytext_list.append(seg.replace(" ", ""))
print(mytext_list)  # 打印过滤后的冰冰弹幕数据

5、获取过滤停用词后的冰冰弹幕数据

cloud_text = ",".join(mytext_list)  # 连接列表里面的词语
print(cloud_text)

感谢你能够认真阅读完这篇文章,希望小编分享的“Python爬虫实现自动化爬取b站实时弹幕的方法”这篇文章对大家有帮助,同时也希望大家多多支持亿速云,关注亿速云行业资讯频道,更多相关知识等着你来学习!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI