使用python爬虫怎么获取表情包

发布时间：2021-05-12 15:51:16 来源：亿速云阅读：171 作者：Leah 栏目：编程语言

今天就跟大家聊聊有关使用python爬虫怎么获取表情包，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

1、创建请求头，也被称为伪装浏览器

如果不添加请求头的话，可能会出现当前网站没有访问权限。

2、使用requests 网络请求库完成网站数据请求

3、获取数据后使用bs4对页面数据进行提取

需要用到一个非常好用的第三方包：bs4。

4、实例

import os
import requests
from bs4 import BeautifulSoup
 
if not os.path.exists('./images/'):
    os.mkdir('./images/')
 
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
}
 
url = 'https://fabiaoqing.com/biaoqing/lists/page/1.html'
response = requests.get(url, headers=headers).text
 
'''
lxml: html解析库,因为python和html两者没有关系
python没有办法直接控制html代码
我们就需要使用lxml这个库将html代码转成python对象
    需要大家去下载 pip install lxml
'''
soup = BeautifulSoup(response, 'lxml')
img_list = soup.find_all('img', class_='ui image lazy')
for img in img_list:
img_url = img['data-original']
img_title = img['title']
print(img_url, img_title)
try:
     with open('./images/' + img_title + os.path.splitext(img_url)[-1], 'wb') as f:
        '''
        因为一张图片是二进制数据
            如果我们使用text文本形式返回
            会对文件造成破坏
            
            使用content去返回原始数据
            
        '''
         image = requests.get(img_url, headers=headers).content
         # 写入二进制数据 image这个变量是存储requests返回的二进制数据的
         f.write(image)
         print('保存成功:', img_title)
except:
     pass

python的数据类型有哪些?

python的数据类型：1. 数字类型，包括int（整型）、long（长整型）和float（浮点型）。2.字符串，分别是str类型和unicode类型。3.布尔型，Python布尔类型也是用于逻辑运算，有两个值：True（真）和False（假）。4.列表，列表是Python中使用最频繁的数据类型，集合中可以放任何数据类型。5. 元组，元组用”()”标识，内部元素用逗号隔开。6. 字典，字典是一种键值对的集合。7. 集合，集合是一个无序的、不重复的数据组合。

看完上述内容，你们对使用python爬虫怎么获取表情包有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注亿速云行业资讯频道，感谢大家的支持。

向AI问一下细节

使用python爬虫怎么获取表情包

python的数据类型有哪些?

猜你喜欢

最新资讯

相关推荐

相关标签