Python爬虫之采集登陆后才能看到数据的方法是什么

发布时间：2021-10-25 11:06:19 阅读：240 作者：iii 栏目：web开发

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要介绍“Python爬虫之采集登陆后才能看到数据的方法是什么”，在日常操作中，相信很多人在Python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python爬虫之采集登陆后才能看到数据的方法是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

爬虫在采集网站的过程中，部分数据价值较高的网站，会限制访客的访问行为。这种时候建议通过登录的方式，获取目标网站的cookie，然后再使用cookie配合代理IP进行数据采集分析。

1 使用表单登陆

这种情况属于post请求，即先向服务器发送表单数据，服务器再将返回的cookie存入本地。

#! -*- encoding:utf-8 -*-  import requests  import random  import requests.adapters    # 要访问的目标页面  targetUrlList = [      "https://httpbin.org/ip",      "https://httpbin.org/headers",      "https://httpbin.org/user-agent",  ]    # 代理服务器(产品官网 www.16yun.cn)  proxyHost = "t.16yun.cn"  proxyPort = "31111"    # 代理隧道验证信息  proxyUser = "username"  proxyPass = "password"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {      "host": proxyHost,      "port": proxyPort,      "user": proxyUser,      "pass": proxyPass,  }    # 设置 http和https访问都是用HTTP代理  proxies = {      "http": proxyMeta,      "https": proxyMeta,  }    # 访问三次网站，使用相同的Session(keep-alive)，均能够保持相同的外网IP  s = requests.session()    # 设置cookie  cookie_dict = {"JSESSION":"123456789"}  cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)  s.cookies = cookies    for i in range(3):      for url in targetUrlList:          r = s.get(url, proxies=proxies)          print r.text

2 使用cookie登陆

使用cookie登陆，服务器会认为你是一个已登陆的用户，所以就会返回给你一个已登陆的内容。因此，需要验证码的情况可以使用带验证码登陆的cookie解决。

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Response Cookie！   response3 = requests_session.get(url_results) # 已登陆，因为之前拿到了Response Cookie！

若存在验证码，此时采用response = requests_session.post(url=url_login, data=data)是不行的，做法应该如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆，因为之前拿到了Response Cookie！   response3 = requests_session.get(url_results) # 已登陆，因为之前拿到了Response Cookie！

到此，关于“Python爬虫之采集登陆后才能看到数据的方法是什么”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注亿速云网站，小编会继续努力为大家带来更多实用的文章！

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

Python爬虫之采集登陆后才能看到数据的方法是什么

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签