温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Python爬虫之采集登陆后才能看到数据的方法是什么

发布时间:2021-10-25 11:06:19 来源:亿速云 阅读:231 作者:iii 栏目:web开发

这篇文章主要介绍“Python爬虫之采集登陆后才能看到数据的方法是什么”,在日常操作中,相信很多人在Python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫之采集登陆后才能看到数据的方法是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

Python爬虫之采集登陆后才能看到数据的方法是什么

爬虫在采集网站的过程中,部分数据价值较高的网站,会限制访客的访问行为。这种时候建议通过登录的方式,获取目标网站的cookie,然后再使用cookie配合代理IP进行数据采集分析。

1 使用表单登陆

这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。

#! -*- encoding:utf-8 -*-  import requests  import random  import requests.adapters    # 要访问的目标页面  targetUrlList = [      "https://httpbin.org/ip",      "https://httpbin.org/headers",      "https://httpbin.org/user-agent",  ]    # 代理服务器(产品官网 www.16yun.cn)  proxyHost = "t.16yun.cn"  proxyPort = "31111"    # 代理隧道验证信息  proxyUser = "username"  proxyPass = "password"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {      "host": proxyHost,      "port": proxyPort,      "user": proxyUser,      "pass": proxyPass,  }    # 设置 http和https访问都是用HTTP代理  proxies = {      "http": proxyMeta,      "https": proxyMeta,  }    # 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP  s = requests.session()    # 设置cookie  cookie_dict = {"JSESSION":"123456789"}  cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)  s.cookies = cookies    for i in range(3):      for url in targetUrlList:          r = s.get(url, proxies=proxies)          print r.text

2 使用cookie登陆

使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie!   response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!

若存在验证码,此时采用response = requests_session.post(url=url_login,  data=data)是不行的,做法应该如下:

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie!   response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!

到此,关于“Python爬虫之采集登陆后才能看到数据的方法是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI