温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

python怎么操作网页

发布时间:2022-02-22 16:52:50 来源:亿速云 阅读:424 作者:iii 栏目:开发技术

这篇文章主要讲解了“python怎么操作网页”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python怎么操作网页”吧!

介绍

urllib 库是一个 python 自带的用于操作网页 URL 的库,它可以简单的对网页的内容进行抓取处理。该功能最常用于 python 爬虫的开发,不过对于爬虫开发而言,request 是一个更好的选择。但内置的 urllib 也可以在简单使用上替代 request 库(而且由于 urllib 库是内置的,所以并不需要额外安装)。

安装

urllib 是 python 内置的库,不需要额外的安装。

功能

urllib 库下有四个模块,分别是 request 模块,error 模块,parse 模块和 robotparser 模块。

  • urllib.request  该模块定义了一些打开URL的函数和类,比如发起请求,授权验证,重定向,cookie等功能。

对于爬虫而言,一般只需要了解urllib.requesturlopen()方法即可。

   urlopen() 方法可以选择传入如下参数(不完全,但是基本上是爬虫常用的参数):
  • url:url 地址,也就是请求的链接。

  • data:发送到服务器的数据包(使用post方法的时候),默认为None。

  • timeout:设置访问超时时间。

  • headers:请求头,这个字段在爬虫反反爬的时候需要用到。

  • method:请求方法,可以设置请求的方式,默认是get请求。

代码示例:

url = 'https://www.yisu.com/'
headers = { 
#假装自己是浏览器 
'User-Agent':' Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36', 
}
req = request.Request(url,data=None,headers=headers,method='GET')
  • urllib.error  该模块为urllib.request所引发的异常定义了异常类,用于处理urllib.request引起的异常。

  • urllib.parse  该模块用于解析URL ,它可以解析一个url的协议,网络位置部分,分层路径,最后路径元素的参数,查询组件,片段识别,用户名,密码,主机名(小写)和端口号(前提是该URL有对应的值)

 一般而言一个url的结构只要开发者有一定经验,可以直接看出上述的内容,所以该模块的作用只是用于自动化操作,对于爬虫而言作用有限(在最开始的网站分析阶段开发者已经将相应的工作都做完了),如需了解对应的内容,请前往python教程进行了解

  • urllib.robotparser  该模块用于解析robot文件。

  • robot文件是网站用来告诉爬虫什么内容可以爬什么内容不能爬的文件,是网站与爬虫开发者之间的君子协定。虽然没有明文规定robot规定不能爬的内容一定不能爬,但是爬取robot规定不能爬的内容对方可以向开发者追责。

感谢各位的阅读,以上就是“python怎么操作网页”的内容了,经过本文的学习后,相信大家对python怎么操作网页这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI