温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

零基础学python爬虫入门知识点有哪些

发布时间:2022-01-12 09:43:09 来源:亿速云 阅读:147 作者:iii 栏目:大数据

这篇文章主要介绍了零基础学python爬虫入门知识点有哪些的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇零基础学python爬虫入门知识点有哪些文章都会有所收获,下面我们一起来看看吧。

       1、什么是爬虫?

        爬虫是一段自动抓取互联网信息的程序,大家可以理解为在互联网这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据,爬虫就是通过这些通道爬取数据。

        2、浏览网页的过程

        在用户浏览网页的过程中,我们可能会看到许多好看的图片,如 http://image.baidu.com,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

        因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。其实,一个爬虫就是模拟了用户浏览的过程来获取数据的。

       3、URL的含义

        URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

        URL的格式由三部分组成:

        ①第一部分是协议(或称为服务方式)。

        ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。

        ③第三部分是主机资源的具体地址,如目录和文件名等。

        第一部分和第二部分用“://”符号隔开,

        第二部分和第三部分用“/”符号隔开。

        第一部分和第二部分是不可缺少的,第三部分有时可以省略。

关于“零基础学python爬虫入门知识点有哪些”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“零基础学python爬虫入门知识点有哪些”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注亿速云行业资讯频道。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI