python如何爬取电影天堂的最新电影

发布时间：2022-01-13 15:10:40 阅读：615 作者：小新栏目：大数据

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要介绍python如何爬取电影天堂的最新电影，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！

1 爬取目标

本次爬取的站点选择电影天堂，网址是： www.ydtt8.net。爬取内容是整个站点的所有电影信息，包括电影名称，导演、主演、下载地址等。具体抓取信息如下图所示：

python如何爬取电影天堂的最新电影

2 设计爬虫程序

2.1 确定爬取入口

电影天堂里面的电影数目成千上万，电影类型也是让人眼花缭乱。我们为了保证爬取的电影信息不重复，所以要确定一个爬取方向。目前这情况真让人无从下手。但是，我们点击主页中的【最新电影】选项，跳进一个新的页面。蓦然有种柳暗花明又一村的感觉。

python如何爬取电影天堂的最新电影

由图可知道，电影天堂有 5 个电影栏目，分别为最新电影、日韩电影、欧美电影、国内电影、综合电影。每个栏目又有一定数量的分页，每个分页有 25 条电影信息。那么程序的入口可以有 5 个 url 地址。这 5 个地址分别对应每个栏目的首页链接。

2.2 爬取思路

知道爬取入口，后面的工作就容易多了。我通过测试发现这几个栏目除了页面的 url 地址不一样之外，其他例如提取信息的 xpath 路径是一样的。因此，我把 5 个栏目当做 1 个类，再该类进行遍历爬取。

我这里“最新电影”为例说明爬取思路。
1）请求栏目的首页来获取到分页的总数，以及推测出每个分页的 url 地址；
2）将获取到的分页 url 存放到名为 floorQueue 队列中；
3）从 floorQueue 中依次取出分页 url，然后利用多线程发起请求；
4）将获取到的电影页面 url 存入到名为 middleQueue 的队列；
5）从 middleQueue 中依次取出电影页面 url，再利用多线程发起请求；
6）将请求结果使用 Xpath 解析并提取所需的电影信息；
7）将爬取到的电影信息存到名为 contentQueue 队列中；
8）从 contentQueue 队列中依次取出电影信息，然后存到数据库中。