python scrapy爬虫如何写

python

小樊

2024-12-11 13:02:22

栏目: 编程语言

编写Python Scrapy爬虫的过程分为几个步骤。首先，确保你已经安装了Scrapy。如果没有，请使用以下命令安装：

pip install scrapy

接下来，遵循以下步骤创建一个简单的Scrapy爬虫：

创建一个新的Scrapy项目：

scrapy startproject my_spider

这将在名为my_spider的目录中创建一个新的Scrapy项目。

cd my_spider

创建一个新的爬虫：

scrapy genspider my_spider example.com

这将在spiders目录中创建一个名为my_spider.py的新文件，其中包含一个名为MySpider的基本爬虫类。

编辑my_spider.py文件，定义爬虫的行为：

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        # 提取页面中的标题
        title = response.css('title::text').get()
        self.log(f'Page title: {title}')

        # 提取页面中的所有链接
        links = response.css('a::attr(href)').getall()
        for link in links:
            self.log(f'Link: {link}')

在这个例子中，我们定义了一个名为MySpider的爬虫，它从一个名为example.com的域中抓取页面标题和链接。parse方法用于处理从目标网站抓取到的响应。

运行爬虫：

scrapy crawl my_spider

这将启动爬虫并打印出抓取到的页面标题和链接。

这只是一个简单的Scrapy爬虫示例。你可以根据需要扩展它，以处理更复杂的网站结构和抓取需求。要了解更多关于Scrapy的信息，请查阅官方文档：https://docs.scrapy.org/

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

python scrapy爬虫如何写

最新问答

相关标签