怎么用python编写爬虫代码

python

小亿

2024-12-05 05:51:25

栏目: 编程语言

要用Python编写爬虫代码，你可以使用一些流行的库，如Requests和BeautifulSoup。以下是一个简单的示例，展示了如何使用这两个库抓取一个网页的内容并提取所需的信息。

首先，确保你已经安装了Requests和BeautifulSoup库。如果没有，请使用以下命令安装：

pip install requests
pip install beautifulsoup4

接下来，创建一个名为simple_crawler.py的Python文件，并在其中编写以下代码：

import requests
from bs4 import BeautifulSoup

def get_page(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        print(f"Error: Unable to fetch the page. Status code: {response.status_code}")
        return None

def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 在此处提取所需的信息，例如：
    title = soup.find('title').text
    print(f"Page Title: {title}")

def main():
    url = input("Enter the URL of the webpage you want to crawl: ")
    html = get_page(url)
    if html:
        parse_page(html)

if __name__ == "__main__":
    main()

在这个示例中，我们首先导入所需的库，然后定义了三个函数：

get_page(url)：发送一个GET请求到指定的URL，并返回网页的HTML内容。如果请求失败，它将打印错误信息并返回None。
parse_page(html)：使用BeautifulSoup解析HTML内容，并提取所需的信息。在这个示例中，我们提取了网页的标题。
main()：从用户那里获取要抓取的网页URL，调用get_page()函数获取HTML内容，然后调用parse_page()函数解析内容并提取信息。

最后，我们在if __name__ == "__main__":语句中调用main()函数，以便在运行此脚本时执行爬虫代码。

要运行此示例，请在命令行中输入以下命令：

python simple_crawler.py

然后按照提示输入要抓取的网页URL。脚本将输出网页的标题。你可以根据需要修改parse_page()函数以提取其他信息。

怎么用python编写爬虫代码

最新问答

相关标签