要用Python编写爬虫代码,你可以使用一些流行的库,如Requests和BeautifulSoup。以下是一个简单的示例,展示了如何使用这两个库抓取一个网页的内容并提取所需的信息。
首先,确保你已经安装了Requests和BeautifulSoup库。如果没有,请使用以下命令安装:
pip install requests
pip install beautifulsoup4
接下来,创建一个名为simple_crawler.py
的Python文件,并在其中编写以下代码:
import requests
from bs4 import BeautifulSoup
def get_page(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
print(f"Error: Unable to fetch the page. Status code: {response.status_code}")
return None
def parse_page(html):
soup = BeautifulSoup(html, 'html.parser')
# 在此处提取所需的信息,例如:
title = soup.find('title').text
print(f"Page Title: {title}")
def main():
url = input("Enter the URL of the webpage you want to crawl: ")
html = get_page(url)
if html:
parse_page(html)
if __name__ == "__main__":
main()
在这个示例中,我们首先导入所需的库,然后定义了三个函数:
get_page(url)
:发送一个GET请求到指定的URL,并返回网页的HTML内容。如果请求失败,它将打印错误信息并返回None。parse_page(html)
:使用BeautifulSoup解析HTML内容,并提取所需的信息。在这个示例中,我们提取了网页的标题。main()
:从用户那里获取要抓取的网页URL,调用get_page()
函数获取HTML内容,然后调用parse_page()
函数解析内容并提取信息。最后,我们在if __name__ == "__main__":
语句中调用main()
函数,以便在运行此脚本时执行爬虫代码。
要运行此示例,请在命令行中输入以下命令:
python simple_crawler.py
然后按照提示输入要抓取的网页URL。脚本将输出网页的标题。你可以根据需要修改parse_page()
函数以提取其他信息。