在 Linux 上部署简单的 Python 爬虫可以通过以下步骤完成:
sudo apt update
sudo apt install python3 python3-pip
python3 -m venv my_crawler_env
source my_crawler_env/bin/activate
pip install requests beautifulsoup4
my_crawler.py
的文件,并添加以下内容:import requests
from bs4 import BeautifulSoup
def fetch_data(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
print(f"Error fetching data: {response.status_code}")
return None
def parse_data(html):
soup = BeautifulSoup(html, "html.parser")
# 根据网页结构解析数据,例如提取所有链接
links = [a["href"] for a in soup.find_all("a", href=True)]
return links
def main():
url = "https://example.com"
html = fetch_data(url)
if html:
links = parse_data(html)
print(links)
if __name__ == "__main__":
main()
python my_crawler.py
pip install gunicorn
gunicorn --bind 0.0.0.0:8000 my_crawler:app
这将使用默认设置启动 Gunicorn 服务器,监听所有网络接口上的 8000 端口。你可以根据需要调整 Gunicorn 的配置。
通过以上步骤,你可以在 Linux 上成功部署一个简单的 Python 爬虫。