这篇文章主要介绍rpop方法怎么在python分布式爬虫中使用,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
下面的代码是消费端爬虫程序的示例
import time import redis r = redis.Redis(host='127.0.0.1', port=6379, password='yourpassword', db=1) # 爬虫程序 def crawl(task): print('爬取url {task}'.format(task=task)) time.sleep(1) while True: task = r.rpop('url_queue') if not task: time.sleep(1) continue crawl(task)
爬虫程序要不停的使用rpop方法从redis的队列中拉取数据进行爬取,考虑到生产者随时都可能写入新的任务,因此,必须使用死循环,得不到消息时,sleep一段时间,继续获取消息。
关于部署
生产端的程序,消费端的程序可以随意部署,但不管如何,都要确保这些机器与redis所在的机器是网络连通的,因为他们一个要写消息到redis,一个要从redis拉取任务,至于生产端和消费端是否网络连通则没有任何必要,甚至同一端的worker之间也不必网络连通
数据存储
消费端的worker在爬取数据以后,可以根据实际需要决定是否直接落库,如果需要对数据进行规范化处理或是其他操作,则可以写入新的消息队列中,由下一个工序的worker拉取数据进行处理
以上是“rpop方法怎么在python分布式爬虫中使用”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。