小编给大家分享一下常见的python爬虫框架有哪些,希望大家阅读完这篇文章后大所收获,下面让我们一起去探讨吧!
常见python爬虫框架:
(1)Scrapy: 很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。
(2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等
(3)Portia: 可视化爬取网页内容
(4)newspaper: 提取新闻、文章以及内容分析
(5)python-goose: java写的文章提取工具
(6)Beautiful Soup: 名气大,整合了一些常用爬虫需求。缺点:不能加载JS。
(7)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。
(8)selenium: 这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。
(9)cola: 一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。
看完了这篇文章,相信你对常见的python爬虫框架有哪些有了一定的了解,想了解更多相关知识,欢迎关注亿速云行业资讯频道,感谢各位的阅读!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。