Python爬虫框架NewSpaper如何使用

发布时间：2022-08-29 16:40:54 来源：亿速云阅读：191 作者：iii 栏目：开发技术

今天小编给大家分享一下Python爬虫框架NewSpaper如何使用的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。

newspaper

安装非常简单

pip install newspaper3k -i pypi.tuna.tsinghua.edu.cn/simple

Python爬虫框架NewSpaper如何使用

newspaper框架的使用

对于这款框架，使用起来难度是非常低的。简单对照这一页文档即可应用起来

例如：单条新闻内容获取

第一种应用方式，直接获取网页内容

from newspaper import Article
url = "https://36kr.com/p/857678806293124"
article = Article(url) # 创建文章对象
article.download()        # 加载网页
article.parse()           # 解析网页
print(article.html) # 打印html文档

当然还有一些其他属性，不过该框架都是基于关键字识别的，有一些BUG存在，有时识别不准

# print(article.html) # 打印html文档
print(article.text) # 新闻正文
print("-"*100)
print(article.title) # 新闻标题
print("-"*100)
print(article.authors)  # 新闻作者
print("-"*100)
print(article.summary)   # 新闻摘要
print(article.keywords) # 新闻关键词
# print(article.top_image) # 本文的top_image的URL
# print(article.images) # 本文中的所有图像url

newspaper文章缓存

默认情况下，newspaper缓存所有待提取的文章，如果文章被爬取过之后就会清除掉它。此功能用于防止重复的文章和提高提取速度。可以使用memoize_articles参数选择是否缓存。

但当我使用下面这个办法进行提取的时候，神奇的BUG出现了，怎么也得不到我想要的文章了。唉~看来框架完善之路还是要继续啊

import newspaper
url = "https://news.sina.com.cn/c/2020-08-29/doc-iivhvpwy3651884.shtml"
# article = Article(url) # 创建文章对象
# article.download()        # 加载网页
# article.parse()           # 解析网页
news = newspaper.build(url, language='zh', memoize_articles=False)
article = news.articles[0]
article.download()
article.parse()
print('title=',article.title)

其他功能

在应用的过程中发现确实解析存在很大的问题，不过整体的框架设计思路还是非常棒的。有点高开低走，看到github上的评语其实对newspaper是非常有期待的，使用之后，我建议还是使用requests然后加上bs4自己搞搞更加合理。

除了上面简单介绍到的功能，它还有一些扩展，例如下面这些

requests和newspaper合体解析网页正文，也就是用requests爬取，newspaper充当解析器
可以调用Google Trends信息
支持多任务爬取
支持NPL自然语言处理

以上就是“Python爬虫框架NewSpaper如何使用”这篇文章的所有内容，感谢各位的阅读！相信大家阅读完这篇文章都有很大的收获，小编每天都会为大家更新不同的知识，如果还想学习更多的知识，请关注亿速云行业资讯频道。

向AI问一下细节

Python爬虫框架NewSpaper如何使用

newspaper

newspaper框架的使用

例如：单条新闻内容获取

newspaper文章缓存

其他功能

猜你喜欢

最新资讯

相关推荐

相关标签