温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

python爬虫中如何爬取新闻

发布时间:2021-04-29 10:03:49 来源:亿速云 阅读:847 作者:小新 栏目:编程语言

这篇文章主要介绍了python爬虫中如何爬取新闻,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

python的五大特点是什么

python的五大特点:1.简单易学,开发程序时,专注的是解决问题,而不是搞明白语言本身。2.面向对象,与其他主要的语言如C++和Java相比, Python以一种非常强大又简单的方式实现面向对象编程。3.可移植性,Python程序无需修改就可以在各种平台上运行。4.解释性,Python语言写的程序不需要编译成二进制代码,可以直接从源代码运行程序。5.开源,Python是 FLOSS(自由/开放源码软件)之一。

1、爬虫思路:

定义编码形式并引入模块;

请求新闻网站URL,获取其text文本并解析;

通过select选择器定位解析文件指定的元素,返回一个列表并遍历;

获取相关内容。

2、具体实现

第一步:使用UTF-8编码形式定义文件(避免一些编码错误导致中文乱码),并引入相关模块。

# coding:utf-8
# 引入相关模块
import requests
from bs4 import BeautifulSoup
url = "http://news.qq.com/"

第二步:请求新闻网站URL,获取其text文本

wbdata = requests.get(url).text

第三步:解析获取到的文本

soup = BeautifulSoup(wbdata,'lxml')

第四步:通过select选择器定位解析文件指定的元素,返回一个列表

从解析文件中通过select选择器定位指定的元素,返回一个列表
news_titles = soup.select("div.text > em.f14 > a.linkto")

第五步:遍历返回的列表

for n in news_titles:

第六步:获取新闻标题及信息

 # 提取出标题和链接信息
    title = n.get_text()
    link = n.get("href")
    data = {
        '标题':title,
        '链接':link
    }
    print(data)

感谢你能够认真阅读完这篇文章,希望小编分享的“python爬虫中如何爬取新闻”这篇文章对大家有帮助,同时也希望大家多多支持亿速云,关注亿速云行业资讯频道,更多相关知识等着你来学习!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI