这篇文章主要讲解了“Python如何爬取首都医科大学文章”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python如何爬取首都医科大学文章”吧!
爬虫项目实践
目标:首都医科大学官网新发文章
请求网址
通过正则表达式提取数据
分析数据
# 导入模块 # 用于请求网址 import requests # 用于解析网页源代码 from bs4 import BeautifulSoup # 用于正则 import re # 目标网址 # 设置页数,提取10页的数据 page=[''] for i in range(1,10,1): page.append(i) # 保存文件 with open(r'ccmu.csv','a',encoding='utf-8') as f: for i in page: url= 'http://www.ccmu.edu.cn/zxkylw_12912/index'+str(i)+'.htm' # 必要时添加header请求头,防止反爬拦截 headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:79.0) Gecko/20100101 Firefox/79.0' } # 目标网址请求方式为get resp=requests.get(url) html = resp.content.decode('utf-8') # 解析html soup = BeautifulSoup(html,'html.parser') # 找到最近发表的sci论文 # 使用find和find_all 函数 infos=soup.find('ul',{'class':'list03'}).find_all('li') for info in infos: time=info.find('span').get_text() ajt= info.find('a').get_text() # 写入文件 f.write("{},{}\n".format(time,ajt))
感谢各位的阅读,以上就是“Python如何爬取首都医科大学文章”的内容了,经过本文的学习后,相信大家对Python如何爬取首都医科大学文章这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。