温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

怎么用Python抓取国家医疗费用数据

发布时间:2021-11-01 15:59:41 阅读:99 作者:iii 栏目:编程语言
Python开发者专用服务器限时活动,0元免费领,库存有限,领完即止! 点击查看>>

这篇文章主要介绍“怎么用Python抓取国家医疗费用数据”,在日常操作中,相信很多人在怎么用Python抓取国家医疗费用数据问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python抓取国家医疗费用数据”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

整个世界正被大流行困扰着,不同国家拿出了不同的应对策略,也取得了不同效果。这也是本文的脑洞来源,笔者打算研究一下各国在医疗基础设置上的开支,对几个国家的医疗费用进行数据可视化。

由于没有找到最近一年的可靠数据来源,所以这里使用的是2016年的数据。数据清楚哪个国家花得最多、哪个国家花得最少。我一直想试试在Python中网络抓取和数据可视化,这算是个不错的项目。虽然手动将数据输入Excel肯定快得多,但是这样就不会有宝贵的机会来练习一些技能了。

数据科学就是利用各种工具包来解决问题,网络抓取和正则表达式是我需要研究的两个领域。结果简短但复杂,这一项目展示了如何将三种技术结合起来解决数据科学问题。

怎么用Python抓取国家医疗费用数据

要求

网络抓取主要分为两部分:

  • 通过发出HTTP请求来获取数据

  • 通过解析HTMLDOM来提取重要数据

库和工具

  • Requests能够非常简单地发送HTTP请求。

  • Pandas是一个Python包,提供快速、灵活和有表现力的数据结构。

  • Web Scraper可以帮助在不设置任何自动化浏览器的情况下抓取动态网站。

  • Beautiful Soup是一个Python库,用于从HTML和XML文件中提取数据。

  • matplotlib是一个综合的库,用于在Python中创建静态、动画和交互式可视化效果。

设置

设置非常简单,只需创建一个文件夹,并安装BeautifulSoup和Requests。此处假设已经安装了Python3.x,再根据指令来创建文件夹并安装库。

mkdir scraper pip install beautifulsoup4 pip install requests pip install matplotlib pip install pandas

现在,在该文件夹中创建一个任意名称的文件。这里用的是scraping.py.,然后在文件中导入Beautiful Soup和  requests,如下所示:

import pandas as pd from bs4 import BeautifulSoup import matplotlib.pyplot as plt import requests

抓取的内容:国家名;人均开销。

网络抓取

现在,所有scraper设置都已准备好,应向target URL发出GET请求以获得原始HTML数据。

r =requests.get( https://api.scrapingdog.com/scrape?api_key=<YOUR_API_KEY>&url=https://data.worldbank.org/indicator/SH.XPD.CHEX.PC.CD?most_recent_value_desc=false&dynamic=true ).text

这将得出target URL的HTML代码,我们必须使用Beautiful Soup来解析HTML。

soup = BeautifulSoup(r,&rsquo;html.parser&rsquo;) country=list() expense=list()

笔者用两张空表来存储国家名和每个国家24小时内的开支。可以看到,每个国家都存储在一个“项目”标签中,把所有的项目标签都存储在一张列表中。

try:  Countries=soup.find_all(“div”,{“class”:”item”}) except:  Countries=None

世界上有190个国家,为每个国家的医疗开支运行一个for循环:

for i in range(0,190): country.append(Countries[i+1].find_all(“div”,{“class”:None})[0].text.replace(“”,””)) expense.append(round(float(Countries[i+1].find_all(“div”,{“class”:None})[2].text.replace(“”,””).replace(&lsquo;,&rsquo;,&rsquo;&rsquo;)))/365) Data = {&lsquo;country&rsquo;:country,&rsquo;expense&rsquo;: expense}

因为我想看看这些国家每天是如何花钱的,所以把这笔费用除以365。如果把给定的数据直接除以365,这可能会更容易些,但这样就没有学习的意义了。现在的“数据”看起来是这样的:

{ country : [ Central AfricanRepublic ,  Burundi ,  Mozambique ,  Congo, Dem. Rep. ,  Gambia, The ,  Niger , Madagascar ,  Ethiopia ,  Malawi ,  Mali ,  Eritrea ,  Benin ,  Chad , Bangladesh ,  Tanzania ,  Guinea ,  Uganda ,  Haiti ,  Togo ,  Guinea-Bissau , Pakistan ,  Burkina Faso ,  Nepal ,  Mauritania ,  Rwanda ,  Senegal ,  PapuaNew Guinea ,  Lao PDR ,  Tajikistan ,  Zambia ,  Afghanistan ,  Comoros , Myanmar ,  India ,  Cameroon ,  Syrian Arab Republic ,  Kenya ,  Ghana ,"Cote d Ivoire",  Liberia ,  Djibouti ,  Congo, Rep. ,  Yemen, Rep. , Kyrgyz Republic ,  Cambodia ,  Nigeria ,  Timor-Leste ,  Lesotho ,  SierraLeone ,  Bhutan ,  Zimbabwe ,  Angola ,  Sao Tome and Principe ,  SolomonIslands ,  Vanuatu ,  Indonesia ,  Vietnam ,  Philippines ,  Egypt, Arab Rep. , Uzbekistan ,  Mongolia ,  Ukraine ,  Sudan ,  Iraq ,  Sri Lanka ,  CaboVerde ,  Moldova ,  Morocco ,  Fiji ,  Kiribati ,  Nicaragua ,  Guyana , Honduras ,  Tonga ,  Bolivia ,  Gabon ,  Eswatini ,  Thailand ,  Jordan , Samoa ,  Guatemala ,  St. Vincent and the Grenadines ,  Tunisia ,  Algeria , Kazakhstan ,  Azerbaijan ,  Albania ,  Equatorial Guinea ,  El Salvador , Jamaica ,  Belize ,  Georgia ,  Libya ,  Peru ,  Belarus ,  Paraguay ,  NorthMacedonia ,  Colombia ,  Suriname ,  Armenia ,  Malaysia ,  Botswana , Micronesia, Fed. Sts. ,  China ,  Namibia ,  Dominican Republic ,  Iran,Islamic Rep. ,  Dominica ,  Turkmenistan ,  South Africa ,  Bosnia andHerzegovina ,  Mexico ,  Turkey ,  Russian Federation ,  Romania ,  St. Lucia , Serbia ,  Ecuador ,  Tuvalu ,  Grenada ,  Montenegro ,  Mauritius , Seychelles ,  Bulgaria ,  Antigua and Barbuda ,  Brunei Darussalam ,  Oman , Lebanon ,  Poland ,  Marshall Islands ,  Latvia ,  Croatia ,  Costa Rica , St. Kitts and Nevis ,  Hungary ,  Argentina ,  Cuba ,  Lithuania ,  Nauru , Brazil ,  Panama ,  Maldives ,  Trinidad and Tobago ,  Kuwait ,  Bahrain , Saudi Arabia ,  Barbados ,  Slovak Republic ,  Estonia ,  Chile ,  CzechRepublic ,  United Arab Emirates ,  Uruguay ,  Greece ,  Venezuela, RB , Cyprus ,  Palau ,  Portugal ,  Qatar ,  Slovenia ,  Bahamas, The ,  Korea,Rep. ,  Malta ,  Spain ,  Singapore ,  Italy ,  Israel ,  Monaco ,  SanMarino ,  New Zealand ,  Andorra ,  United Kingdom ,  Finland ,  Belgium , Japan ,  France ,  Canada ,  Austria ,  Germany ,  Netherlands ,  Ireland , Australia ,  Iceland ,  Denmark ,  Sweden ,  Luxembourg ,  Norway , Switzerland ,  United States ,  World ],  expense : }

数据帧

绘制图表之前,必须使用Pandas准备一个数据帧。首先我们得明确DataFrame是什么:

DataFrame是一个二维大小可变的、潜在的异构表格式数据结构,带有标记的轴(行和列)。创造一个数据帧非常简单直接:

df = pd.DataFrame(Data,columns=[&lsquo;country&rsquo;&lsquo;expense&rsquo;])

可视化

我们大部分时间都花在收集和格式化数据上,现在到了做图的时候啦,可以使用matplotlib和seaborn  来可视化数据。如果不太在意美观,可以使用内置的数据帧绘图方法快速显示结果:

df.plot(kind = &lsquo;bar&rsquo;, x=&rsquo;country&rsquo;, y=&rsquo;expense&rsquo;) plt.show()

现在,结论出来了:许多国家每天的支出都低于一美元。这些国家中大多数都位于亚洲和非洲,看来世界卫生组织应更关注这些国家。

到此,关于“怎么用Python抓取国家医疗费用数据”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!

亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

原文链接:http://mp.weixin.qq.com/s?__biz=MzI2NjkyNDQ3Mw==&mid=2247493827&idx=1&sn=342fd198b587cfd4332837c38c90339e&chksm=ea841015ddf39903903cbda34e7c25082558b8b17d8f8dcf4685338d266567ae63984388a3ea&mpshare=1&s

AI

开发者交流群×