怎么利用python爬取城市公交站点

发布时间：2021-12-09 17:15:46 来源：亿速云阅读：372 作者：iii 栏目：开发技术

本篇内容介绍了“怎么利用python爬取城市公交站点”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

页面分析

https://guiyang.8684.cn/line1

怎么利用python爬取城市公交站点

爬虫

我们利用requests请求，利用BeautifulSoup来解析，获取我们的站点数据。得到我们的公交站点以后，我们利用高德api来获取站点的经纬度坐标，利用pandas解析json文件。接下来开干，我推荐使用面向对象的方法来写代码。

import requests
import json
from bs4 import BeautifulSoup
import pandas as pd


class bus_stop:
 ## 定义一个类，用来获取每趟公交的站点名称和经纬度
 def __init__(self):
 self.url = 'https://guiyang.8684.cn/line{}'
 self.starnum = []
 for start_num in range(1, 17):
 self.starnum.append(start_num)
 self.payload = {}
 self.headers = {
 'Cookie': 'JSESSIONID=48304F9E8D55A9F2F8ACC14B7EC5A02D'}
 ## 调用高德api获取公交线路的经纬度
 ### 这个key大家可以自己去申请
 def get_location(self, line):
 url_api = 'https://restapi.amap.com/v3/bus/linename?s=rsv3&extensions=all&key=559bdffe35eec8c8f4dae959451d705c&output=json&city=贵阳&offset=2&keywords={}&platform=JS'.format(
 line)
 res = requests.get(url_api).text
 # print(res) 可以用于检验传回的信息里面是否有自己需要的数据
 rt = json.loads(res)
 dicts = rt['buslines'][0]
 # 返回df对象
 df = pd.DataFrame.from_dict([dicts])
 return df
 ## 获取每趟公交的站点名称
 def get_line(self):
 for start in self.starnum:
 start = str(start)
 # 构造url
 url = self.url.format(start)
 res = requests.request(
 "GET", url, headers=self.headers, data=self.payload)
 soup = BeautifulSoup(res.text, "lxml")
 div = soup.find('div', class_='list clearfix')
 lists = div.find_all('a')
 for item in lists:
 line = item.text  # 获取a标签下的公交线路 
 lines.append(line)
 return lines


if __name__ == '__main__':
 bus_stop = bus_stop()
 stop_df = pd.DataFrame([])
 lines = []
 bus_stop.get_line()
 # 输出路线
 print('一共有{}条公交路线'.format(len(lines)))
 print(lines)
 # 异常处理
 error_lines = []
 for line in lines:
 try:
 df = bus_stop.get_location(line)
 stop_df = pd.concat([stop_df, df], axis=0)
 except:
 error_lines.append(line)

 # 输出异常的路线 
 print('异常路线有{}条公交路线'.format(len(error_lines))) 
 print(error_lines)

 # 输出文件大小 
 print(stop_df.shape)
 stop_df.to_csv('bus_stop.csv', encoding='gbk', index=False)

怎么利用python爬取城市公交站点

数据清洗

我们先来看效果，我需要对busstops列进行清洗。我们的总体思路，分列->逆透视->分列。我会接受两种方法，一是Excel PQ，二是python。

怎么利用python爬取城市公交站点

Excel PQ 数据清洗

这一方法完全利用PQ，纯界面操作，问题不大，所以我们看看流程就可以了，核心步骤就是和上面一样的。

怎么利用python爬取城市公交站点

python数据清洗

## 我们需要处理的busstops列和ID列
data = stop_df[['id','busstops']]
data.head()

怎么利用python爬取城市公交站点

## 字典或者列表分列
df_pol = data.copy()
### 设置索引列
df_pol.set_index('id',inplace=True)
df_pol.head()

怎么利用python爬取城市公交站点

## 逆透视
### 释放索引
df_pol.reset_index(inplace=True)
### 逆透视操作
df_pol_ps = df_pol.melt(id_vars=['id'], value_name='busstops')
df_pol_ps.head()

怎么利用python爬取城市公交站点

## 删除空行
df_pol_ps.dropna(inplace=True,axis=0)
df_pol_ps.shape

怎么利用python爬取城市公交站点

## 分列
### 设置line_id
df_parse['line_id'] = df_pol_ps['id']
df_parse = df_pol_ps['busstops'].apply(pd.Series)
df_parse

怎么利用python爬取城市公交站点

我这里补充一下，我们一般还要对location列进行分列，把Long，lat分列出来，但是我们这里就不做了，都是重复劳动，而且我用的pq清洗，快很多。

## 写入文件
df_parse.to_excel('贵阳市公交站点分布.xlsx', index=False)</pre>

QGIS坐标纠偏

QGIS基础操作，我就不说了，顺便说一下QGIS对csv格式支持较好，我推荐我们导入QGIS的文件为csv格式的文件。

导入csv文件

怎么利用python爬取城市公交站点

坐标纠偏

以前说了很多，我们高德地图上的坐标是GCJ02坐标，我们需要转成WGS 1984坐标，我们在QGIS里面需要借助GeoHey插件。

怎么利用python爬取城市公交站点

“怎么利用python爬取城市公交站点”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站，小编将为大家输出更多高质量的实用文章！

向AI问一下细节

怎么利用python爬取城市公交站点

页面分析

爬虫

数据清洗

Excel PQ 数据清洗

python数据清洗

QGIS坐标纠偏

导入csv文件

坐标纠偏

猜你喜欢

最新资讯

相关推荐

相关标签