本篇内容主要讲解“Python为什么需要Pandas的DataFrame类型”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python为什么需要Pandas的DataFrame类型”吧!
1. 问题描述
假设现在有这样的一个需求,需要在某电影网站上采集基本的电影数据,字段有电影名称、电影URL连接地址以及电影的评分三个字段。试想一下应该选择什么样的数据类型来存储这些数据?
首先大家可能想到的是list()类型,很快就会写出下面的代码:
videos = []
item = ['哪吒之魔童降世', 'http://www.videos.com', '9.9']
videos.append(item)
# [['哪吒之魔童降世', 'http://www.videos.com', '9.9']]
虽然能够存储这些数据,但是想要基于这些数据进行某些查找和修改操作,将会变得非常麻烦,如按评分排序、超找包含特定关键字的记录等。对于numpy.ndarray()来说,也是面临同样的问题。
上面介绍的这种形式的数据,是一种常见的需要存储和进行处理的一些数据,但是list()和numpy.ndarray()都无法很好的处理这些数据,因此需要一种新的、更加方便的数据类型,而这种数据类型就是pandas给我们提供的DataFrame类型。
2. Pandas的DataFrame类型
Pandas是Python开发中常用的第三方库,DataFrame是其中最常用的数据类型,是一种存放数据的容器。而在python中存放数据常见的有list()以及numpy中功能更加强大的numpy.ndarray(),但是为什么还要使用DataFrame呢?
df = pandas.DataFrame(columns=['video_name', 'video_url', 'video_score'])for i in range(1,112): url = 'https://www.meiju.net/search.php?page={}&searchtype=5&tid=2'.format(i) soup = BeautifulSoup(requests.get(url).content, 'html.parser') for item in soup.select('div.hy-video-list li > a'): row = edict() row.video_name = item['title'] row.video_url = item['href'] score_tag = item.select_one('span.score') if score_tag is not None: row.video_score = score_tag.text df = df.append(row, ignore_index=True)
有了DataFrame这个类型之后,我们可以做什么呢?
可以按照评分对数据进行快速排序:
df.sort_values('video_score', ascending=False)
除了上面介绍的之外,还有很多更加强大的功能和方法,后续文章将根据一些案例持续进行介绍。
3. 结语
到此,相信大家对“Python为什么需要Pandas的DataFrame类型”有了更深的了解,不妨来实际操作一番吧!这里是亿速云网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。