温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

如何使用Pandas分块处理大文件

发布时间:2021-11-30 15:00:50 来源:亿速云 阅读:408 作者:小新 栏目:大数据

这篇文章给大家分享的是有关如何使用Pandas分块处理大文件的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

使用Pandas分块处理大文件

问题:今天在处理快手的用户数据时,遇到了一个差不多600M的txt文本,用sublime打开都蹦了,我用pandas.read_table()去读,差不多花了近2分钟,最后打开发现差不多3千万行数据。这仅仅是打开,如果要处理不知得多费劲。

如何使用Pandas分块处理大文件

解决:我翻了一下文档,这一类读取文件的函数有两个参数:chunksize、iterator

原理就是不一次性把文件数据读入内存中,而是分多次。

1、指定chunksize分块读取文件

read_csv 和 read_table 有一个 chunksize 参数,用以指定一个块大小(每次读取多少行),返回一个可迭代的  TextFileReader 对象。

table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) for df in table:     对df处理     #如df.drop(columns=['page','video_id'],axis=1,inplace=True)     #print(type(df),df.shape)打印看一下信息12345

我这里又对文件进行了划分,分成若干个子文件分别处理(没错,to_csv也同样有chunksize参数)

2、指定iterator=True

iterator=True同样返回的是TextFileReader对象

reader = pd.read_table('tmp.sv', sep='\t', iterator=True) df=reader.get_chunk(10000) #通过get_chunk(size),返回一个size行的块 #接着同样可以对df处理


感谢各位的阅读!关于“如何使用Pandas分块处理大文件”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI