今天就跟大家聊聊有关python中怎么实现一个数据切割归并算法,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
一:获取总数据的行
def get_file_lines(file_path):
# 目标文件的路径
file_path = str(file_path)
with open(file_path, 'rb') as file:
# 定义行数
i = 0
while True:
# 一次读取一行数据
line = file.readline()
if not line :
break
else:
# 每读一行,行数加一
i += 1
#设置进度条,每当i读取1000000行时打印一次i
# 每当读取1000000的整数倍行时,打印行数(进度条)
if i % 1000000 == 0:
print(i)
# 打印总行数
print(i)
return i
二:对数据进行切割
# 定义均等切割函数,num是待切割的文件的行数的值,n为切割份数,file_path是待切割的文件,file_dir是切割好的文件写入的目录
def evg_split(num, n, file_path, file_dir):
last_list = []
# 如果样本刚好可以整除为n份
if num % n == 0:
for i in range(n):
# 则直接将样本分为n分没份对应num/n个
last_list.append(num / n)
# 如果不能整除
if num % n != 0:
# 如果不能整除,则先将num整除n-1并取n-1份,余下的单独做一份
evg = (num - num % n) // (n - 1)
for i in range(n):
last_list.append(evg)
last_list.append(num % (n - 1))
print(last_list)
# return last_list
# 对应于切割后的每一份数据
with open(file_path, 'rb') as path:
for i in range(n):
# 创建临时文件
tmp_file = file_dir + str(i) + '.txt'
# 打开临时文件,将内容一条一条的写入
file = open(tmp_file, 'wb')
for j in range(int(last_list[i])):
line = path.readline()
file.write(line)
print(line)
print('------------')
file.close()
三:对每组数据进行排序的内容由读者根据自身数据需要进行排序,下面直接介绍归并排序
四:归并排序
def merge( mylist1, mylist2, file1):
while len(mylist1) > 0 and len(mylist2) > 0:
if mylist1[0]<mylist2[0]:
with open(file1,'a') as file:
file.write(str(mylist1[0]))
del mylist1[0]
elif mylist1[0] > mylist2[0]:
with open(file1,'a') as file:
file.write(str(mylist2[0]))
del mylist2[0]
else:
with open(file1,'a') as file:
file.write(str(mylist1[0]))
file.write(str(mylist2[0]))
del mylist1[0]
del mylist2[0]
with open(file1, 'a') as file:
for i in mylist1:
file.write(str(i))
for i in mylist2:
file.write(str(i))
总结:对于一个大型数据文件,我们可以将其切割成若干个小型的数据文件,然后分别的这些小型的数据文件进行排序,最后使用归并排序将这些数据文件写入到一个总体文件中,从而实现了对这个大型数据文件的排序。
看完上述内容,你们对python中怎么实现一个数据切割归并算法有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。