对python数据切割归并算法的实例讲解
当一个.txt文件的数据过于庞大,此时想要对数据进行排序就需要先将数据进行切割,然后通过归并排序,最终实现对整体数据的排序。要实现这个过程我们需要进行以下几步:获取总数据行数;根据行数按照自己的需要对数据进行切割;对每组数据进行排序最后对所有数据进行归并排序。
下面我们就来实现这整个过程:
一:获取总数据的行
defget_file_lines(file_path): #目标文件的路径 file_path=str(file_path) withopen(file_path,'rb')asfile: #定义行数 i=0 whileTrue: #一次读取一行数据 line=file.readline() ifnotline: break else: #每读一行,行数加一 i+=1 #设置进度条,每当i读取1000000行时打印一次i #每当读取1000000的整数倍行时,打印行数(进度条) ifi%1000000==0: print(i) #打印总行数 print(i) returni
二:对数据进行切割
#定义均等切割函数,num是待切割的文件的行数的值,n为切割份数,file_path是待切割的文件,file_dir是切割好的文件写入的目录 defevg_split(num,n,file_path,file_dir): last_list=[] #如果样本刚好可以整除为n份 ifnum%n==0: foriinrange(n): #则直接将样本分为n分没份对应num/n个 last_list.append(num/n) #如果不能整除 ifnum%n!=0: #如果不能整除,则先将num整除n-1并取n-1份,余下的单独做一份 evg=(num-num%n)//(n-1) foriinrange(n): last_list.append(evg) last_list.append(num%(n-1)) print(last_list) #returnlast_list #对应于切割后的每一份数据 withopen(file_path,'rb')aspath: foriinrange(n): #创建临时文件 tmp_file=file_dir+str(i)+'.txt' #打开临时文件,将内容一条一条的写入 file=open(tmp_file,'wb') forjinrange(int(last_list[i])): line=path.readline() file.write(line) print(line) print('------------') file.close()
三:对每组数据进行排序的内容由读者根据自身数据需要进行排序,下面直接介绍归并排序
四:归并排序
defmerge(mylist1,mylist2,file1): whilelen(mylist1)>0andlen(mylist2)>0: ifmylist1[0]mylist2[0]: withopen(file1,'a')asfile: file.write(str(mylist2[0])) delmylist2[0] else: withopen(file1,'a')asfile: file.write(str(mylist1[0])) file.write(str(mylist2[0])) delmylist1[0] delmylist2[0] withopen(file1,'a')asfile: foriinmylist1: file.write(str(i)) foriinmylist2: file.write(str(i))
总结:对于一个大型数据文件,我们可以将其切割成若干个小型的数据文件,然后分别的这些小型的数据文件进行排序,最后使用归并排序将这些数据文件写入到一个总体文件中,从而实现了对这个大型数据文件的排序。
以上这篇对python数据切割归并算法的实例讲解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。