Pandas中resample方法详解
Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。
方法的格式是:
DataFrame.resample(rule,how=None,axis=0,fill_method=None,closed=None,label=None,convention='start',kind=None,loffset=None,limit=None,base=0)
参数详解是:
参数
说明
freq
表示重采样频率,例如‘M'、‘5min',Second(15)
how='mean'
用于产生聚合值的函数名或数组函数,例如‘mean'、‘ohlc'、np.max等,默认是‘mean',其他常用的值由:‘first'、‘last'、‘median'、‘max'、‘min'
axis=0
默认是纵轴,横轴设置axis=1
fill_method=None
升采样时如何插值,比如‘ffill'、‘bfill'等
closed=‘right'
在降采样时,各时间段的哪一段是闭合的,‘right'或‘left',默认‘right'
label=‘right'
在降采样时,如何设置聚合值的标签,例如,9:30-9:35会被标记成9:30还是9:35,默认9:35
loffset=None
面元标签的时间校正值,比如‘-1s'或Second(-1)用于将聚合标签调早1秒
limit=None
在向前或向后填充时,允许填充的最大时期数
kind=None
聚合到时期(‘period')或时间戳(‘timestamp'),默认聚合到时间序列的索引类型
convention=None
当重采样时期时,将低频率转换到高频率所采用的约定(start或end)。默认‘end'
首先创建一个Series,采样频率为一分钟。
>>>index=pd.date_range('1/1/2000',periods=9,freq='T')
>>>series=pd.Series(range(9),index=index)
>>>series
2000-01-0100:00:000
2000-01-0100:01:001
2000-01-0100:02:002
2000-01-0100:03:003
2000-01-0100:04:004
2000-01-0100:05:005
2000-01-0100:06:006
2000-01-0100:07:007
2000-01-0100:08:008
Freq:T,dtype:int64
降低采样频率为三分钟
>>>series.resample('3T').sum()
2000-01-0100:00:003
2000-01-0100:03:0012
2000-01-0100:06:0021
Freq:3T,dtype:int64
降低采样频率为三分钟,但是每个标签使用right来代替left。请注意,bucket中值的用作标签。
>>>series.resample('3T',label='right').sum()
2000-01-0100:03:003
2000-01-0100:06:0012
2000-01-0100:09:0021
Freq:3T,dtype:int64
降低采样频率为三分钟,但是关闭right区间。
>>>series.resample('3T',label='right',closed='right').sum()
2000-01-0100:00:000
2000-01-0100:03:006
2000-01-0100:06:0015
2000-01-0100:09:0015
Freq:3T,dtype:int64
增加采样频率到30秒
>>>series.resample('30S').asfreq()[0:5]#selectfirst5rows
2000-01-0100:00:000
2000-01-0100:00:30NaN
2000-01-0100:01:001
2000-01-0100:01:30NaN
2000-01-0100:02:002
Freq:30S,dtype:float64
增加采样频率到30S,使用pad方法填充nan值。
>>>series.resample('30S').pad()[0:5]
2000-01-0100:00:000
2000-01-0100:00:300
2000-01-0100:01:001
2000-01-0100:01:301
2000-01-0100:02:002
Freq:30S,dtype:int64
增加采样频率到30S,使用bfill方法填充nan值。
>>>series.resample('30S').bfill()[0:5]
2000-01-0100:00:000
2000-01-0100:00:301
2000-01-0100:01:001
2000-01-0100:01:302
2000-01-0100:02:002
Freq:30S,dtype:int64
通过apply运行一个自定义函数
>>>defcustom_resampler(array_like):
...returnnp.sum(array_like)+5
>>>series.resample('3T').apply(custom_resampler)
2000-01-0100:00:008
2000-01-0100:03:0017
2000-01-0100:06:0026
Freq:3T,dtype:int64
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。