Pandas中resample方法详解
Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。
方法的格式是:
DataFrame.resample(rule,how=None,axis=0,fill_method=None,closed=None,label=None,convention='start',kind=None,loffset=None,limit=None,base=0)
参数详解是:
参数
说明
freq
表示重采样频率,例如‘M'、‘5min',Second(15)
how='mean'
用于产生聚合值的函数名或数组函数,例如‘mean'、‘ohlc'、np.max等,默认是‘mean',其他常用的值由:‘first'、‘last'、‘median'、‘max'、‘min'
axis=0
默认是纵轴,横轴设置axis=1
fill_method=None
升采样时如何插值,比如‘ffill'、‘bfill'等
closed=‘right'
在降采样时,各时间段的哪一段是闭合的,‘right'或‘left',默认‘right'
label=‘right'
在降采样时,如何设置聚合值的标签,例如,9:30-9:35会被标记成9:30还是9:35,默认9:35
loffset=None
面元标签的时间校正值,比如‘-1s'或Second(-1)用于将聚合标签调早1秒
limit=None
在向前或向后填充时,允许填充的最大时期数
kind=None
聚合到时期(‘period')或时间戳(‘timestamp'),默认聚合到时间序列的索引类型
convention=None
当重采样时期时,将低频率转换到高频率所采用的约定(start或end)。默认‘end'
首先创建一个Series,采样频率为一分钟。
>>>index=pd.date_range('1/1/2000',periods=9,freq='T') >>>series=pd.Series(range(9),index=index) >>>series 2000-01-0100:00:000 2000-01-0100:01:001 2000-01-0100:02:002 2000-01-0100:03:003 2000-01-0100:04:004 2000-01-0100:05:005 2000-01-0100:06:006 2000-01-0100:07:007 2000-01-0100:08:008 Freq:T,dtype:int64
降低采样频率为三分钟
>>>series.resample('3T').sum() 2000-01-0100:00:003 2000-01-0100:03:0012 2000-01-0100:06:0021 Freq:3T,dtype:int64
降低采样频率为三分钟,但是每个标签使用right来代替left。请注意,bucket中值的用作标签。
>>>series.resample('3T',label='right').sum() 2000-01-0100:03:003 2000-01-0100:06:0012 2000-01-0100:09:0021 Freq:3T,dtype:int64
降低采样频率为三分钟,但是关闭right区间。
>>>series.resample('3T',label='right',closed='right').sum() 2000-01-0100:00:000 2000-01-0100:03:006 2000-01-0100:06:0015 2000-01-0100:09:0015 Freq:3T,dtype:int64
增加采样频率到30秒
>>>series.resample('30S').asfreq()[0:5]#selectfirst5rows 2000-01-0100:00:000 2000-01-0100:00:30NaN 2000-01-0100:01:001 2000-01-0100:01:30NaN 2000-01-0100:02:002 Freq:30S,dtype:float64
增加采样频率到30S,使用pad方法填充nan值。
>>>series.resample('30S').pad()[0:5] 2000-01-0100:00:000 2000-01-0100:00:300 2000-01-0100:01:001 2000-01-0100:01:301 2000-01-0100:02:002 Freq:30S,dtype:int64
增加采样频率到30S,使用bfill方法填充nan值。
>>>series.resample('30S').bfill()[0:5] 2000-01-0100:00:000 2000-01-0100:00:301 2000-01-0100:01:001 2000-01-0100:01:302 2000-01-0100:02:002 Freq:30S,dtype:int64
通过apply运行一个自定义函数
>>>defcustom_resampler(array_like): ...returnnp.sum(array_like)+5 >>>series.resample('3T').apply(custom_resampler) 2000-01-0100:00:008 2000-01-0100:03:0017 2000-01-0100:06:0026 Freq:3T,dtype:int64
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持毛票票。