pandas的resample重采样的使用
Pandas中的resample,重新采样,是对原样本重新处理的一个方法,是一个对常规时间序列数据重新采样和频率转换的便捷的方法。
降采样:高频数据到低频数据
升采样:低频数据到高频数据
主要函数:resample()(pandas对象都会有这个方法)
resample方法的参数
参数 | 说明 |
---|---|
freq | 表示重采样频率,例如‘M'、‘5min',Second(15) |
how='mean' | 用于产生聚合值的函数名或数组函数,例如‘mean'、‘ohlc'、np.max等,默认是‘mean',其他常用的值由:‘first'、‘last'、‘median'、‘max'、‘min' |
axis=0 | 默认是纵轴,横轴设置axis=1 |
fill_method=None | 升采样时如何插值,比如‘ffill'、‘bfill'等 |
closed=‘right' | 在降采样时,各时间段的哪一段是闭合的,‘right'或‘left',默认‘right' |
label=‘right' | 在降采样时,如何设置聚合值的标签,例如,9:30-9:35会被标记成9:30还是9:35,默认9:35 |
loffset=None | 面元标签的时间校正值,比如‘-1s'或Second(-1)用于将聚合标签调早1秒 |
limit=None | 在向前或向后填充时,允许填充的最大时期数 |
kind=None | 聚合到时期(‘period')或时间戳(‘timestamp'),默认聚合到时间序列的索引类型 |
convention=None | 当重采样时期时,将低频率转换到高频率所采用的约定(start或end)。默认‘end' |
首先创建一个Series,采样频率为一分钟。
>>>index=pd.date_range('1/1/2000',periods=9,freq='T') >>>series=pd.Series(range(9),index=index) >>>series 2000-01-0100:00:000 2000-01-0100:01:001 2000-01-0100:02:002 2000-01-0100:03:003 2000-01-0100:04:004 2000-01-0100:05:005 2000-01-0100:06:006 2000-01-0100:07:007 2000-01-0100:08:008 Freq:T,dtype:int64
降低采样频率为三分钟
>>>series.resample('3T').sum() 2000-01-0100:00:003 2000-01-0100:03:0012 2000-01-0100:06:0021 Freq:3T,dtype:int64
降低采样频率为三分钟,但是每个标签使用right来代替left。请注意,bucket中值的用作标签。
>>>series.resample('3T',label='right').sum() 2000-01-0100:03:003 2000-01-0100:06:0012 2000-01-0100:09:0021 Freq:3T,dtype:int64
降低采样频率为三分钟,但是关闭right区间。
>>>series.resample('3T',label='right',closed='right').sum() 2000-01-0100:00:000 2000-01-0100:03:006 2000-01-0100:06:0015 2000-01-0100:09:0015 Freq:3T,dtype:int64
增加采样频率到30秒
>>>series.resample('30S').asfreq()[0:5]#selectfirst5rows 2000-01-0100:00:000 2000-01-0100:00:30NaN 2000-01-0100:01:001 2000-01-0100:01:30NaN 2000-01-0100:02:002 Freq:30S,dtype:float64
增加采样频率到30S,使用pad方法填充nan值。
>>>series.resample('30S').pad()[0:5] 2000-01-0100:00:000 2000-01-0100:00:300 2000-01-0100:01:001 2000-01-0100:01:301 2000-01-0100:02:002 Freq:30S,dtype:int64
增加采样频率到30S,使用bfill方法填充nan值。
>>>series.resample('30S').bfill()[0:5] 2000-01-0100:00:000 2000-01-0100:00:301 2000-01-0100:01:001 2000-01-0100:01:302 2000-01-0100:02:002 Freq:30S,dtype:int64
通过apply运行一个自定义函数
>>>defcustom_resampler(array_like): ...returnnp.sum(array_like)+5 >>>series.resample('3T').apply(custom_resampler) 2000-01-0100:00:008 2000-01-0100:03:0017 2000-01-0100:06:0026 Freq:3T,dtype:int64
到此这篇关于pandas的resample重采样的使用的文章就介绍到这了,更多相关pandasresample重采样内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!