Python 数据的累加与统计的示例代码
问题
你需要处理一个很大的数据集并需要计算数据总和或其他统计量。
解决方案
对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用Pandas库。
为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的老鼠和啮齿类动物数据库的例子。在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。
>>>importpandas
>>>#ReadaCSVfile,skippinglastline
>>>rats=pandas.read_csv('rats.csv',skip_footer=1)
>>>rats
Int64Index:74055entries,0to74054
Datacolumns:
CreationDate74055non-nullvalues
Status74055non-nullvalues
CompletionDate72154non-nullvalues
ServiceRequestNumber74055non-nullvalues
TypeofServiceRequest74055non-nullvalues
NumberofPremisesBaited65804non-nullvalues
NumberofPremiseswithGarbage65600non-nullvalues
NumberofPremiseswithRats65752non-nullvalues
CurrentActivity66041non-nullvalues
MostRecentAction66023non-nullvalues
StreetAddress74055non-nullvalues
ZIPCode73584non-nullvalues
XCoordinate74043non-nullvalues
YCoordinate74043non-nullvalues
Ward74044non-nullvalues
PoliceDistrict74044non-nullvalues
CommunityArea74044non-nullvalues
Latitude74043non-nullvalues
Longitude74043non-nullvalues
Location74043non-nullvalues
dtypes:float64(11),object(9)
>>>#Investigaterangeofvaluesforacertainfield
>>>rats['CurrentActivity'].unique()
array([nan,DispatchCrew,RequestSanitationInspector],dtype=object)
>>>#Filterthedata
>>>crew_dispatched=rats[rats['CurrentActivity']=='DispatchCrew']
>>>len(crew_dispatched)
65676
>>>
>>>#Find10mostrat-infestedZIPcodesinChicago
>>>crew_dispatched['ZIPCode'].value_counts()[:10]
606473837
606183530
606143284
606293251
606362801
606572465
606412238
606092206
606512152
606322071
>>>
>>>#Groupbycompletiondate
>>>dates=crew_dispatched.groupby('CompletionDate')
>>>len(dates)
472
>>>
>>>#Determinecountsoneachday
>>>date_counts=dates.size()
>>>date_counts[0:10]
CompletionDate
01/03/20114
01/03/2012125
01/04/201154
01/04/201238
01/05/201178
01/05/2012100
01/06/2011100
01/06/201258
01/07/20111
01/09/201212
>>>
>>>#Sortthecounts
>>>date_counts.sort()
>>>date_counts[-10:]
CompletionDate
10/12/2012313
10/21/2011314
09/20/2011316
10/26/2011319
02/22/2011325
10/26/2012333
03/17/2011336
10/13/2011378
10/14/2011391
10/07/2011457
>>>
嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^
讨论
Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。
以上就是Python数据的累加与统计的方法的详细内容,更多关于Python数据的累加与统计的资料请关注毛票票其它相关文章!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。