Python 数据的累加与统计的示例代码
问题
你需要处理一个很大的数据集并需要计算数据总和或其他统计量。
解决方案
对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题,都可以考虑使用Pandas库。
为了让你先体验下,下面是一个使用Pandas来分析芝加哥城市的老鼠和啮齿类动物数据库的例子。在我写这篇文章的时候,这个数据库是一个拥有大概74,000行数据的CSV文件。
>>>importpandas >>>#ReadaCSVfile,skippinglastline >>>rats=pandas.read_csv('rats.csv',skip_footer=1) >>>ratsInt64Index:74055entries,0to74054 Datacolumns: CreationDate74055non-nullvalues Status74055non-nullvalues CompletionDate72154non-nullvalues ServiceRequestNumber74055non-nullvalues TypeofServiceRequest74055non-nullvalues NumberofPremisesBaited65804non-nullvalues NumberofPremiseswithGarbage65600non-nullvalues NumberofPremiseswithRats65752non-nullvalues CurrentActivity66041non-nullvalues MostRecentAction66023non-nullvalues StreetAddress74055non-nullvalues ZIPCode73584non-nullvalues XCoordinate74043non-nullvalues YCoordinate74043non-nullvalues Ward74044non-nullvalues PoliceDistrict74044non-nullvalues CommunityArea74044non-nullvalues Latitude74043non-nullvalues Longitude74043non-nullvalues Location74043non-nullvalues dtypes:float64(11),object(9) >>>#Investigaterangeofvaluesforacertainfield >>>rats['CurrentActivity'].unique() array([nan,DispatchCrew,RequestSanitationInspector],dtype=object) >>>#Filterthedata >>>crew_dispatched=rats[rats['CurrentActivity']=='DispatchCrew'] >>>len(crew_dispatched) 65676 >>> >>>#Find10mostrat-infestedZIPcodesinChicago >>>crew_dispatched['ZIPCode'].value_counts()[:10] 606473837 606183530 606143284 606293251 606362801 606572465 606412238 606092206 606512152 606322071 >>> >>>#Groupbycompletiondate >>>dates=crew_dispatched.groupby('CompletionDate') >>>len(dates) 472 >>> >>>#Determinecountsoneachday >>>date_counts=dates.size() >>>date_counts[0:10] CompletionDate 01/03/20114 01/03/2012125 01/04/201154 01/04/201238 01/05/201178 01/05/2012100 01/06/2011100 01/06/201258 01/07/20111 01/09/201212 >>> >>>#Sortthecounts >>>date_counts.sort() >>>date_counts[-10:] CompletionDate 10/12/2012313 10/21/2011314 09/20/2011316 10/26/2011319 02/22/2011325 10/26/2012333 03/17/2011336 10/13/2011378 10/14/2011391 10/07/2011457 >>>
嗯,看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊!^_^
讨论
Pandas是一个拥有很多特性的大型函数库,我在这里不可能介绍完。但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话,这个函数库真的值得你去看一看。
以上就是Python数据的累加与统计的方法的详细内容,更多关于Python数据的累加与统计的资料请关注毛票票其它相关文章!
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。