mongodb中按天进行聚合查询的实例教程
前言
最近在写项目的时候遇到一个问题,使用mongodb记录了用例的执行结果,但是在时间的记录上使用的是date格式,现在有一个需求,以天为单位,统计一下每天成功的用例和失败的用例,说到统计,肯定是要用到聚合查询,但是如果以date格式的时间为group依据,那么等同于没有分组,因为在记录用例的时间几乎不可能同时,今天查阅了一下相关文档,可以使用mongodb的$dateToString命令来完成这个需求
问题来源
假如我们以如下的数据
/*1*/ { "_id":ObjectId("5d24c09651a456efbc231669"), "time":ISODate("2019-07-08T10:12:35.125Z"), "result":"Pass" } /*2*/ { "_id":ObjectId("5d24c09e51a456efbc23166a"), "time":ISODate("2019-07-08T10:12:36.125Z"), "result":"Pass" } ... ... /*10*/ { "_id":ObjectId("5d24c0d851a456efbc231672"), "time":ISODate("2019-07-06T10:10:52.125Z"), "result":"Pass" } /*11*/ { "_id":ObjectId("5d24c0e751a456efbc231673"), "time":ISODate("2019-07-06T10:10:52.125Z"), "result":"Fail" }
我的预期结果是
{'_id':'2019-07-06','Pass':1}
{'_id':'2019-07-06','Fail':2}
{'_id':'2019-07-07','Pass':2}
{'_id':'2019-07-07','Fail':1}
{'_id':'2019-07-08','Pass':2}
{'_id':'2019-07-08','Fail':3}
如果按照以前的聚合方式,通过$time来分组,由于每个时间都不相同,所以这样的聚合就相当于没有聚合
#coding:utf-8 frompymongoimportMongoClient client=MongoClient(host=['%s:%s'%("127.0.0.1",27017)]) G_mongo=client['test'] pipeline=[ {'$group':{'_id':'$time','count':{'$sum':1}}}, ] foriinG_mongo['test'].aggregate(pipeline): print(i)
得到的结果
{'_id':datetime.datetime(2019,7,6,10,10,32,125000),'count':1}
{'_id':datetime.datetime(2019,7,7,10,10,32,125000),'count':1}
{'_id':datetime.datetime(2019,7,8,10,11,22,125000),'count':1}
{'_id':datetime.datetime(2019,7,6,10,10,52,125000),'count':1}
{'_id':datetime.datetime(2019,7,8,10,11,32,125000),'count':1}
{'_id':datetime.datetime(2019,7,8,10,12,32,125000),'count':1}
{'_id':datetime.datetime(2019,7,7,10,11,22,125000),'count':1}
{'_id':datetime.datetime(2019,7,8,10,12,36,125000),'count':1}
{'_id':datetime.datetime(2019,7,8,10,12,35,125000),'count':1}
{'_id':datetime.datetime(2019,7,7,10,10,22,125000),'count':1}
可以看到,由于$time上的时间,谁和谁都不一样,所以如果以$time为分组对象的话每个统计都是1。
问题的解决
在分组的时候有一个$dateToString指令,可以将日期格式的值转化为字符串,比如这里因为需求是要以天为单位,所以我将其转为
%Y-%m-%d的字符串格式,具体的$grouop如下
{'$group':{'_id':{"$dateToString":{'format':'%Y-%m-%d','date':'$time'}},'count':{'$sum':1}}}
$dateToString的说明文档可以访问https://docs.mongodb.com/manual/reference/operator/aggregation/dateToString/查看,简单介绍一个
{$dateToString:{ date:, format: , timezone: , onNull: }}
它需要四个参数,只有date参数是必须的,指定数据来源,format是转化的格式,timezone为时区,onNull是如果日期值不存在时返回的值。
#coding:utf-8 frompymongoimportMongoClient client=MongoClient(host=['%s:%s'%("127.0.0.1",27017)]) G_mongo=client['test'] pipeline=[ #{'$group':{'_id':'$time','count':{'$sum':1}}}, {'$group':{'_id':{"$dateToString":{'format':'%Y-%m-%d','date':'$time'}},'count':{'$sum':1}}} ] foriinG_mongo['test'].aggregate(pipeline): print(i)
上面代码执行的结果如下
{'_id':'2019-07-06','count':2}
{'_id':'2019-07-07','count':3}
{'_id':'2019-07-08','count':5}
这个看起来还不错,但是离我的目标还差一点,因为它还没有按照用例执行结果进行分组,再以天进行倒序排列
#coding:utf-8 frompymongoimportMongoClient client=MongoClient(host=['%s:%s'%("127.0.0.1",27017)]) G_mongo=client['test'] pipeline=[ #{'$group':{'_id':'$time','count':{'$sum':1}}}, {'$group':{'_id':{'date':{"$dateToString":{'format':'%Y-%m-%d','date':'$time'}},'result':'$result'},'count':{'$sum':1}}}, {'$sort':{"_id.date":-1}} ] foriinG_mongo['test'].aggregate(pipeline): print(i)
得到的结果如下
{'_id':{'date':'2019-07-08','result':'Fail'},'count':3}
{'_id':{'date':'2019-07-08','result':'Pass'},'count':2}
{'_id':{'date':'2019-07-07','result':'Pass'},'count':2}
{'_id':{'date':'2019-07-07','result':'Fail'},'count':1}
{'_id':{'date':'2019-07-06','result':'Fail'},'count':1}
{'_id':{'date':'2019-07-06','result':'Pass'},'count':2}
查看文档,除了使用$dateToString指令还可以使用$dayOfMonth指令
pipeline=[ {'$group':{'_id':{'date':{"$dayOfMonth":{'date':'$time'}},'result':'$result'},'count':{'$sum':1}}}, {'$sort':{"_id.date":-1}}, ]
但是这个指令只能适用于单一月份,如果两个月就会有交集,如7月6号和6月6号的会聚合到一起
上面得到的结果是
{'_id':{'date':8,'result':'Fail'},'count':3}
{'_id':{'date':8,'result':'Pass'},'count':2}
{'_id':{'date':7,'result':'Pass'},'count':2}
{'_id':{'date':7,'result':'Fail'},'count':1}
{'_id':{'date':6,'result':'Pass'},'count':2}
{'_id':{'date':6,'result':'Fail'},'count':1}
所以需要根据需求灵活的使用各种指令。