解决python线程卡死的问题
1.top命令和日志方式判定卡死的位置
python代码忽然卡死,日志不输出,通过如下方式可以确定线程确实已经死掉了:
#top命令
top命令可以看到机器上所有线程的执行情况,%CPU和%MEM可以看出线程消耗的资源情况
由于机器上线程数量太多,可能要查看的线程的信息在top命令当前屏幕上显示不出来可以通过如下方式查看
在top命令下输入:u
接下来会提示输入用户名,就可以查看该用户所执行的所有线程
Whichuser(blankforall):denglinjie
这样就可以看到degnlinjie用户的所有线程
可以看到那几个卡死线程的%CPU和%MEM都为0,说明线程根本没有消耗资源,那么可以看出线程已经卡死了
接下来通过打日志的方式来确定线程究竟是卡死在哪里了,线程卡死的地方大多数都是在io或者http请求那,所以以后遇到线程卡死的情况,就通过打日志的方式来确定卡死的位置,最终定位到问题确实是一个http服务挂掉了,而且此时requests.get()我虽然设置了超时,但是竟然无效
2.服务进程数量不足导致的客户端进程卡死
服务端代码:
handler=SimilarityService()
transport=TSocket.TServerSocket('10.134.113.75',1234)
factory=TBinaryProtocol.TBinaryProtocolFactory()
processor=Processor(handler)
server=TProcessPoolServer.TProcessPoolServer(processor,transport)
server.setNumWorkers(10)
server.serve()
客户端代码
docQue=queues.Queue(maxsize=1000)
pCount=15
classParseSaveEsProcess(multiprocessing.Process):
def__init__(self,threadId):
self.threadId=threadId
multiprocessing.Process.__init__(self)
defrun(self):
globaldocQue
f=open('recall_match_file_all_simi.lst.%s'%self.threadId,'w')
try:
transport=TSocket.TSocket('10.134.113.75',1234)
transport=TTransport.TBufferedTransport(transport)
protocol=TBinaryProtocol.TBinaryProtocol(transport)
client=Client(protocol)
transport.open()
whileTrue:
line=docQue.get(block=True)
ifnotline:
print'thread%drunover'%self.threadId
break
p=line.split('\t')
iflen(p)>=6andp[5]=='simi_high':
simi_str=client.calculate_similarity_by_itemurl(p[0])
f.write(line+'\t'+simi_str+'\n')
else:
f.write(line+'\n')
transport.close()
exceptThrift.TExceptionase:
printstr(e)
pass
classPutUrlProcess(multiprocessing.Process):
def__init__(self):
multiprocessing.Process.__init__(self)
defrun(self):
globaldocQue
forlineinopen('recall_match_file.lst','r'):
baikeid=line.strip()
docQue.put(baikeid,block=True)
foriinrange(pCount):
docQue.put(None,block=True)
if__name__=='__main__':
putProcess=PutUrlProcess()
putProcess.start()
foriinrange(pCount):
parseProcess=ParseSaveEsProcess(i)
parseProcess.start()
可以看到,进程ParseSaveEsProcess进程总共开启了15个,每个进程会打开一个thrift连接,打开后一直发送请求,并将处理的结果写文件,全部执行完成后才关闭thrift连接。
可是,发现从启动到执行了很长时间后,只有10个文件里面有内容写入,其中5个一直没有写入:
111965recall_match_file_all_simi.lst.0 111878recall_match_file_all_simi.lst.1 0recall_match_file_all_simi.lst.10 0recall_match_file_all_simi.lst.11 0recall_match_file_all_simi.lst.12 0recall_match_file_all_simi.lst.13 0recall_match_file_all_simi.lst.14 113429recall_match_file_all_simi.lst.2 110720recall_match_file_all_simi.lst.3 111993recall_match_file_all_simi.lst.4 113691recall_match_file_all_simi.lst.5 113360recall_match_file_all_simi.lst.6 113953recall_match_file_all_simi.lst.7 112007recall_match_file_all_simi.lst.8 113818recall_match_file_all_simi.lst.9
原因是因为thrift服务端只启动了10个服务进程,所以只能同时处理10个请求,而我客户端打开的thrift连接一直没有关闭,所以10个服务进程被10个客户端连接霸占了,另外5个进程获取不到连接,自然就一直卡住了。
以上这篇解决python线程卡死的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持毛票票。