MySQL下PID文件丢失的相关错误的解决方法
今天同事A找到我,说是MysqlserverX的负载很高,查询很慢。他自己捣鼓了一阵未果后,我们一起看了下。
[root@redhatvar]#uname-a Linuxxxx2.6.18-128.el5#1SMPWedDec1711:41:38EST2008x86_64x86_64x86_64GNU/Linux [root@redhatvar]#mysql-uroot-p-e“selectversion();” +------------+ |version()| +------------+ |5.1.32-log| +------------+
同事A的操作:
A一看mysqlserver有问题第一反应是重启mysqlserver,囧!!o(╯□╰)
但是又使用了错误的命令
[root@redhatvar]#/var/lib/mysql/libexec/mysqldrestart----操作① 10070814:43:53[ERROR]Fatalerror:Pleaseread"Security"sectionofthemanualtofindouthowtorunmysqldasroot! 10070814:43:53[ERROR]Aborting 10070814:43:53[Note]/var/lib/mysql/libexec/mysqld:Shutdowncomplete
发现问题后,他又想起来应该是用下面的命令重启
[root@redhatvar]#servicemysqlrestart----操作② MySQLmanagerorserverPIDfilecouldnotbefound![FAILED] StartingMySQL......
CTRL+C取消
这时候
[root@redhatvar]#psaux|grepmysql
可以看到,系统又启动了一个Mysql进程,但是过一会后,会自动消失,这时候看日志可以发现以下错误:
10070815:26:52[ERROR]Can'tstartserver:BindonTCP/IPport:Addressalreadyinuse 10070815:26:52[ERROR]Doyoualreadyhaveanothermysqldserverrunningonport:30017? 10070815:26:52[ERROR]Aborting
然后后面我们一起看。
首先我用client工具连接,发现mysql正常。web应用连接数据库也正常只是查询很慢。
其次我在命令下面,连接:
[root@redhatvar]#mysql-uroot-p
提示:
Enterpassword: ERROR2002(HY000):Can'tconnecttolocalMySQLserverthroughsocket'/tmp/mysql.sock'(2)
这时候同事A提醒我,可以重启服务没关系。囧,o(╯□╰)o,他在建议我重启解决问题。
好吧,如他所愿。于是我先:
[root@redhatvar]#servicemysqlstop MySQLisrunningbutPIDfilecouldnotbefound
然后去mysqldatadir下面查看,果然没有pidfile。
这时候我的第一反应是配置文件不对,导致不能正常停止和重启。
由于server是好的,因此我没有急着去比较以前备份的/etc/my.cnf.bak和/etc/my.cnf。
我们先查找负载高的原因。因为命令行下无法进入mysql,在client下使用
showprocesslist;
可以看到里面有很多locked的查询,其中等待时间最久的一个是一个select查询,显示正在sendingdata,然后其余都是locked。
猜想是sendingdata的线程占用了“所有的分配给mysql的资源”,导致后来的线程全部挂起,由于“查询(线程)是依次执行的”,后面locked的线程一直在等待前面sendingdata的线程结束。(这一段是猜想的…)
sendingdata的这个线程U是一个select查询,这个select对6张表进行了连接(公司的一个实习生提交的一个查询),其中有两张表的数据量在10w左右,另外有张data表数据量在1000w左右,另外还有sum(distinct),groupby,orderby…可以想象下…不知道要到何年何月这个查询才能执行完。
这个sendingdata的慢查询的processid为799,当机立断运行
kill799
然后再运行
showprocesslist;
可以看到前面locked的线程在一个个依次执行,后面还有好多个跟线程U类似的select线程,全部kill掉后,被堵塞的别的正常的几个Update,select,insert操作很快就执行完了。
而后,web应用恢复正常,速度变快。
返回linux命令行,使用
[root@redhatvar]#top <shift+m按内存使用排序> <1显示cpu使用情况>
这时候可以发现server负载恢复正常。
下面解决无法正常关闭重启的情况。
也就是因为前面同事的误操作引起的
ERROR2002(HY000):Can'tconnecttolocalMySQLserverthroughsocket'/tmp/mysql.sock'(2) 和MySQLmanagerorserverPIDfilecouldnotbefound![FAILED]
的错误。
我前面不是怀疑是配置文件里面有什么无法识别的参数选项么。
通过
[root@redhatvar]#diff/etc/my.cnf/etc/my.cnf.bak
发现,配置文件没有问题。
#我的server的hostname,mysqlpid文件默认名字为hostname.pid,如果没有在/etc/my.cnf里面指定特定和pidfilename和pidfilepath的话,这个文件是跟mysql数据在一起的。
[root@redhatvar]#diff/etc/my.cnf/etc/my.cnf.bak
这时候通过
#切换到mysqldatadir(mysql的数据文件目录下) #你们的mysqldatadir或许跟我的不一样哦,我的是/var/lib/mysql/var/ [root@redhatvar]#cd/var/lib/mysql/var/
获取mysql用户运行的mysql进程的pid,然后导入到hostname.pid文件里面
[root@redhatvar]#echo`psaux|grepmysql|grep"user=mysql"|grep-v"grep"|awk'{print$2}'`>>redhat.pid #注意这里的redhat.pid跟hostname相关,这里是我的hostname.pid
将文件的属主和属主组改为mysql:mysql
[root@redhatvar]#chownmysql:mysqlredhat.pid
然后运行
[root@redhatvar]#mysql-uroot-p
还是会提示:
Enterpassword: ERROR2002(HY000):Can'tconnecttolocalMySQLserverthroughsocket'/tmp/mysql.sock'(2)
[root@redhatvar]#ls/tmp|grepsock
果然没有mysql.sock这个文件
但是这时候运行
[root@redhatvar]#servicemysqlstatus
显示
MySQLrunning(10949)[OK]
恩,pidfile文件恢复正常,然后运行
[root@redhatvar]#servicemysqlrestart ShuttingdownMySQL.[OK] StartingMySQL.[OK]
这时候再运行
[root@redhatvar]#ls/tmp|grepsock
可以发现重启后,/tmp下有了mysql.sock这个文件。
大家可以搜索下mysql.sock的用途以及使用产生等等。
同事A的操作①导致pid文件丢失,操作②导致mysql.sock文件丢失,大家感兴趣可以去vimysqld脚本和servermysql脚本,然后导致servicemysqlstatus/stop/start/restart运行异常,导致命令行下mysql-uroot-p登录mysql异常。
That'sall.