Gea-Suan Lin's BLOG for Networking: FreeBSD 上 rpc.lockd 的問題

FreeBSD 上 rpc.lockd 常常會自己掛掉。如果是 clients 的 rpc.lockd 掛掉，會使得 flock() over NFS 掛掉，而如果是 servers 的 rpc.lockd 掛掉，會使得所有 clients 的 flock() over NFS 掛掉 =_=

這個問題自從我們將某幾台 ccbsd*.csie clients 換成 FreeBSD 6.0-RELEASE 後就發現這幾台一直有問題，後來決定將 cchome.csie 與 mailgate.csie 也一起升級到 FreeBSD 6.0-RELEASE，看看能不能解決這個問題。結果反而變成大家都有問題... -_- 而且 ccsun*.csie 只要一開機，所有的 clients 就會炸掉，但這些 ccsun*.csie 裡面，如果只開 ccserv.csie 也不會有事情...。

這個問題當時猜測是 FreeBSD 4.x 與 6.x 的 clients 混在一起跑造成的，於是狠下心來將 ccbsd*.csie 全部升級到 FreeBSD 6.0-RELEASE (另外一個原因是 FreeBSD 4.x 已經不繼續維護了)，結果升級上去發現問題還是沒變好，只好試著惡搞所有能惡搞的功能 (像是 mount_nfs 裡的 -L local lock)，發現還是沒有用。

前幾天想到 ktrace 可以看 system call 的情況，拿出來追，發現 uid=daemon 的 rpc.lockd 最後居然是死在 SIGPIPE，將這個 bug 用 send-pr 送出去幹剿後，rpc.lockd 的 maintainer 丟出一個神秘的 patch：把 SIGPIPE 用 signal(SIGPIPE, SIG_IGN) 堵掉，#bsdchat 上面看到這個 patch 把他叫做「掩耳盜鈴」，當作沒聽到，幹就對了 XD：Problem Report bin/97768 : NFS rpc.lockd will die automatically。

雖然這個方法看起來很鳥，但我還是決定把這個 patch 弄進所有 ccbsd*.csie 上跑，然後開 ktrace 盯著看還會有什麼死法。跑了快一天，發現 ccbsd*.csie 跑起來好像不錯，寫了封信跟 maintainer 講... 沒多久就看到 cvs commit 記錄：cvs commit: src/usr.sbin/rpc.lockd kern.c，結果才剛 commit 完沒多久就發現 uid=root rpc.lockd 死掉 XD

看了一下 uid=root rpc.lockd 死掉時 ktrace 的紀錄，發現也是 SIGPIPE 的問題，正覺得奇怪，明明 mask 掉了，怎麼還會死在 SIGPIPE... 回頭看 patch 發現是因為 signal() 在 fork() 後才做，所以 uid=root 那隻沒有處理 SIGPIPE，只好再跟 maintainer 講，問看看能不能把 signal() 放到 fork() 前。(主要是他對 rpc.lockd 比較熟，可能會比較清楚各類後遺症 XD)

結果 maintainer 就叫我去測測，沒問題就照我說的 patch 進 -current XD 我就跑去跟 chwong 要了 cchome.csie 與 mailgate.csie 的 root，要跑 ktrace 盯著看。

測了一天看起來沒問題：rpc.lockd 沒死，mutt 看信也都很正常，看起來 locking 功能運作得很好，就回封信跟 maintainer 講這個情況，過不久就看到他把 signal() 搬到 fork() 前的 cvs commit 紀錄：cvs commit: src/usr.sbin/rpc.lockd kern.c，這個 patch 的 rpc.lockd 到現在都還活得很好，看起來在 6/1 那天就會進 RELENG_6 了 :)

然後在 #bsdchat 上看到 rafan 把這個 patch 也丟進 csie.ntu 的機器上跑，發現對於 NFSv2 的 Sun 也正常多了 (打開 debug mode 還是會看到一堆 error msg，不過至少會動...)，於是我剛剛就很高興的跑去學校把 ccsun*.csie 通通開起來測，目前看起來也都沒問題...

折騰了兩個月，NFS 的 rpc.lockd 這件事情看起來暫時穩定多了，希望有長輩把 rpc.lockd 修一修，尤其是 recovery 的部分，如果寫完的話才能隨意關機開機 XD

Gea-Suan Lin's BLOG for Networking

Monday, May 29, 2006

FreeBSD 上 rpc.lockd 的問題

No comments: