2020年11月23日 星期一

raid 真實案例處理

rebuild時會讓讀取速度下降很多,須調整一些參數

rebuild時加快讀取速度

min 調為50000,max調為500000

root@omvNAS1:~# sysctl -w dev.raid.speed_limit_min=50000
dev.raid.speed_limit_min = 50000
root@omvNAS1:~# sysctl -w dev.raid.speed_limit_max=500000
dev.raid.speed_limit_max = 50000

設定/etc/sysctl.conf中:

dev.raid.speed_limit_min = 50000
##適合基於4-5個磁盤的陣列##
#dev.raid.speed_limit_max = 200000
##適用於大型6-12磁盤陣列###
dev.raid.speed_limit_max = 500000

調整好後,讀取速度加快,rebuild 也加快

預設的 dev.raid.speed_limit_max 情況下 其實很慢
cat /proc/mdstat
顯示大概會是這樣
[>....................] resync = 0.4% (17493632/3897063424)
finish=28532.9min speed=2265K/sec
就我的情況來看 大約會跑20天左右
修改後,再次查看 cat /proc/mdstat
結果馬上變成 剩下10幾個小時完成
cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md0 : active raid6 sdj[10] sdm[9] sdh[6] sde[3] sdc[1] sdg[5] sdf[4] sdb[0] sdd[2] sdi[7]
46883123200 blocks super 1.2 level 6, 512k chunk, algorithm 2 [10/9] [UUUUUUUU_U]
[======>..............] recovery = 33.5% (1965857920/5860390400)
finish=831.6min speed=78049K/sec
bitmap: 14/44 pages [56KB], 65536KB chunk

為RAID5或RAID 6設置stripe-cache_size

這僅在RAID5和RAID6上可用,並將同步性能提高3到6倍。該數據用於將對陣列的所有寫操作和對陣列降級的所有讀操作進行同步。默認值為256。有效值為17到32768。在某些情況下,增加此數字可以提高性能,但會增加系統內存的成本。

cat /sys/block/md0/md/stripe_cache_size
8192
echo 32768 > /sys/block/md0/md/stripe_cache_size

收到告警信

檢查信件內容

smartd守護程序記錄了以下警告/錯誤:

設備:/ dev / disk / by-id / ata-HGST_HUS72 6060ALE610_NAHPJ9RY [SAT],1個不可糾正的離線脫機扇區

設備信息: HGST HUS726060ALE610,序列號:NAHPJ9RY,WWN:5-000cca-242d7e089,固件:APGNT7J0,6.00 TB

有關詳細信息,請參閱主機的SYSLOG。

您也可以使用smartctl實用程序進行進一步調查。 如果問題仍然存在,將在24小時內發送另一條消息。

該消息是由運行在以下位置的smartd守護程序生成的:

主機名:omvNAS1 DNS域:tn.edu.tw

smartd守護程序記錄了以下警告/錯誤:

設備:/ dev / disk / by-id / ata-HGST_HUS72 6060ALE610_NAHPJ9RY [SAT],當前不可讀的8個扇區

設備信息: HGST HUS726060ALE610,序列號:NAHPJ9RY,WWN:5-000cca-242d7e089,固件:APGNT7J0,6.00 TB

有關詳細信息,請參閱主機的SYSLOG。

您也可以使用smartctl實用程序進行進一步調查。 如果問題仍然存在,將在24小時內發送另一條消息。

查看日誌

處理SOP

找出有問題磁碟,序號NAHPJ9RY

自我測試結果

在cockpit上的smartd紀錄

找出實體硬碟,讓它亮燈

ledctl locate=/dev/sdj

真實硬碟位置為編號3

從Raid磁碟移除有問題磁碟

除舊佈新

確認從raid碟移除/dev/sdj才可以拔掉真實問題硬碟,插入新硬碟替代/dev/sdj

插入新的硬碟,在系統上發現新的/dev/sdj,序號已經不同NAHN2SVY

重新啟用smart監測

抹除新的磁碟

重新加入新的磁碟到raid:復原

系統自動rebuild

停止閃燈警示

ledctl locate_off=/dev/sdj(停止閃燈)

rbuild的階段,disk io 會比較慢

min/avg/max/mdev = 7.02 ms / 12.9 ms / 22.0 ms / 3.51 ms

rebuild中.......

min/avg/max/mdev = 142.9 ms / 496.0 ms / 1.36 s / 265.7 ms

出現的問題與解決

和沛儲存體都無法掛載了...

網站全掛,,,

我卸載後重新掛載似乎就好了

Why

我剛進去看系統是正常的

不清楚,但我每個掛何沛的網站都一樣情況

https://codecharge.com.tw/phpBB2/viewtopic.php?t=21137

原因可能是這篇寫的

我看看

可能與rebuild有關

應該是

在rebuild時,好像還好,但完成後,是否因資料有變動,之前的掛載視為舊的

重掛載後,目前都正常了嗎?

嗯,都處理好了 

資料來源: https://kawsing.gitbook.io/opensystem/andoid-shou-ji/untitled/zhen-shi-an-li-chu-li

沒有留言: