오늘 저는 RAID 어레이(소프트웨어 RAID10)에 대해 불평하는 많은 메시지를 발견하여 조사하기 시작했지만 상태 출력을 올바르게 해석하고 있는지 확신할 수 없기 때문에 도움이 필요합니다(실제 RAID가 무엇인지 잊어버렸습니다) 설정은) 머신이 원격 위치에 있었고 약 1~2년 전에 구성했기 때문이었습니다.)...제 기억이 맞다면 시스템에 8개의 2TB 디스크가 있어야 했는데 기억나는 것은 그게 전부입니다.
시스템 이메일:
N 14 [email protected] Wed May 25 21:30 32/1059 Fail event on /dev/md/0:EDMedia
N 15 [email protected] Thu May 26 06:25 30/1025 DegradedArray event on /dev/md/0:EDMedia
N 16 [email protected] Thu May 26 06:25 30/1025 SparesMissing event on /dev/md/0:EDMedia
이제 출력을 보고 있는데 특히 혼란스러운 점은 다음과 같습니다.
Number Major Minor RaidDevice State
0 0 0 0 removed
이는 디스크가 제거(또는 어레이에서 제거)되었음을 의미합니까? "/dev/sda1"을 다시 추가해 볼까요? 사용 중인 특정 파티션 디스크를 추가하고 상황을 악화시키지 않고 "/dev/sda1"이 "/dev/md0"의 일부임을 알 수 있는 방법이 있습니까?
상태 출력:
'mdadm -D /dev/md0' 출력:
/dev/md0:
Version : 1.2
Creation Time : Mon Feb 8 23:15:33 2016
Raid Level : raid10
Array Size : 2197509120 (2095.71 GiB 2250.25 GB)
Used Dev Size : 1465006080 (1397.14 GiB 1500.17 GB)
Raid Devices : 3
Total Devices : 2
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Thu Sep 1 19:54:05 2016
State : clean, degraded
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : EDMEDIA:0
UUID : 6ebf98c8:d52a13f0:7ab1bffb:4dbe22b6
Events : 4963861
Number Major Minor RaidDevice State
0 0 0 0 removed
1 8 17 1 active sync /dev/sdb1
2 8 33 2 active sync /dev/sdc1
"lsblk" 출력:
NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT
sda 8:0 0 1.4T 0 disk
└─sda1 8:1 0 1.4T 0 part
sdb 8:16 0 1.4T 0 disk
└─sdb1 8:17 0 1.4T 0 part
└─md0 9:0 0 2T 0 raid10
├─md0p1 259:0 0 1.5M 0 md
├─md0p2 259:1 0 244.5M 0 md /boot
└─md0p3 259:2 0 2T 0 md
├─EDMedia--vg-root 253:0 0 2T 0 lvm /
└─EDMedia--vg-swap_1 253:1 0 16G 0 lvm [SWAP]
sdc 8:32 0 1.4T 0 disk
└─sdc1 8:33 0 1.4T 0 part
└─md0 9:0 0 2T 0 raid10
├─md0p1 259:0 0 1.5M 0 md
├─md0p2 259:1 0 244.5M 0 md /boot
└─md0p3 259:2 0 2T 0 md
├─EDMedia--vg-root 253:0 0 2T 0 lvm /
└─EDMedia--vg-swap_1 253:1 0 16G 0 lvm [SWAP]
sdd 8:48 0 1.4T 0 disk
└─sdd1 8:49 0 1.4T 0 part
sdj 8:144 0 298.1G 0 disk
└─sdj1 8:145 0 298.1G 0 part
sr0 11:0 1 1024M 0 rom
"df" 출력:
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/dm-0 2146148144 1235118212 801988884 61% /
udev 10240 0 10240 0% /dev
tmpfs 1637644 17124 1620520 2% /run
tmpfs 4094104 0 4094104 0% /dev/shm
tmpfs 5120 0 5120 0% /run/lock
tmpfs 4094104 0 4094104 0% /sys/fs/cgroup
/dev/md0p2 242446 34463 195465 15% /boot
'watch -n1 cat /proc/mdstat' 출력:
Every 1.0s: cat /proc/mdstat Thu Sep 1 21:26:22 2016
Personalities : [raid10]
md0 : active raid10 sdb1[1] sdc1[2]
2197509120 blocks super 1.2 512K chunks 2 near-copies [3/2] [_UU]
bitmap: 16/17 pages [64KB], 65536KB chunk
unused devices: <none>
답변1
귀하의 raid10 어레이는 2개의 활성 드라이브와 1개의 예비 드라이브로 구성된 것으로 보입니다. 예비 부품이 없습니다.
여기에는 여러 가지 이유가 있을 수 있습니다.
- 서버에서 예비 디스크를 제거했을 수도 있습니다.
- 드라이브 하나가 죽었을 수도 있고 재구축 후 기존 핫 스페어가 이제 활성화될 수도 있습니다.
- 핫 스페어가 사용되기 전에 파손되었을 수도 있습니다.
- 과거 어느 시점에 드라이브(또는 케이블)가 "불량"이어서 어레이에서 자동으로 제거되었을 수 있습니다.
서버에 손상된 디스크가 있는지 확인할 수 있으며 이는 lsblk 출력에서도 볼 수 없습니다. 다른 드라이브(sda1 또는 sdd1) 중 하나가 어레이의 일부였으나 지금은 손상되었을 수도 있습니다. (너무 작기 때문에 sdj1이 될 수 없습니다.)
서버에서 손상된 드라이브를 제거합니다.
경고를 방지하려면 핫 스페어 드라이브(사용되지 않고 손상되지 않은 드라이브 중 하나일 수 있음)를 다시 추가하거나 더 이상 핫 스페어 드라이브가 없도록 어레이를 구성하십시오. 사례 4의 경우 동일한 드라이브가 다시 실패할 확률이 높습니다.
그런데 과거에 정확히 무슨 일이 일어났는지 보려면 이전 로그 파일에서 관련 메시지를 찾아보면 됩니다.
답변2
시스템 로그를 확인하세요.루디 메이어지난 5월 정전이 발생한 후 RAID 어레이 오류가 발생하기 시작했다는 제안 및 발견이 있었습니다. 이것은 소프트웨어 RAID10(1+0)이기 때문에 전체 어레이가 돌이킬 수 없을 정도로 충돌하는 것이 아니라 예비 디스크만 어레이에서 날아간 것이 감사했습니다. 믿을 수 있는 오래된 Hiren 부팅 CD를 사용하여 몇 가지 HDD 테스트를 거친 후 파티션 마법사가 부팅되었습니다. 모든 의심스러운 디스크가 오류/문제 없이 체크아웃되었습니다.
디스크를 지우고(파티션 마법사를 사용하여 부팅 가능) 다음을 사용하여 예비 디스크를 다시 추가했습니다.
mdadm --add /dev/md0 /dev/sda1