linux mdadm dm0 어셈블리 오류: md: 동시 대체 및 재구성을 처리할 수 없습니다. (성형 중에 기계가 다시 시작됩니다)

2024-6-11 • tag-icon

linux mdadm dm0 어셈블리 오류: md: 동시 대체 및 재구성을 처리할 수 없습니다. (성형 중에 기계가 다시 시작됩니다)

Linux raid 설정에 문제가 있습니다. 여기 누군가가 데이터 손실 없이 raid를 다시 활성화하는 데 도움을 줄 수 있기를 바랍니다.

나는 RAID 배열을 갖춘 Debian 11 시스템을 가지고 있습니다(6배1TB 하드 드라이브, RAID 레벨 5)는 오늘까지 활성 상태였습니다.2개 더 추가됨1TB HDD 드라이브 및 RAID 레벨을 6으로 변경합니다.

참고: 완료하려면: 내 공격대 설정한 달 전예전에는

mdadm --create --verbose /dev/md0 -c 256K --level=5 --raid-devices=6  /dev/sdd /dev/sdc /dev/sdb /dev/sda /dev/sdg /dev/sdf
mkfs.xfs -d su=254k,sw=6 -l version=2,su=256k -s size=4k /dev/md0
mdadm --detail --scan | tee -a /etc/mdadm/mdadm.conf
update-initramfs -u
echo '/dev/md0 /mnt/data ext4 defaults,nofail,discard 0 0' | sudo tee -a /etc/fstab

오늘 했어요:

mdadm --add /dev/md0 /dev/sdg /dev/sdh
sudo mdadm --grow /dev/md0 --level=6

이로 인해 내가 관찰할 수 있는 성장 과정이 시작되었습니다.

watch -n 1 cat /proc/mdstat

md0은하루 종일 계속 사용할 수 있습니다.. 빠른 파일 접근으로 인해성장 및 삽입 과정을 일시 중지했습니다.오늘 유통량은 50% 정도

echo "frozen" > /sys/block/md0/md/sync_action

파일 액세스가 완료되면 프로세스를 다시 시작했습니다.

echo reshape > /sys/block/md0/md/sync_action

하지만 mdstat에서 모양 변경이 50%가 아닌 처음부터 수행되는 것을 볼 수 있습니다.5분 후 /dev/dm0 마운트가 사라진 것을 확인했습니다.커널이 dm0을 올바르게 재조립했는지 확인하기 위해 컴퓨터를 다시 시작했습니다. 어쩌면 dm0이 여전히 재형성 중이기 때문에 문제일지도 모르겠습니다.

(어떤 이유로 부팅 후 드라이브 sdx 알파벳 순서가 변경되었지만 장치는 변경하지 않았습니다.)

dm0은 재부팅 후 재조립되지 않으며 수동으로 재조립할 수 없습니다. 조립하려고 하면 항상 오류가 발생합니다.

mdadm --assemble --run --force --update=resync /dev/md0 mdadm:
failed to RUN_ARRAY /dev/md0: Input/output error

성장이 잠시 중단된 관계로 지금은 잘 모르겠습니다.

내 공격대 설정이 실제로 raid5 또는 raid6이면 어떻게 되나요?
처음 6개 장치를 레이드에 연결해야 하거나 8개 장치 모두를 연결해야 하는 경우
모든 로그에 설명된 문제를 해결하는 방법:

mdadm --assemble /dev/md0 /dev/sda /dev/sdb /dev/sdc /dev/sdf /dev/sdi /dev/sdj /dev/sdg/dev/sdh mdadm
--run --force /dev/ MD0

결과:

mdadm: /dev/md0 assembled from 7 drives - need 8 to start (use --run to insist). 
mdadm: failed to start
    array /dev/md0: Input/output error

내 dmesg 로그는 다음과 같습니다.

srv11:~# dmesg |tail
[ 3393.321837]  sdf:
[ 3415.020629] md/raid:md0: not clean -- starting background reconstruction
[ 3415.020771] md/raid:md0: device sdj operational as raid disk 4
[ 3415.020773] md/raid:md0: device sdi operational as raid disk 5
[ 3415.020774] md/raid:md0: device sdf operational as raid disk 0
[ 3415.020775] md/raid:md0: device sdc operational as raid disk 2
[ 3415.020776] md/raid:md0: device sdb operational as raid disk 1
[ 3415.023097] md: cannot handle concurrent replacement and reshape.
[ 3415.023551] md/raid:md0: failed to run raid set.
[ 3415.023553] md: pers->run() failed ...

"md: 동시 바꾸기 및 모양 변경을 처리할 수 없습니다."라는 오류를 처리하는 방법을 모르겠고 웹에서 이에 대한 정보를 찾을 수 없습니다.

mdadm --examine에서 두 개의 드라이브(아마 새 드라이브)에 "이벤트: 0"이 있고 나머지 6개 드라이브에는 모두 "이벤트: 4700"이 있는 것을 보았습니다.

누가 나한테 하나 줄 수 있어?재활성화 방법에 대한 제안이 배열아니면 적어도 내 데이터를 저장하세요에서?

강제로 조립하려고 했는데 성공하지 못했습니다. 실제로 공격대원이 몇 명인지, 어떤 상태인지에 대한 정보가 누락된 것 같습니다. 처음에는 mdadm -D /dev/md0에 6명의 레이드 멤버만 표시되었고, 그 다음에는 두 명을 더 추가했는데 이제 그들은 예비로 간주됩니다... 그런데 한 명은 완전히 무시된 것 같습니다.

srv11:~# mdadm -v  --run --force  /dev/md0 
mdadm: failed to start array /dev/md0: Input/output error
srv11:~# mdadm -D /dev/md0 
/dev/md0:
           Version : 1.2
     Creation Time : Mon Mar  6 18:17:30 2023
        Raid Level : raid6
     Used Dev Size : 976630272 (931.39 GiB 1000.07 GB)
      Raid Devices : 7
     Total Devices : 7
       Persistence : Superblock is persistent

       Update Time : Thu Apr 27 17:36:15 2023
             State : active, FAILED, Not Started 
    Active Devices : 5
   Working Devices : 7
    Failed Devices : 0
     Spare Devices : 2

            Layout : left-symmetric-6
        Chunk Size : 256K

Consistency Policy : unknown

        New Layout : left-symmetric

              Name : solidsrv11:0  (local to host solidsrv11)
              UUID : 1a87479e:7513dd65:37c61ca1:43184f65
            Events : 4700

    Number   Major   Minor   RaidDevice State
       -       0        0        0      removed
       -       0        0        1      removed
       -       0        0        2      removed
       -       0        0        3      removed
       -       0        0        4      removed
       -       0        0        5      removed
       -       0        0        6      removed

       -       8       32        2      sync   /dev/sdc
       -       8        0        -      spare   /dev/sda
       -       8      144        4      sync   /dev/sdj
       -       8       80        0      sync   /dev/sdf
       -       8       16        1      sync   /dev/sdb
       -       8      128        5      sync   /dev/sdi
       -       8       96        4      spare rebuilding   /dev/sdg

syslog에서 이 오류가 시작 시 발생했음을 볼 수 있으며, md가 어셈블되는 동안 어레이가 다시 작동하도록 하는 방법을 알 수 없습니다.RaidDevice 3을 찾을 수 없습니다..

시스템 로그 조각 시작:

Apr 27 17:37:05  kernel:  sde: sde1 sde2 sde3 sde4
Apr 27 17:37:05  kernel:  sdj:
Apr 27 17:37:05  kernel:  sdg: sdg1 sdg2 sdg3
Apr 27 17:37:05  kernel:  sdc:
Apr 27 17:37:05  kernel:  sda:
Apr 27 17:37:05  kernel:  sdi:
Apr 27 17:37:05  kernel:  sdh: sdh1 sdh2 sdh3
Apr 27 17:37:05  kernel:  sdf:
Apr 27 17:37:05  kernel: sd 0:0:0:0: [sda] Attached SCSI disk
Apr 27 17:37:05  kernel: sd 3:0:0:0: [sdg] Attached SCSI disk
Apr 27 17:37:05  kernel: sd 6:0:0:0: [sdj] Attached SCSI disk
Apr 27 17:37:05  kernel: sd 0:0:1:0: [sdc] Attached SCSI disk
Apr 27 17:37:05  kernel: sd 0:0:2:0: [sdb] Attached SCSI disk
Apr 27 17:37:05  kernel: sd 2:0:0:0: [sde] Attached SCSI disk
Apr 27 17:37:05  kernel: sd 5:0:0:0: [sdi] Attached SCSI disk
Apr 27 17:37:05  kernel: sd 0:0:3:0: [sdf] Attached SCSI disk
Apr 27 17:37:05  kernel: sd 4:0:0:0: [sdh] Attached SCSI disk
Apr 27 17:37:05  kernel: sd 1:0:0:0: [sdd] Attached SCSI disk
Apr 27 17:37:05  kernel: raid6: sse2x4   gen() 12392 MB/s
Apr 27 17:37:05  kernel: raid6: sse2x4   xor()  7042 MB/s
Apr 27 17:37:05  kernel: raid6: sse2x2   gen() 11331 MB/s
Apr 27 17:37:05  kernel: raid6: sse2x2   xor()  7148 MB/s
Apr 27 17:37:05  kernel: raid6: sse2x1   gen() 10382 MB/s
Apr 27 17:37:05  kernel: raid6: sse2x1   xor()  6645 MB/s
Apr 27 17:37:05  kernel: raid6: using algorithm sse2x4 gen() 12392 MB/s
Apr 27 17:37:05  kernel: raid6: .... xor() 7042 MB/s, rmw enabled
Apr 27 17:37:05  kernel: raid6: using ssse3x2 recovery algorithm
Apr 27 17:37:05  kernel: xor: automatically using best checksumming function   avx       
Apr 27 17:37:05  kernel: async_tx: api initialized (async)
Apr 27 17:37:05  kernel: md/raid:md0: device sdf operational as raid disk 0
Apr 27 17:37:05  kernel: md/raid:md0: device sdb operational as raid disk 1
Apr 27 17:37:05  kernel: md/raid:md0: device sda operational as raid disk 3
Apr 27 17:37:05  kernel: md/raid:md0: device sdi operational as raid disk 5
Apr 27 17:37:05  kernel: md/raid:md0: device sdc operational as raid disk 2
Apr 27 17:37:05  kernel: md/raid:md0: device sdj operational as raid disk 4
Apr 27 17:37:05  kernel: md: cannot handle concurrent replacement and reshape.
Apr 27 17:37:05  kernel: md/raid:md0: failed to run raid set.
Apr 27 17:37:05  kernel: md: pers->run() failed ...

관련 정보