2개의 3TB 디스크가 있는 Linux md-raid raid1 어레이(ext4 fs)가 있습니다. 지난 몇 달 동안 이 어레이에 대한 액세스 및 읽기 시간이 눈에 띄게 느려졌습니다. ls
레코드가 20개 미만인 디렉터리에 대한 작업은 반환하는 데 2~3분 정도 걸릴 수 있습니다.
"확인 중" 상태에서 많은 시간을 소비하는 것으로 보이지만, 상태가 "깨끗"한 경우에도 액세스 및 읽기 시간이 매우 느립니다. 시스템 로그에 보고된 오류가 표시되지 않습니다. 주목할 만한 유일한 점은 FS가 한동안 가득 찼다는 것입니다. 출력에는 다음이 mdadm -D /dev/md127
표시됩니다.
/dev/md127:
Version : 1.2
Creation Time : Thu Jun 20 11:34:21 2019
Raid Level : raid1
Array Size : 2930132992 (2794.39 GiB 3000.46 GB)
Used Dev Size : 2930132992 (2794.39 GiB 3000.46 GB)
Raid Devices : 2
Total Devices : 2
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Sep 26 13:58:50 2021
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Consistency Policy : bitmap
Name : giles:meta (local to host giles)
UUID : 638efea5:1e7b07d2:78fec1dc:d919dccf
Events : 8359
Number Major Minor RaidDevice State
0 8 1 0 active sync /dev/sda1
1 8 17 1 active sync /dev/sdb1
이 문제의 원인이나 디버깅 제안에 대한 아이디어가 있습니까? 새로운 대용량 드라이브 세트에 데이터를 복사하고 있는데 48시간 동안 301GB만 복사되었습니다.
답변1
당신의 답변에 감사드립니다. syslog에는 sdb에 대한 많은 오류를 보고하는 smartctl/smartd가 표시됩니다. 드라이브에 mdadm --manage /dev/md127 --fail /dev/sdb1
장애가 발생하고 ( ) mdadm --manage /dev/md127 --remove /dev/sdb1
어레이에서 제거되었으며( ) 몇 시간 내에 데이터를 새 어레이에 복사하는 작업이 완료되었습니다.
여기서 제가 얻은 교훈은 RAID 문제에 대한 이메일 알림을 보내도록 mdadm을 설정하는 것만으로는 충분하지 않다는 것입니다(수동으로 드라이브에 실패한 직후에 RAID 상태에 대한 이메일을 보냈습니다). 디스크 IO 성능에 무슨 일이 일어나고 있는지 궁금해하는 것보다 더 일찍 경고를 받을 수 있도록 smartd에서 일부 자동 보고를 설정해야 합니다.