매우 간단합니다. 서버에는 SSD가 기본 드라이브로 있고 RAID 어레이(mdadm)가 저장용으로 있습니다.
간헐적으로 어레이에 쓰는 데 문제가 발생했습니다. 실제로 사용할 수 없을 정도로 쓰기 속도가 느려졌습니다.
방금 속도 테스트를 마쳤고 SSD에서 RAID 어레이로 1G 파일을 복사하는 데 거의 한 시간이 걸렸습니다.
root@office:/tmp# rsync -vhr --progress test.img /mnt/raid/
sending incremental file list
test.img
1.07G 100% 301.99kB/s 0:57:52 (xfer#1, to-check=0/1)
sent 1.07G bytes received 31 bytes 309.25K bytes/sec
total size is 1.07G speedup is 1.0
RAID 어레이는 괜찮은 것 같습니다.
root@office:/tmp# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdb[0] sdd[3] sdc[1]
5860270080 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
unused devices: <none>
그리고 syslog에는 아무 것도 언급되지 않습니다.
이 문제에 대한 해결책을 또 어디에서 찾아야 합니까?
추신. 약 한 달 전 우리는 뇌우로 인해 스위치를 교체해야 했습니다. 이 문제도 이때부터 시작됐다. 이것이 마더보드나 컨트롤러에 결함이 있는 것인지, 아니면 다른 것이 고장난 것인지 알 수 없습니다. 고객에게 하드웨어 교체를 제안하기 전에 확실한 증거를 갖고 싶습니다.
답변1
60초마다 동기화를 실행하는 크론 작업이 있는 것으로 나타났습니다. 너무 많은 좀비 프로세스가 생성되어 RAID 어레이 속도가 극도로 느려졌습니다. 이야기의 교훈: 크론 작업을 확인하세요.