SSD 하드 리셋 링크 CentOS 7

SSD 하드 리셋 링크 CentOS 7

나에겐 두 개가 있다인텔 SSDSC2CW120A3 솔리드 스테이트 드라이브안에슈퍼 마이크로 X9SCL/X9SCMCentOS 7에서 소프트웨어 RAID-1을 설정합니다.

Linux hostname.local 3.10.0-957.5.1.el7.x86_64 #1 SMP Fri Feb 1 14:54:57 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux

ata1 및 ata2에 "하드 리셋 링크"가 계속 dmesg표시됩니다. 대부분의 경우 나(또는 내 모니터링)는 가동 중지 시간을 인지하지 못하지만 때로는 서버가 완전히 정지되어 전원 재설정을 수행해야 합니다(더 이상 통과할 수 없음) SSH로 연결), dmesg이는 재설정 출력에 따라 자주 발생합니다.

$ dmesg | grep "hard resetting link"
[161507.540860] ata1: hard resetting link
[161751.123732] ata2: hard resetting link
[161798.132697] ata2: hard resetting link
[161879.126542] ata2: hard resetting link
[161939.134102] ata2: hard resetting link
[162536.225103] ata1: hard resetting link
[164738.176816] ata1: hard resetting link

더 많은 출력 dmesg:

[229999.873718] ata1.00: failed command: WRITE FPDMA QUEUED
[229999.879043] ata1.00: cmd 61/08:f0:28:12:d5/00:00:00:00:00/40 tag 30 ncq 4096 out
     res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[229999.894050] ata1.00: status: { DRDY }
[229999.897815] ata1: hard resetting link
[230000.206411] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[230000.223165] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[230000.223179] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[230000.231187] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[230000.253132] ata1.00: ACPI cmd ef/10:06:00:00:00:00 (SET FEATURES) succeeded
[230000.253137] ata1.00: ACPI cmd f5/00:00:00:00:00:00 (SECURITY FREEZE LOCK) filtered out
[230000.261148] ata1.00: ACPI cmd b1/c1:00:00:00:00:00 (DEVICE CONFIGURATION OVERLAY) filtered out
[230000.273568] ata1.00: configured for UDMA/133
[230000.277980] ata1: EH complete

SATA 케이블을 확인한 결과 괜찮아 보였고 플러그를 뽑았다가 다시 연결했습니다. smartctl에서 수정할 수 없는 오류가 일부 보고되었지만 그 외에는 전혀 의심스러운 것이 없습니다. 또한 사용 가능한 커널 업데이트가 없습니다.

드라이브나 마더보드 교체를 시작하기 전에 추가적으로 확인할 수 있는 사항이 있는지 궁금합니다. 이 문제가 하드웨어 문제인지 소프트웨어 문제인지 확인하려고 합니다.

티아

답변1

"SATA 케이블을 확인해 보니 괜찮아 보이는데, 플러그를 뽑았다가 다시 연결해 보세요."

집에서도 같은 문제가 있었는데 SATA 케이블을 교체해야만 문제를 해결할 수 있었습니다. 당신처럼 그 사람들도 겉으로는 괜찮아 보이지만 속으로는 뭔가 잘못된 것 같아요. 케이블만 보고 판단하지 마세요. 이러한 ata오류는 성가시며 거의 모든 곳, 심지어 PSU에서도 발생할 수 있습니다. 예:

...처음에는 SATA 컨트롤러나 케이블 문제인 줄 알고 드라이브를 교체했지만 같은 드라이브가 여전히 영향을 받습니다. 그런 다음 나는 그것이 드라이브와 관련된 것이라고 생각했고, BIOS를 자주 재설정하기로 결정할 때까지 한동안 나를 곁길로 내몰았습니다. 이 작업을 수행하는 동안 공급 전압을 무작위로 살펴보았는데 12V 레일이 약 10.2V로 떨어졌습니다...정말 짜증나는 경험이었고 증상은 매우 오해의 소지가 있습니다. 결국 드라이브는 괜찮습니다. 이는 완전히 다른 문제의 증상일 뿐입니다. 앞으로는 루멘센서 전압도 주기적으로 체크해보겠습니다...

특정 상황에 따라 문제를 해결하는 방법은 다음과 같습니다.

가장 먼저 해야 할 일(때문에 mdraid):

  • BIOS 내부를 확인하여 디스크 컨트롤러가가짜 RAID, 설정에서 RAID 모드를 활성화하는지 확인하세요. Sata AHCI로 변경하고 시스템을 다시 설치하십시오. 이는 매우 상식적인 사실입니다(Red Hat에도 사본이 있습니다.mdraid) FakeRAID의 공격 모드로 인해 설정이 엉망이 될 수 있습니다 .이렇게 하면 문제가 해결되지는 않지만 가까운 시일 내에 문제가 발생하는 것을 방지할 수 있습니다..

SATA 확인 후:

  • SATA 케이블을 교체하세요. AMD가 마더보드 측에 일종의 "독점" 커넥터를 사용하지 않는 한 요즘에는 꽤 저렴합니다.
  • SSD 및 디스크 컨트롤러 펌웨어를 업데이트하세요. 귀하의 질문( failed command: WRITE FPDMA QUEUED, Emask 0x4 (timeout))은 이것과 매우 관련이 있는 것 같지만 하드웨어가 다릅니다.[해결됨] "명령 실패: WRITE FPDMA QUEUED" ATA 오류
  • 친구에게 예비 전원을 빌려서 사양을 확인하고 교체해 보세요.
  • 이제 모든 기본 사항을 다루었으므로 supermicro에 문의하여 보드에 대한 지원 사례를 시도해 보십시오.
  • 모든 작업이 완료되면 디스크를 교체합니다.

답변2

드라이브나 마더보드 교체를 시작하기 전에 추가적으로 확인할 수 있는 사항이 있는지 궁금합니다.

내 집 컴퓨터는 CentOS 7.6, asrock lga1156입니다. 가지다엔비디아설치된 그래픽 드라이버는 gtx970을 지원하고 커널 업데이트가 이루어졌습니다... 아시다시피 nvidia 설치 프로그램은커널 모듈[dkms를 사용하지 않는 한] 손실됩니다. 그래서 커널 업데이트 후에 다음과 같은 문제가 발생했습니다.

ACHI does not support sleep

{repeated} usb1-2 reset high speed device number 2 using xhci_ncd

NVIDIA 그래픽 카드 드라이버를 다시 설치하면 문제가 해결됩니다.

Nvidia 드라이버가 없다면 비슷한 방식으로 설치된 다른 소프트웨어를 무시하지 마십시오.커널 모듈.

관련 정보