하드웨어 오류를 확인하는 방법은 무엇입니까?

하드웨어 오류를 확인하는 방법은 무엇입니까?

최근에 걱정스러운 소식을 봤습니다 dmesg.

특히 다음과 같은 것들이 있습니다.

[   19.367114] pcieport 0000:00:1c.5: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[   19.367148] pcieport 0000:00:1c.5:   device [8086:9d15] error status/mask=00000081/00002000
[   19.367172] pcieport 0000:00:1c.5:    [ 0] Receiver Error         (First)
[   19.367192] pcieport 0000:00:1c.5:    [ 7] Bad DLLP    

그리고:

[   20.121489] ath10k_pci 0000:03:00.0: Unknown eventid: 118809
[   20.124485] ath10k_pci 0000:03:00.0: Unknown eventid: 90118

또는:

[   19.367213] pcieport 0000:00:1c.5: AER: Multiple Corrected error received: 0000:00:1c.5
[   19.367218] pcieport 0000:00:1c.5: can't find device of ID00e5

그리고 가장 걱정되는 점은 다음과 같습니다.

Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: firmware crashed! (guid a62c787e-4709-4d94-a1a7-4e9357c2555a)
Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: failed to get memcpy hi address for firmware address 4: -16
Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: failed to read firmware dump area: -16

(이것은 시작 시 약 50%의 시간에 발생합니다.)

이 모든 현상은 상당히 짧은 기간(~2주) 내에 나타나기 시작했으며, 모두 하드웨어 오류로 인해 발생할 수 있으므로 가장 큰 우려 사항은 하드웨어 전체 또는 대부분을 테스트할 수 있는 소프트웨어 방법이 있는가 하는 것입니다.

(펌웨어 충돌로 인해 Wi-Fi 작동이 중단되는 것 외에는 이전 버그로 인한 영향은 없습니다)

답변1

하드웨어를 확인하는 가장 실용적인 방법은 알려진 양호한 소프트웨어를 실행하는 것입니다. 예를 들어, 오래된 커널. 오래된 펌웨어도 좋습니다. 작동할 것으로 알고 있는 Live CD/DVD가 더 좋습니다.

또한 로그를 확인하세요. 불과 2주 전에 시작된 것이 확실합니까? 아니면 그제서야 눈치채기 시작했나요?

또한 최소한 데스크탑 컴퓨터(상대적으로 열고 보기가 쉬운 컴퓨터)인 경우 잠시 시간을 내어 하드웨어를 육안으로 검사하십시오. 모든 팬이 회전하고 있습니까? 라디에이터가 누락되었습니까(라디에이터에 먼지/보풀이 없습니까)? 콘덴서에 부풀어오른 부분이 있나요? PCIe 버그가 많기 때문에 하드웨어에 만족한다면 모든 PCIe 카드를 다시 설치할 수도 있습니다.

[하드웨어 결함 여부를 입증하기 위한 실제 테스트 장비 비용은 단순히 컴퓨터를 교체하는 것보다 훨씬 높을 수 있습니다. ]

답변2

두 번째 및 네 번째 로그 메시지 세트는 하드웨어별 Atheros 무선 드라이버에서 나옵니다. 하드웨어 문제로 인해 발생할 수도 있지만 펌웨어 문제로 인해 발생할 수도 있습니다. 저는 이전에 이 특정 드라이버 문제를 다루어 본 적이 없으므로 별로 도움이 될 수 없습니다.

첫 번째 그룹과 세 번째 그룹은 모두 PCI-e 하위 시스템에서 직접 제공됩니다. 둘 다 잘못을 바로잡는 것에 대해 이야기합니다. 나는 이전에 이러한 유형의 오류를 처리한 적이 있으며, 경험을 통해 이러한 오류는 거의 항상 일종의 하드웨어 문제를 나타낸다고 말할 수 있습니다(하드웨어 불량이 아닐 수도 있음). 다음과 같은 오류가 발생할 때 사용하는 표준 절차는 다음과 같습니다.

  • 라디에이터가 누락되지 않았는지, 모든 팬이 제대로 작동하는지, 먼지가 쌓이지 않았는지 다시 확인하세요.
  • ~을 위한추가 카드(문제가 표시된 카드뿐만 아니라), 카드를 제거하고 다음을 수행합니다(언제든지 카드에 오류가 발생하면 카드를 교체합니다).
    • 카드 가장자리의 접점에 부식이나 손상 흔적이 있는지 확인하십시오.
    • 모든 전해 콘덴서에 누출 징후가 있는지 확인하십시오.
    • 모든 플라스틱 하우징 구성요소에 녹은 흔적이 있는지 확인하십시오.
    • 전체 보드에 탄 자국, 비정상적인 변색 또는 기타 손상이 있는지 검사하십시오.
    • 가급적이면 전원을 공급한 직후 마더보드에서 냄새가 나지 않는지 확인하십시오. 이상한 냄새는 일반적으로 커패시터 누출이나 부품 과열을 나타내며, 이러한 문제의 명백한 징후가 없더라도 종종 발생합니다.
    • 카드가 제거된 마더보드의 슬롯을 확인하여 접촉이 구부러졌거나 부식되었거나 녹은 흔적이 있는지 확인하십시오(이 경우 좋은 돋보기를 사용하십시오).
  • 카드를 검사하는 것처럼 마더보드 자체를 주의 깊게 검사하십시오. 검사에 실패하면 교체해야 합니다.
  • 전원 공급 장치의 시스템 정격이 충분히 높고 실제로 올바른 전압을 제공하는지 확인하십시오. 간단한 DC 멀티미터를 사용하면 무부하 공급 장치의 전압이 올바른지 신속하게 확인할 수 있습니다. PSU가 로드될 때 레일이 처지지 않는지 확인하는 것은 약간 까다롭지만 많은 좋은 마더보드에는 전압 모니터링 기능이 내장되어 있으며 펌웨어 설정 메뉴에서 확인할 수 있습니다.
  • 열화상 카메라(열화상 카메라를 시뮬레이션하는 고급 스마트폰 앱이 아닌 실제 열화상 카메라)에 액세스할 수 있는 경우 시스템이 실행되는 동안 시스템 내부를 확인하세요. 어떤 지점의 온도도 섭씨 85도(대부분의 가전제품의 표준 상한 온도)보다 높아서는 안 됩니다.

장점으로는 문제가 PCI Express 하위 시스템(카드 불량 또는 마더보드 불량), 전원 공급 장치(전원 공급 장치인 경우에는 그럴 가능성이 낮음)에 특정하다는 점을 합리적으로 확신할 수 있습니다. 다른 증상) 또는 마더보드의 펌웨어입니다.

답변3

문제를 진단하기 위해 시도할 수 있는 몇 가지 사항입니다. 다른 운영 체제를 로드하고 동일한 오류가 나타나는지 확인하십시오. (소프트웨어 문제) 특정 PCI 카드 없이 이전 운영 체제를 부팅하려고 합니다. (하드웨어) BIOS를 롤백하고 오류가 사라지는지 확인하세요. (펌웨어) 이들 중 하나를 사용하면 오류가 제거되고 시스템의 어느 부분에 문제가 있는지 알 수 있습니다. 오류 목록을 유지하고 어떤 오류가 사라지거나 다른 변경 사항으로 남아 있는지 확인하면 문제가 여러 개 있는지 아니면 하나만 있는지 진단하는 데 도움이 될 수 있습니다. 이는 시작 시 약 50%의 시간에 발생합니다. 이로 인해 이것이 하드웨어 문제일 수 있다고 생각됩니다. 상자를 열고 느슨한 카드/케이블이 있는지 확인해 보세요. 먼지를 제거하거나 더 시원한 환경에서 설정을 실행하면 경험에 긍정적인 영향을 미칠 것입니다. 행운을 빌어요!

관련 정보