하드웨어 구성요소를 테스트하여 어떤 구성요소에 결함이 있는지 어떻게 확인합니까?

하드웨어 구성요소를 테스트하여 어떤 구성요소에 결함이 있는지 어떻게 확인합니까?

질문

하드웨어 구성요소를 테스트하여 어떤 구성요소에 결함이 있는지 어떻게 확인합니까?

세부 사항

저는 삼바를 파일 서버로 사용하여 데비안을 실행하는 오래된 컴퓨터를 가지고 있습니다. 얼마 전 파일 서버에 로그인할 수 없었습니다. 데비안 서버의 화면을 보면 다음과 같습니다.

여기에 이미지 설명을 입력하세요.

하드웨어 오류라고 나오며 CPU 불량 같습니다. 그러나 나는 내가 무슨 말을 하는지 전혀 모르기 때문에 다 써버리고 새 CPU를 사고 싶지 않습니다.

내가 한 일은 다음과 같습니다.

  • memtest 86+를 사용하여 66시간 동안 지속적으로 메모리를 테스트했습니다. 65번을 통과했고 오류가 0개 발견되었습니다. 그래서 기억력이 나쁘다는 건 있을 수 없는 일인 것 같아요. 그런데 시스템에 다른 오류가 발생했는데 왜 66시간 동안 충돌이 발생하지 않았는지 조금 궁금합니다.
  • 나는 그것이 java Tainted자바 문제일지도 모른다고 생각했습니다. Java를 사용하기 때문에 CrashPlan 백업 서비스를 비활성화했습니다. 4일 연속 서버가 잘 돌아가고 있습니다. (보통 15~30분마다 충돌이 발생합니다.) 충돌 일정을 끄는 동안 두 대의 컴퓨터가 서버에 연결되어 50GB의 HD 비디오를 가져와 인코딩하고 서버 하드 드라이브에 다시 넣습니다. 문제 없습니다. 그러다가 하루 뒤에 또 사고가 났습니다.

이제 이것이 언급되었으니 이것이 CPU 문제라고 가정해야 합니까?

하드웨어 구성요소를 테스트하여 어떤 구성요소에 결함이 있는지 어떻게 확인합니까?

답변1

귀하의 하드웨어가 HP, Dell 등과 같은 대규모 공급업체의 제품인 경우 귀하의 요구에 맞는 특정 도구가 있을 수 있습니다. 저는 HP와 협력해 왔으며 HP에는 이미 불량 하드웨어를 보고할 수 있는 도구가 있습니다.

그렇지 않은 경우 상황은 더 까다롭고(내 경험상) 일반적인 실패 지점이었던 메모리를 처음부터 잘 테스트하고 있는 것입니다.

이제 CPU에 대해 의심이 든다면 커널 컴파일이나 libreoffice, xorg 등과 같은 다른 큰 소스와 같은 집중적인 작업에 CPU를 노출시킬 수 있습니다. CPU가 여러 개인 경우 CPU Affinity를 사용할 수 있습니다.

또한 오류 메시지에는 "mcelog --ascii"를 실행하라는 메시지가 표시됩니다. 이를 수행하여 메시지를 이해하려고 노력할 수 있습니다. 아래 두 링크를 읽어 보십시오. 하드웨어 문제를 해결하는 데 도움이 되기를 바랍니다.

http://mcelog.org/faq.html#5

http://www.gentoo.org/doc/en/articles/hardware-stability-p1.xml

답변2

모든 컴퓨터의 하드웨어 문제는 추적하기 어려울 수 있으며, 특히 오래된 시스템에서는 더욱 그렇습니다.

MCE 또는 Machine Check Exception은 하드웨어 오류가 감지될 때 CPU 자체에서 생성되는 사람이 읽을 수 없는 오류 코드입니다. 여기에는 RAM, 프로세서 캐시 또는 시스템 버스의 모든 장치 오류가 포함될 수 있습니다. 구형 프로세서의 문제는 시행착오를 통해서만 발견되는 경우가 많습니다. 운이 좋으면 테스트를 염두에 두십시오.

일부 최신 프로세서는 이해하기 쉬운 MCE를 제공하지만 사용 중인 프로세서는 구형 AMD인 것 같습니다. Mcelog는 MCE를 이해할 수 있는 유일한 희망일 수 있는 최신 x86 프로세서용 MCE를 디코딩할 수 있는 Linux 데몬입니다.

이미 투자한 시간을 고려하면 가장 좋은 방법은 마더보드/CPU/메모리를 똑같이 오래되고 저렴하지만 여전히 사용할 수 있는 설정으로 교체하는 것입니다. :)

관련 정보