컴퓨터 종료 원인을 어떻게 평가합니까?

컴퓨터 종료 원인을 어떻게 평가합니까?

나는 Debian 10이 최소한으로 설치된 오래된 노트북(약 10년 전)을 가지고 있습니다. 나는 이를 사용하여 홈 네트워크의 다른 컴퓨터에서 복사한 미디어 파일을 다운로드하고 저장합니다. 나는 보통 뚜껑을 닫아두고 SSH를 통해 액세스합니다. 나는 이 일을 약 1년 동안 해왔고, 일반적으로 한 달에 한 번 정도 무작위 충돌이 발생하는 것을 제외하고는 원활하게 실행됩니다. 그러나 최근에는 더 자주 충돌이 발생하기 시작했습니다. 일주일에 한 번, 때로는 시작하고 모든 것을 실행한 후 몇 분에서 한 시간 이내에 심지어기간시작합니다.

memtest86+ 및 SMART 테스트를 실행했는데 둘 다 아무런 문제도 보고되지 않았습니다. 코어 온도도 확인해 봤는데 별 문제는 아닌 것 같습니다. 제가 말했듯이, 이 노트북은 오래된 노트북이기 때문에 이제 막 수명이 다한 것들이 있을 수 있지만, 그런 경우가 있는지 확인하고 싶습니다...

이러한 무작위 충돌/종료의 원인을 평가하려면 또 무엇을 찾아야 합니까? 이것이 하드웨어 문제인지 소프트웨어 문제인지, 어떻게 해결해야 하는지, 컴퓨터의 어떤 부분을 아직 복구할 수 있는지 알고 싶습니다.

또한 필요한 추가 정보를 여기에 기재해 주시면 감사하겠습니다. :)


~에 따르면이 댓글, 붙여넣은 출력 dmesg --level=alert,crit,err,warn:

[    0.225970] ACPI BIOS Warning (bug): Incorrect checksum in table [ATKG] - 0xB0, should be 0x4A (20180810/tbprint-177)
[    0.362067] core: PEBS disabled due to CPU errata
[    0.363544] mtrr: your CPUs had inconsistent variable MTRR settings
[    0.424461] Expanded resource Reserved due to conflict with PCI Bus 0000:00
[    3.474163] Unstable clock detected, switching default tracing clock to "global"
               If you want to keep using the local clock, then add:
                 "trace_clock=local"
               on the kernel command line
[    3.728460] ACPI Warning: SystemIO range 0x0000000000000828-0x000000000000082F conflicts with OpRegion 0x0000000000000800-0x000000000000084F (\PMIO) (20180810/utaddress-213)
[    3.728473] ACPI Warning: SystemIO range 0x0000000000000530-0x000000000000053F conflicts with OpRegion 0x0000000000000500-0x000000000000053F (\GPIO) (20180810/utaddress-213)
[    3.728481] ACPI Warning: SystemIO range 0x0000000000000500-0x000000000000052F conflicts with OpRegion 0x0000000000000500-0x000000000000053F (\GPIO) (20180810/utaddress-213)
[    3.728488] lpc_ich: Resource conflict(s) found affecting gpio_ich

답변1

개념적으로는 일부 드라이버 문제가 관련되어 있을 수 있지만 이러한 오류는 하드웨어와 관련이 있을 가능성이 높습니다. 이를 진단하기 위해 따라야 할 절차를 마련하는 것은 어렵습니다.

단서를 찾기 위해 반드시 로그를 샅샅이 뒤져야 하지만, 불행하게도 설명한 대로 컴퓨터가 빠르게 다운되면 로그는 디스크에 안정적으로 기록되거나 유지되지 않기 때문에 도움이 되지 않는 경우가 많습니다. 이 문제를 정말로 해결하고 싶다면 원격 호스트에 로그인하여 시스템 충돌 없이 시스템의 모든 메시지를 캡처하는 것을 고려할 수 있습니다.

일부 의견에서 알 수 있듯이 다음 도구를 사용하십시오.

dmesg
sensors
dmesg --level=alert,crit,err,warn
journalctl -xe / journalctl --full and/or examine files in /var/logs

원격 로깅에 대해서는 (또는 유사한 기능을 가진 다른 에이전트) 확인하세요 rsyslog.

하드웨어를 보호하려는 정도에 따라 메모리를 교체하십시오. 메모리 테스터는 메모리 오류를 찾을 수 있지만 내 경험상 메모리 오류를 확인하는 신뢰할 수 있는 방법은 아닙니다. 즉, 메모리 테스트를 통과했는데, 메모리를 교체하니 결함이 사라졌습니다. (여러 시스템에서 메모리가 간헐적으로 발생하는 것을 보았지만 일반적인 것은 아닙니다.)

하드 드라이브 오류는 일반적으로 무슨 일이 일어나고 있는지 볼 수 없을 정도로 시스템을 너무 세게/빠르게 충돌시키지 않습니다. 어쨌든 로그에 실패한 섹터의 증거가 분명히 있을 것입니다. 하드 드라이브가 이렇게 심하게 실패하는 것을 본 적이 없기 때문입니다. 결함은 한꺼번에 발생하지만 간헐적으로 일정한 간격으로 발생합니다. 하드디스크 문제일 가능성은 거의 없다고 봅니다.

시스템을 분해해서 청소했습니다. 노트북이 아니라면 분해했다가 다시 조립해 보시는 것도 도움이 될 것 같습니다. 오래된 하드웨어에서는 카드/RAM을 슬롯에 다시 삽입하는 것이 좋습니다. 케이블을 분리했다가 다시 연결하면 도움이 될 수 있습니다. 모든 냉각 팬과 공기 흐름이 깨끗한지 확인하십시오. 전원 커넥터를 비틀어서 이상한 소리가 나지 않고 CPU/GPU 방열판이 단단히 고정되어 있는지 확인하세요. 잘못 설계된 전원 코드가 유사한 작업을 수행하고 무작위로 시스템을 중단시킨 적이 있습니다(그래서 지금은 적어도 하나의 브랜드를 사용하지 않습니다). 이 중 어느 것도 로켓 과학은 아니지만 몇 가지 문제를 해결할 수 있습니다.

노트북이라면...글쎄, 행운을 빕니다...문제가 발생하기 더 쉽습니다...낙하, 케이블 낙하로 인한 파손/파손 등이 발생하기 쉽습니다. 깨진 회로 기판은 실제로 쉽게 손상을 일으킬 수 있습니다. "무작위" 질문의 훌륭한 소스입니다. 통풍구가 깨끗하고 깨끗한 지 확인하십시오. 노트북이 표면보다 훨씬 위에 있어야 합니다. 그렇지 않으면 과열되어 정말 나쁜 일을 할 수 있지만 시작하는 동안 열로 인해 충돌이 발생하는 것을 정말로 원하지 않습니다.

관련 정보