"rcu_sched가 CPU/작업 중단을 감지했습니다." - jiffies - ESXi Ubuntu 16 FileServer Guest

"rcu_sched가 CPU/작업 중단을 감지했습니다." - jiffies - ESXi Ubuntu 16 FileServer Guest

파일 서버 역할을 하는 ESXi 호스트에 매우 간단한 Ubuntu 16 x64 VM 설정이 있습니다. NFS/SMB 및 MDADM이 설치되어 있습니다. 완전히 업데이트되었습니다.

“rcu_sched detected stalls on CPUs지난 주에는 오류 와 지피 부족 으로 인해 두 번 중단되었습니다 .

이번에 스크린샷을 찍었는데 ESXi가 VM 종료에 실패하고 재부팅 후 MDADM 어레이가 재구축되는 사태가 너무 심했습니다. 이로 인해 내 하드 드라이브에 불필요한 손상이 발생할까 걱정됩니다. 문제가 무엇인지 알고 싶습니다. 가상 머신은 1vCPU 및 4vThreads(6GB RAM)를 포함하여 많은 추가 리소스를 얻습니다.

어떤 아이디어가 있나요? 이제 가상 머신이 백업되어 실행 중이므로 필요한 정보를 디버깅할 수 있습니다. RHEL 기반 배포판으로 마이그레이션하는 것을 고려하고 있지만 다른 Linux OS에서 재구축할 때 발생하는 문제를 파악하고 싶습니다.

여기에 이미지 설명을 입력하세요.

추신: 저는 기본 사용자이고 제가 기억하는 한 집중적인 읽기/쓰기 작업을 수행하지 않았습니다.

답변1

너무 오래;약 일주일 후 과열/부적절한 방열판/팬 배치로 인해 CPU 코어가 손실되었습니다.

  • ESXi를 사용하는 경우 다른 OS를 부팅하고 온도를 확인하거나 CPU 쿨러 재설치를 고려합니다.

  • 이 게시물의 조회수는 매우 높았으며 이 문제가 발생했을 때 Google에서는 나에게 거의 정보를 제공하지 않았습니다. 댓글이나 답변을 통해 여러분의 경험을 공유해주세요!

타임라인:

  • Jiffies에 관한 오류가 발생합니다.
  • 전원 버튼을 사용하여 다시 시작해야 함
  • MDADM 배열 재구축 --> 성공했습니다.
  • 다음날 또 다른 오류가 발생했습니다.
  • 다시 시작/재구축에 성공했습니다.
  • 또 다른 실수!
  • 새 운영 체제로 가상 머신을 다시 빌드합니다.
  • 일주일 정도 안정됨
  • CPU 싱글코어가 죽었습니다!

ESXi에 대한 추가 연구에 따르면 ESXi는 내가 가지고 있지 않은 고급 하드웨어를 추가하지 않으면 장치 온도를 수집하지 않는 것으로 나타났습니다(아마도 하드웨어 호환성 목록에 있는 컴퓨터를 사용하지 않기 때문일 것입니다).https://communities.vmware.com/thread/547244). ESXi가 내 CPU를 제한할 수 있습니다. 이제 일반적인 방법을 통해 모든 장치 온도를 확인하고 그에 따라 반응하는 KVM을 사용합니다. 뿐만 아니라 하이퍼바이저가 이제 파일 서버이기도 하므로 RW 속도가 크게 향상되었습니다. 반면 이전에는 ESXi가 SMB/NFS/MDADM 등을 지원하지 않기 때문에 파일 서버 VM에 디스크를 전달해야 했습니다. 내 클라이언트가 하이퍼바이저/파일 서버와 직접 통신하고 있으므로 RW 속도가 약 2~3배 빨라졌습니다.

관련 정보