배경
나는 몇 년 동안 Xeon 워크스테이션에 정지 문제를 겪고 있습니다. 여러 가지 작업에서 매우 빠른 속도를 제공하지만 때로는 뚜렷한 이유 없이 앱과 데스크톱조차 정지되는 경우가 있습니다.
작년에 상황이 너무 나빠서 전체 워크스테이션을 새 하드웨어로 교체했지만 새 컴퓨터에서도 문제가 지속됩니다. 둘 다 동일한 RHEL6 부팅 이미지에서 설치되었습니다. 둘 다 괜찮은 CPU, 넉넉한 메모리, 회사의 네트워크 gig-e 스위치에 대한 직접 연결 기능을 갖추고 있습니다. 원래 기계에는 SSD가 있었지만 새 기계는 회전하는 녹 덩어리입니다. 원래 머신에서는 잠깐 RHEL7로 전환도 해보았지만 성능은 똑같았고, 사용성 측면에서 Gnome 3가 한발 뒤떨어진 것 같아 RHEL6을 다시 설치했습니다.
내 워크스테이션에 대한 루트 액세스 권한은 없지만 다음을 통해 다른 소프트웨어를 사용할 수 있습니다.기준 치수.
문제가 어떻게 나타나는지
문제는 Eclipse 개발 환경을 실행할 때 가장 심각하며 재현하기 쉽습니다. 일반적으로 파일을 저장하거나 eGit을 통해 변경 사항을 커밋하면 전체 Eclipse가 10~30초 동안 응답을 중지하게 됩니다. 이런 일이 발생하면 제목 표시줄을 두 번 클릭하여 창을 복원하고 최대화한 다음 작업을 계속하기 전에 창이 다시 그려질 때까지 기다립니다.
저는 시너지를 사용하여 Linux 워크스테이션 키보드와 마우스를 Windows 노트북과 공유합니다. 때때로 전체 데스크탑이 정지되고 마우스 포인터가 워크스테이션으로 다시 튕겨져 워크스테이션이 녹을 때까지 랩탑을 제어할 수 없게 됩니다.
또한 Firefox에 정지 문제가 있다는 사실도 발견했습니다. 30초마다 10초 동안 정지되어 실망스러웠으며 정지 중에는 스크롤하거나 탭을 전환할 수 없었습니다. 이제는 가끔씩만 발생합니다(이 글을 쓰는 동안 한 번).
다른 것만큼 흔하지는 않지만 bash 명령줄에서도 문제를 발견했습니다. 아무 명령도 실행하지 않고 Enter 키만 누르면 후속 프롬프트가 나타날 때까지 10~30초 정도 걸릴 수 있습니다.
내가 지금까지 시도한 것
애플리케이션이 정지되는 동안 CPU 및 IO 사용량을 모니터링했는데 사용량이 최소한인 것 같았습니다. 분명히 전체 데스크탑이 정지되면 top
시스템 모니터 및 명령줄과 같은 모니터링 도구도 정지되어 당시 무슨 일이 일어나고 있는지 확인하기 어렵습니다.
Eclipse 애플리케이션을 로컬 디스크로 이동하고 ~/.eclipse
로컬 디스크의 디렉토리에 심볼릭 링크를 시도했지만 큰 차이는 없었습니다. 이 문제는 Eclipse 작업공간이 로컬 드라이브에 있든 공유 중 하나에 있든 상관없이 발생합니다 nfs
.
네트워크 파일 액세스를 최소화하기 위해 Eclipse에서 파일 액세스 추적을 시도했지만 특정 문제는 나타나지 않았습니다.
그러나 하위 프로세스를 포함하도록 조정하면 strace
프로세스가 정지될 때마다 다음과 같은 형식으로 많은 메시지가 표시됩니다.
[pid 13513] --- SIGSEGV {si_signo=SIGSEGV, si_code=SEGV_ACCERR, si_addr=0x7fe7db165000} ---
하지만 이러한 액세스 오류를 더 자세히 조사하는 방법은 잘 모르겠습니다.
처음부터 새로운 Firefox 프로필을 만들어 사용해 보았지만 별 차이가 없었습니다. 네트워크의 다른 컴퓨터에서 작업하는 동안 Firefox 프로필에 액세스할 수 있어야 하기 때문에 내 Firefox 프로필을 로컬 디스크로 이동할 수 없습니다. 다른 컴퓨터에는 개인용 워크스테이션에서 볼 수 있는 것과 같은 문제가 없는 것 같지만 한 번에 몇 시간 이상 사용하는 경우는 거의 없습니다.
파일 시스템(로컬 및 네트워크)에서 벤치마크를 실행해 보았지만 내가 찾은 도구는 전송 평균화에 초점을 맞춘 것 같았으며 이는 최악의 사례/지연 시간과 관련이 있을 수 있다고 의심되며 대부분의 전송 사실에 의해 평균화되는 것 같았습니다.예빠르게.
아래 질문에 대한 답변을 확인하세요.내 컴퓨터가 정지되는 원인이 무엇인지 어떻게 알 수 있나요?로컬 파일 시스템이 ext4
(LVM에) 있고 네트워크 파일 시스템이 all 이며 nfs
내 컴퓨터가 LUKS를 사용하고 있지 않음을 확인할 수 있습니다.
보고 있다정지 원인을 파악하기 위해 컴퓨터를 정지시킬 수 있습니까?이 문제는 많은 커널 버전, Redhat 버전 및 Nvidia Quadro 드라이버에서 지속된다는 점을 상기시켜 줍니다.
내 의심
나는 항상 내 문제가 네트워크와 관련된 것이라고 의심해 왔습니다. 하지만 어떻게 조사하는 것이 최선인지 잘 모르겠습니다.
어떤 이유로든 네트워크 연결이 끊어지면 네트워크가 다시 연결될 때까지 전체 시스템이 정지된다는 것을 알고 있습니다. 이전에는 이런 일이 발생하는 것을 본 적이 없지만 우리 시스템은 홈 디렉토리와 응용 프로그램 서버 공유가 항상 사용 가능하고 응답성이 있다고 가정하는 것 같습니다.
내 질문
내 컴퓨터가 왜 이렇게 작동하는지 알아내려면 무엇을 찾아야 합니까?
이러한 성능 문제를 추적하기 위해 어떤 RHEL 도구를 사용할 수 있습니까? 루트 액세스 없이 이러한 도구를 사용할 수 있습니까?