컴퓨팅 클러스터의 전원이 꺼집니다. 파일 시스템을 더 이상 사용할 수 없습니다. 가능한 이유는?

컴퓨팅 클러스터의 전원이 꺼집니다. 파일 시스템을 더 이상 사용할 수 없습니다. 가능한 이유는?

우선, 저는 시스템 관리자가 아니고 단지 사용자일 뿐입니다. 우리 IT 부서는 직원 이직률이 높으며 기존 직원은 HPC 시스템을 이해하지 못해 현재 지원을 제공할 수 없습니다.

즉, 저는 CentOS Linux 7에서 실행되는 고성능 컴퓨팅 클러스터를 사용하고 있습니다. 우리 클러스터는 최근 폭풍으로 인해 전력이 끊겼습니다.앞으로전원이 꺼진 상태에서 df 명령은 다음 출력을 제공합니다.

Filesystem                 1K-blocks         Used   Available Use% Mounted on
/dev/md4                   723772952     48291720   675481232   7% /
devtmpfs                    32828496            0    32828496   0% /dev
tmpfs                       32844812            4    32844808   1% /dev/shm
tmpfs                       32844812      1010484    31834328   4% /run
tmpfs                       32844812            0    32844812   0% /sys/fs/cgroup
/dev/md3                    31425544      4035716    27389828  13% /var
/dev/md2                     8370176        33068     8337108   1% /tmp
/dev/md123                    507684       149533      331940  32% /boot
182.22.0.47:/pool0/data  57316467200          256 57316466944   1% /data
182.22.0.47:/pool0/home 172707177472 115390709760 57316467712  67% /home
tmpfs                        6568964           12     6568952   1% /run/user/42
tmpfs                        6568964            0     6568964   0% /run/user/1003

모든 사용자의 홈 디렉토리는 파일 시스템 182.22.0.47:/pool0/home에 있습니다. 그러나 전원이 꺼졌다가 복구된 후 df 명령을 실행해 보니 다음과 같은 결과가 나왔습니다.

Filesystem                 1K-blocks         Used   Available Use% Mounted on
/dev/md4                   723772952     48291720   675481232   7% /
devtmpfs                    32828496            0    32828496   0% /dev
tmpfs                       32844812            4    32844808   1% /dev/shm
tmpfs                       32844812      1010484    31834328   4% /run
tmpfs                       32844812            0    32844812   0% /sys/fs/cgroup
/dev/md3                    31425544      4035716    27389828  13% /var
/dev/md2                     8370176        33068     8337108   1% /tmp
/dev/md123                    507684       149533      331940  32% /boot
tmpfs                        6568964           12     6568952   1% /run/user/42
tmpfs                        6568964            0     6568964   0% /run/user/1003

IP 주소 182.22.0.47로 시작하는 파일 시스템이 없다는 점을 제외하면 출력은 동일합니다.

나는 다음 질문을 알아내려고 노력 중입니다. 왜 이 파일 시스템이 더 이상 마운트되지 않습니까? 처음에는 노드 182.22.0.47에 전원이 전혀 공급되지 않는 것으로 생각했습니다. 그러나 문제 없이 이 노드에 SSH를 통해 연결할 수 있습니다. 그러나 이 작업을 수행한 후에는 사용자의 홈 디렉터리를 찾을 수 없습니다. 또한 디스크 용량(~450GB)은 첫 번째 df 출력에 제공된 원래 용량(~161TB)보다 훨씬 낮습니다.

가능하다면 더 많은 정보를 제공해 드리겠습니다. 앞서 언급했듯이 저는 시스템 관리자가 아닌 사용자일 뿐이므로 시도할 수 있는 작업이 제한되어 있습니다. 시간 내 주셔서 감사합니다.

편집하다: 댓글에 답변을 드리자면 잘 모르겠습니다. 명확히 할 수 있습니까? 물론 이것은 내 조타실에 없습니다.

그러나 질문을 게시한 이후 원격 노드에 실제로 200TB가 넘는 마운트되지 않은 스토리지(누락된 데이터가 포함될 수 있음)가 있을 수 있다는 사실을 발견했습니다. 나는 다음과 같은 출력을 생성하는 lsblk 명령을 통해 이것을 발견했습니다.

    NAME        MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINT
    sda           8:0    0 745.2G  0 disk  
    ├─sda1        8:1    0 745.2G  0 part  
    └─sda9        8:9    0     8M  0 part  
    sdb           8:16   0  93.2G  0 disk  
    ├─sdb1        8:17   0  93.2G  0 part  
    └─sdb9        8:25   0     8M  0 part  
    sdc           8:32   0  93.2G  0 disk  
    ├─sdc1        8:33   0  93.2G  0 part  
    └─sdc9        8:41   0     8M  0 part  
    sdd           8:48   0 745.2G  0 disk  
    ├─sdd1        8:49   0 745.2G  0 part  
    └─sdd9        8:57   0     8M  0 part  
    sde           8:64   0 447.1G  0 disk  
    └─md126       9:126  0 424.8G  0 raid1 
      ├─md126p1 259:0    0   500M  0 md    /boot
      ├─md126p2 259:1    0   3.9G  0 md    [SWAP]
      └─md126p3 259:2    0 420.4G  0 md    /
    sdf           8:80   0   5.5T  0 disk  
    ├─sdf1        8:81   0   5.5T  0 part  
    └─sdf9        8:89   0    64M  0 part  
    sdg           8:96   0   5.5T  0 disk  
                       .
                       .
                       .

확실하지는 않지만 문제는 파일 시스템을 마운트 해제하는 것뿐입니다.

관련 정보