스토리지 매핑을 위한 대규모 메타데이터 테이블 생성

스토리지 매핑을 위한 대규모 메타데이터 테이블 생성

이미 꽤 큰 저장공간을 어떻게 관리해야 할지 고민 중이에요. 불필요한 파일을 검토한 후 보관/삭제하는 것이 아이디어입니다.

현재는 `du -h max-length 1을 수행하고 출력을 텍스트 파일로 파이프합니다.

하지만 현재 저장소를 보관/삭제하는 방법을 알아볼 수 있도록 더 많은 정보를 원합니다.

---모든 파일의 파일 형식과 크기를 재귀적으로 가져오는 가장 좋은 방법은 무엇입니까? 이것은 쓸모없는 중간 파일을 확인하는 빠른 방법입니다.

---모든 파일 메타데이터(예: 데이터 사용자, 파일 유형, 파일 크기, 타임스탬프)를 큰 tsv 파일로 출력하여 크기와 파일 유형을 기반으로 Python/R에서 구문 분석할 수 있도록 생각 중입니다. 하위 설정을 수행합니다. 가능합니까? 우리는 이 정보를 어떻게 얻나요?

---스토리지 대 시간을 확인할 수 있는 방법이 있습니까?

---현재 저장된 데이터를 구성/보관/삭제하는 방법을 알아내는 데 도움이 될 수 있는 다른 진단/시각화 기능이 있습니까?

답변1

코멘트를 하기에는 너무 길지만 답변을 하기에는 충분하지 않습니다. 미안합니다.

---모든 파일의 파일 형식과 크기를 재귀적으로 가져오는 가장 좋은 방법은 무엇입니까? 이것은 쓸모없는 중간 파일을 확인하는 빠른 방법입니다.

"가장 좋은" 부분은 확실하지 않지만 먼저 Google에서 "고급 디스크 사용 Linux"를 검색하면이것.

---모든 파일 메타데이터(예: 데이터 사용자, 파일 유형, 파일 크기, 타임스탬프)를 큰 tsv 파일로 출력하여 크기와 파일 유형을 기반으로 Python/R에서 구문 분석할 수 있도록 생각 중입니다. 하위 설정을 수행합니다. 가능합니까? 우리는 이 정보를 어떻게 얻나요?

물론 Python의 경우 os.walk()재귀 디렉터리를 사용하고 각 파일에 대한 모든 관련 정보를 인쇄하면 됩니다. 아마도 TSV 대신 SQLite를 출력 형식으로 사용할 것입니다.

---스토리지 대 시간을 확인할 수 있는 방법이 있습니까?

du -s정기적으로 실행하고 결과를 RRD 데이터베이스에 제공할 수 있습니다. 그러면 아름다운 차트를 만들 수 있습니다.

---현재 저장된 데이터를 구성/보관/삭제하는 방법을 알아내는 데 도움이 될 수 있는 다른 진단/시각화 기능이 있습니까?

있어야 하지만 귀하의 특별한 경우에는 그다지 유용할 것 같지 않습니다.

관련 정보