대용량 파일에 대한 "다중" 스크립트 수정(파일 시스템 수준)이 필요합니까?

Question 1

디스크의 파일 구조는 사용되는 파일 시스템에 따라 다릅니다. 실제 파일 시스템에서는 귀하가 설명하는 것과 같은 연결 목록을 사용하지 않습니다( fseek(3)견딜 수 없는 일입니다). 이에 가장 가까운 것은 Microsoft의 것입니다.지방, 기본적으로 데이터 블록의 포인터를 배열로 이동하여 숨깁니다.

그러나 대부분의 파일 시스템은 파일의 데이터 블록에 대한 일부 포인터 기반 참조를 사용하므로 원칙적으로 전체 파일 내용이 아닌 소수의 포인터를 뒤섞고 블록을 표시하여 파일을 잘라낼 수 있습니다. 블록의 파일. 파일의 중간 부분은 무료입니다. 불행하게도 이것은 매우 유용한 작업이 아닙니다. 파일 블록은 상당히 크고(일반적으로 4KiB) 파일의 구조(라인 또는 기타 하위 구분)와 합리적으로 잘 정렬되는 경우는 거의 없습니다.

Answer

디스크의 파일 구조는 사용되는 파일 시스템에 따라 다릅니다. 실제 파일 시스템에서는 귀하가 설명하는 것과 같은 연결 목록을 사용하지 않습니다( fseek(3)견딜 수 없는 일입니다). 이에 가장 가까운 것은 Microsoft의 것입니다.지방, 기본적으로 데이터 블록의 포인터를 배열로 이동하여 숨깁니다.

그러나 대부분의 파일 시스템은 파일의 데이터 블록에 대한 일부 포인터 기반 참조를 사용하므로 원칙적으로 전체 파일 내용이 아닌 소수의 포인터를 뒤섞고 블록을 표시하여 파일을 잘라낼 수 있습니다. 블록의 파일. 파일의 중간 부분은 무료입니다. 불행하게도 이것은 매우 유용한 작업이 아닙니다. 파일 블록은 상당히 크고(일반적으로 4KiB) 파일의 구조(라인 또는 기타 하위 구분)와 합리적으로 잘 정렬되는 경우는 거의 없습니다.

Question 2

당신이 묘사하는 것은 매우 비슷해 보입니다.다시 하다텍스트 편집기다시 실행 목록변경되지 않은 원본 파일의 경우다시 실행 목록gvim나는 하나가 있다고 확신합니다.지속성 있는실행 취소/다시 실행 목록, 이를 활용(?)할 수 있으며, emacs그러한 목록이 확실히 있다는 것을 알고 있습니다. 스크립트를 통해 원하는 대로 수행하도록 동축할 수 있습니다 elisp.세션 간 Emacs 실행 취소 기록 저장.

그런데, 이렇게 큰 파일이 있으면 다음과 같은 불필요한 작업을 모두 끄는 것이 좋습니다.자동 저장,구문 강조(천천히 해큰emacs 파일) 등, 32비트 시스템의 emacs는 256MB입니다.파일 크기 제한.

제안한 것만큼 간결하지는 않지만 많은 변경 없이는 유용할 수 있습니다.

Answer

당신이 묘사하는 것은 매우 비슷해 보입니다.다시 하다텍스트 편집기다시 실행 목록변경되지 않은 원본 파일의 경우다시 실행 목록gvim나는 하나가 있다고 확신합니다.지속성 있는실행 취소/다시 실행 목록, 이를 활용(?)할 수 있으며, emacs그러한 목록이 확실히 있다는 것을 알고 있습니다. 스크립트를 통해 원하는 대로 수행하도록 동축할 수 있습니다 elisp.세션 간 Emacs 실행 취소 기록 저장.

그런데, 이렇게 큰 파일이 있으면 다음과 같은 불필요한 작업을 모두 끄는 것이 좋습니다.자동 저장,구문 강조(천천히 해큰emacs 파일) 등, 32비트 시스템의 emacs는 256MB입니다.파일 크기 제한.

제안한 것만큼 간결하지는 않지만 많은 변경 없이는 유용할 수 있습니다.

Question 3

일반적으로 전체 파일을 메모리에 넣지 않으면 파일을 내부에서 편집할 수 없습니다. 나는 당신이 정말로 원하는 것은 특정 줄이 없는 이전 파일의 복사본인 새 파일을 갖는 것이라고 가정합니다. 이는 유닉스 유틸리티를 사용하여 head쉽게 수행할 수 있습니다 tail. 예를 들어, 파일에서 5, 12, 52행을 제외한 모든 내용을 복사하려면 다음을 수행합니다.

head -n 4 bigfile.dat > tempfile.dat
tail -n +6 bigfile.dat | head -n 6 >> tempfile.dat 
tail -n +13 bigfile.dat | head -n 39 >> tempfile.dat 
tail -n 53 bigfile.dat >> tempfile.dat

이러한 유틸리티에 대해 잘 모르신다면 더 자세히 설명하겠습니다.

이 head유틸리티는 파일의 처음 n줄을 인쇄합니다. 위치 인수가 제공되지 않으면 표준 입력을 파일로 사용합니다. 이 -n플래그는 인쇄할 라인 수를 헤드에 알려줍니다. 따라서 head -n 2표준 입력의 처음 두 줄만 인쇄됩니다.

이 tail유틸리티는 파일의 마지막 n줄을 인쇄합니다. head와 마찬가지로 파일이나 표준 입력에서 읽을 수 있습니다. -n 플래그는 tail 끝부터 인쇄할 줄 수를 알려줍니다. 숫자 앞에 더하기 기호를 추가하여 tail이 처음부터 많은 줄을 파일 끝부터 인쇄하도록 할 수도 있습니다. 예를 들어 tail -n 2표준 입력의 마지막 두 줄을 인쇄합니다. 그러나 tail -n +22행부터 시작하는 모든 행이 인쇄됩니다(1행은 생략됨).

따라서 일반적으로 파일에서 [x, y) 범위의 행을 인쇄하려면 다음을 수행하십시오.

`tail -n +x | head -n d`

여기서 d = y - x입니다. 이 명령은 새 파일을 생성합니다. 원하는 경우 오래된 파일을 삭제할 수 있습니다. 이것의 장점은 한 번에 한 행만 메모리에 유지하면 되므로 RAM이 매우 빨리 채워지지 않는다는 것입니다 head.tail

Answer