split

표준 출력을 여러 테이프에 보관
split

표준 출력을 여러 테이프에 보관

24시간마다 하나씩 stdout에 동적으로 생성되는 대용량 파일이 있습니다. 이러한 파일을 테이프에 점진적으로 보관하고 싶습니다. 가급적이면 여러 테이프에 걸쳐 있을 수 있는 단일 아카이브에 보관하고 싶습니다. Tar는 아카이브에 추가하고 다음 테이프를 로드하는 기능이 내장되어 있으므로 테이프 관리에 적합합니다. 그러나 표준 입력에서 데이터를 받아들이는 데는 매우 열악합니다. 내가 무엇을 하든 결국 아카이브의 내용 대신 특수 파일(링크 또는 명명된 파이프)이 아카이브에 기록됩니다. 다음은 제가 시도한...

Admin

패턴 일치를 통해 파일을 특정 출력 파일 이름으로 분할
split

패턴 일치를 통해 파일을 특정 출력 파일 이름으로 분할

다음 내용이 포함된 파일이 있습니다. # new file text in file 1 # new file text in file 2 # new file text in file 3 여기서의 패턴은 입니다 # new file. 각 파일을 xx00, xx01 및 xx02에 저장하는 대신 특정 파일인 , , 에 another file저장 file new했습니다 last one. 이 3개의 파일이 현재 디렉터리에 존재하므로 이를 배열로 제공하여 덮어쓰고 싶습니다. csplit -z infile '/# new ...

Admin

csplit은 필요하지 않은 경우 전체 라인을 메모리로 읽습니까?
split

csplit은 필요하지 않은 경우 전체 라인을 메모리로 읽습니까?

100GB 파일이 있고 이를 여러 부분으로 분할하고 각 부분을 고정된 마커로 구분하려고 한다고 가정해 보겠습니다. 마커는 약 20자로 구성된 고정 문자열이므로 일치시킬 정규식은 /MARKER/입니다. 복잡도가 낮은 정규식을 고려하여 다음을 실행하면 csplit file /MARKER/ 나는 csplit이 메모리 공간을 낮게 유지하기 위해 파일의 작은 덩어리만 읽기를 원합니다. 정말 이렇게 되나요? 아니면 전체 파일을 메모리로 읽은 다음 메모리의 전체 내용을 처리합니까? ...

Admin

"분할" 속도를 늦추세요
split

"분할" 속도를 늦추세요

"" 구분 기호가 있는 텍스트 파일로 연결된 매우 작은 파일로 구성된 매우 큰 아카이브가 있습니다. 더 작은 아카이브의 경우 split ""를 패턴으로 사용하여 아카이브한 다음 결과 파일을 처리합니다. 그러나 이 아카이브에는 약 1억 개의 파일이 있습니다. 하나의 디렉토리에 모두 담기에는 너무 많은 것 같습니다. 생성된 디렉터리로 폴더 등을 이동해 보기 위해 폴더 등을 생성했습니다 aa. ab그러나 문제가 발생했습니다. 내가 시도한 것들: split결과 파일에 대해 명령을 수행 하는 명령이 없습니다...

Admin

특수 문자까지 파일을 읽고 해당 부분을 다른 파일에 복사한 후 eof까지 계속합니다.
split

특수 문자까지 파일을 읽고 해당 부분을 다른 파일에 복사한 후 eof까지 계속합니다.

Linux에서 파일을 읽으려고 하는데 "&" 문자가 나타나면 출력을 다른 파일에 쓰고 해당 파일을 다른 폴더로 보낸 다음 다음 "&"가 나올 때까지 원본 파일을 계속 읽습니다. XML 파일 입력 - <Document> <tag1> <tag2> </Document> & <Document> <tag3> <tag4> </Document> & <Document> <tag5>...

Admin

대용량 파일을 분할하기 위해 바이트를 직접 분할하는 것이 안전합니까?
split

대용량 파일을 분할하기 위해 바이트를 직접 분할하는 것이 안전합니까?

내 경우 큰 파일은 myBigFile.tar.gz크기가 52GB인 tar.gz였으며 이를 2GB 크기의 청크로 분할하여 27개의 부분 파일을 갖게 되었습니다. 제가 처음부터 작성한 코드는 다음과 같습니다. from time import sleep from glob import glob import filecmp import os CHUNK_SIZE = 2097152000 # bytes # CHUNK_SIZE = 1000000 # bytes # CHUNK_SIZE = 2 # bytes ORIG...

Admin

바이너리 파일을 크기별로 분할하는 최신 기술은 무엇입니까?
split

바이너리 파일을 크기별로 분할하는 최신 기술은 무엇입니까?

건너뛸 수 있는 일부 배경 약 20년 전, 웹 검색 비용이 많이 들었을 때, Windows 전용 사용자였을 때, CD/DVD가 대용량 저장 수단이었고, 친구나 친척과 비디오 파일을 공유할 때 파일을 여러 개로 복사하려면 분할이 필요할 때도 있었습니다. CD/DVD를 다른 컴퓨터에 복사한 다음 클립을 다시 결합하는 데 사용했습니다.HJ 스플릿. 매력처럼 작동합니다. 동기 부여 scp20년이 지난 지금 저는 최근 Linux에서 이러한 유틸리티가 필요하다는 사실을 깨달았습니다. 연결이 느리거나 신뢰할 수 ...

Admin

csplit을 사용하여 정규식을 기반으로 파일을 여러 파일로 분할
split

csplit을 사용하여 정규식을 기반으로 파일을 여러 파일로 분할

다음 예제의 내용이 포함된 텍스트 파일이 있는데 이 파일을 여러 파일로 분할하고 싶습니다. [TXT] /path/to/[TXT] [BAT] /path/to/[BAT] [TXT] /path/to/blah/[TXT] [BAT] /path/to/blah/[BAT] csplit그래서 나는 내가 달성하고 싶은 것을 적어도 부분적으로 달성하는 데 사용할 수 있다는 것을 발견했습니다 . csplit -f 'paths-' -b '%04d.txt' 'path/to/filelist.txt' '/^\[(...

Admin

분할된 파일을 원본 압축 파일과 병합
split

분할된 파일을 원본 압축 파일과 병합

Ubuntu 22.04에서 이 두 가지 방법으로 인해 archive_tgz sha256이 다른 것으로 나타났습니다. tar czf /a/archive_tgz . tar czf /dev/stdout . | split -d -b 200M - /a/archive. && cat /a/archive.* > /a/archive_tgz 이것이 정상입니까, 아니면 파일의 블록 크기와 관련이 있습니까? 차이점은 무엇입니까? ...

Admin

분할 및 고양이 조합을 사용할 때 최대 크기 제한은 얼마입니까?
split

분할 및 고양이 조합을 사용할 때 최대 크기 제한은 얼마입니까?

Ubuntu에서 zip 형식으로 파일을 백업했는데 크기는 6.5GB입니다. USB 스틱으로 전송하려고 하면 복사할 때 "파일 크기가 너무 큽니다"라는 오류가 발생하므로 분할해야 합니다. (이상적으로는 USB가 mac/ubuntu/windows 간에 이동하고 싶습니다.) 명령을 사용하여 split각각 1GB의 청크를 생성하고 성공적으로 스틱에 복사했습니다. 이제 결합된 파일을 다시 사용하려고 하면 cat x* >> backup.zip"파일 크기가 너무 큽니다."라는 오류가 표시됩니다. 어떤 ...

Admin

쓰는 동안 대용량 파일을 실시간으로 분할
split

쓰는 동안 대용량 파일을 실시간으로 분할

가능한 한 빨리 AWS S3에 업로드해야 하는 4개의 대용량 바이너리 파일(각각 400GB 이상)을 생성하는 프로그램이 있습니다. 파일이 완전히 작성되기 전에 업로드를 시작하고 싶습니다. 몇 가지 접근 방식을 시도하고 있으며 효과가 있을 것으로 생각되는 방법 중 하나는 를 사용하는 것입니다 split. 하지만 제 구현에는 개선의 여지가 많이 남아 있으므로 누구든지 알고 싶습니다. 더 적합한 기술이 있습니다. tail -f출력 파일을 파이핑 하면 split파일을 성공적으로 분할할 수 있지만 tail파일...

Admin

파일을 더 많은 파일로 분할한다는 것은 반드시 전체 콘텐츠의 일부/전체가 원래 위치에 있지 않음을 의미합니까?
split

파일을 더 많은 파일로 분할한다는 것은 반드시 전체 콘텐츠의 일부/전체가 원래 위치에 있지 않음을 의미합니까?

나는 특정 크기의 파일이 주어지면 모든 바이트가 디스크에서 연속되지는 않을 것이라고 추측합니다. (또는 그럴까요? "디스크 조각 모음"이라는 문구가 존재하기 때문에 그럴 것이라고 생각하지 않습니다). 그러나 적어도 애플리케이션 관점에서는 그렇습니다. 즉, head -c [-]n+를 사용하여 tail -c [-]n파일의 일부를 추출하여 연속된 바이트 시퀀스로 처리할 수 있습니다. 파일 길이가 10바이트이고 모두 동일한 바이트를 포함한다고 가정합니다. $ cat someFile AAAAAAAAAA so...

Admin

Mac에서 최신 coreutils를 사용하는 방법은 무엇입니까?
split

Mac에서 최신 coreutils를 사용하는 방법은 무엇입니까?

Mac에서 최신 coreutil을 얻는 방법은 무엇입니까? 다음을 사용하여 이 문제가 발생했습니다 csplit. foo.txt: foo 1 foo 2 foo 3 $: csplit foo '^foo$' '{*}' # error Mac에서는 manpage, 가 FreeBSD 버전이고 이 옵션을 제공하지 않는지 man csplit다시 확인하세요 . 사실 정확한 분할 수를 미리 알려줘야 해요. 그러면 다시 구현하게 되거나 Mac에 로그인 할 수 있습니다 .csplit'{*}'czplitGNU coreu...

Admin