large-files

GNU를 사용하여 매우 긴 줄을 병렬로 처리하기
large-files

GNU를 사용하여 매우 긴 줄을 병렬로 처리하기

데이터베이스에 다시 로드하기 전에 편집(일부 찾기/바꾸기)해야 하는 매우 큰 SQL 덤프 파일(30GB)이 있습니다. 파일 크기가 클 뿐만 아니라 매우 긴 줄도 포함되어 있습니다. 처음 40개 행과 마지막 12개 행을 제외하고 다른 모든 행의 길이는 약 1MB입니다. 다음 줄은 모두 INSERTO INTO 명령이며 모두 비슷해 보입니다. cat bigdumpfile.sql | cut -c-100 INSERT INTO `table1` VALUES (951068,1407592,0.0267,0.0509,0...

Admin

EXT4 매우 큰(>1GB) 파일의 경우: 블록 크기를 늘리거나, 블록 클러스터를 사용하거나, 아니면 둘 다 사용하시겠습니까?
large-files

EXT4 매우 큰(>1GB) 파일의 경우: 블록 크기를 늘리거나, 블록 클러스터를 사용하거나, 아니면 둘 다 사용하시겠습니까?

12TB HDD(SSD 아님)를 포맷하고 싶습니다.EXT4 사용, 대용량 비디오 파일(각각 최소 1GiB)을 저장합니다. 저는 x86-64(즉, x64 또는 amd64) 프로세서를 사용하고 있습니다. 물론 -T largefile4옵션 이지만 mkfs.ext4다른 최적화가 가능합니까? 나는 특히 다음 사항을 알고 싶습니다. 블록 크기를 최대(64K, -b 65536)까지 늘려야 합니까? 아니면 사용해야합니까?블록 클러스터, 클러스터 크기를 최대값(256M, -C 268 435 456) 으로 설정합니다...

Admin

클러스터에서 스토리지 서버로 매우 큰 데이터 세트 전송
large-files

클러스터에서 스토리지 서버로 매우 큰 데이터 세트 전송

우리는 매우 큰 데이터 세트(페타바이트 단위로 측정)를 HPC 클러스터에서 스토리지 서버로 이동해야 했습니다. 우리는 장치 간 대용량 통신 링크를 보유하고 있습니다. 그러나 병목 현상은 개별 파일을 병렬화할 수 있는 빠른 전송 도구인 것 같습니다(각 개별 파일의 크기가 테라바이트이므로). 이런 점에서 저는 관리자 권한이 필요하지 않고 scp나 rsync보다 훨씬 빠른 도구를 찾고 있습니다. 관리자 권한 없이 로컬에 설치할 수 있는 도구가 있다면 그것도 유용할 것입니다. 나는이 링크를 발견했습니다 (두...

Admin

모든 명령이 중단되는 거대한 디렉토리를 제거하십시오.
large-files

모든 명령이 중단되는 거대한 디렉토리를 제거하십시오.

이렇게 큰 디렉토리를 삭제하는 방법은 무엇입니까? stat session/ File: ‘session/’ Size: 321540096 Blocks: 628040 IO Block: 4096 directory Device: 903h/2307d Inode: 11149319 Links: 2 Access: (0755/drwxr-xr-x) Uid: ( 0/ root) Gid: ( 0/ root) Access: 2022-09-29 14:34:4...

Admin

rsync --append는 복사된 데이터를 모두 읽지 않고도 중단된 복사 프로세스를 재개할 수 있습니까?
large-files

rsync --append는 복사된 데이터를 모두 읽지 않고도 중단된 복사 프로세스를 재개할 수 있습니까?

동일한 컴퓨터의 한 외장 드라이브에서 다른 외장 드라이브로 매우 큰 파일(3TB)을 복사해야 합니다. 대역폭이 낮기 때문에 며칠이 걸릴 수 있습니다. 그래서 복제를 중단하고 재부팅 후 재개해야 하는 경우에 대비하고 싶습니다. ~에서내가 뭘 읽은 거야?나는 사용할 수 있다 rsync --append 이를 위해(rsync 버전 > 3). 깃발에 관한 두 가지 질문 --append: 나는 rsync --append사용한다모두옮기다? (처음으로 전화해 보세요.아니요대상 드라이브에 중단된 복사본이 ...

Admin

처음 실행 시 cp가 rsync보다 빠르나요?
large-files

처음 실행 시 cp가 rsync보다 빠르나요?

저는 현재 이를 사용하여 rsync삼성 휴대용 SSD T7에서 HPC 클러스터로 73GB 파일을 복사하고 있습니다. rsync -avh path/to/dataset [email protected]:/path/to/dest 다음이 적용됩니다: 내 로컬 컴퓨터(T7이 연결된)는 Ubuntu 20을 실행하는 VirtualBox VM입니다. T7 전송 속도는 최대 약 2.5km여야 합니다. 1000MB/초 네트워크는 약 7.9Mbps의 업로드 속도를 제공했습니다. 이에 따르면 Rsync 전송 속...

Admin

대용량 파일과 진행정보를 비교하는 방법
large-files

대용량 파일과 진행정보를 비교하는 방법

Unix 명령줄 컨텍스트에서 두 개의 매우 큰 파일(각각 약 1TB)을 가급적이면 진행 표시기를 사용하여 비교하고 싶습니다. diff시도해 보았는데 cmp둘 다 시스템(macOS Mojave)을 충돌시키고 진행률 표시줄을 표시합니다. 이렇게 대용량 파일을 비교하는 가장 좋은 방법은 무엇입니까? 추가 세부 사항: 나는 단지 그들이 같은지 확인하고 싶습니다. cmp시스템이 자체적으로 재부팅되는 방식으로 시스템을 충돌시킵니다. :-( 어쩌면 시스템의 메모리가 부족할까요? ...

Admin

"안전한" 방식으로 큰 행 파일에서 less를 사용하는 방법은 무엇입니까?
large-files

"안전한" 방식으로 큰 행 파일에서 less를 사용하는 방법은 무엇입니까?

나는 약 4Gigs의 비교적 큰 파일, 축소된 json 파일을 가지고 있습니다. 파일이 크지는 않지만... 한 줄 파일이기 때문에 많은 프로그램이 중단됩니다. 파일을 연 후 바로 누르기 less만 하면 제대로 작동하고 다음과 같은 메시지가 표시되는 것을 확인했습니다 .ctrl-c 줄 번호가 꺼져 있습니다(RETURN 키를 누르세요). 그러나 내가 사용하려고 하는 많은 명령은 검색( /), 파일의 "끝"으로 이동( G) 및 기타 여러 명령과 같이 프로그램을 정지시킵니다. less큰 한 줄 파일로 작...

Admin

100개 행 중 99개 행 건너뛰기
large-files

100개 행 중 99개 행 건너뛰기

많은 로그 텍스트 출력을 생성하는 bash 명령 파이프라인이 있습니다. 그러나 대부분의 경우 이전 행을 반복하므로 기본 출력 데이터는 타임스탬프와 일부 사소한 플래그를 제외하고 몇 시간에 한 번만 변경됩니다. 향후 처리/연구를 위해 이 출력을 텍스트 파일로 저장해야 합니다. 각 X의 첫 번째 줄만 인쇄하려면 무엇으로 파이프해야 합니까? ...

Admin

특정 텍스트가 포함된 중복 줄 제거
large-files

특정 텍스트가 포함된 중복 줄 제거

백만 줄이 포함된 큰 텍스트 파일이 있습니다. 내 특정 텍스트와 일치하는 동일한 줄을 찾고 첫 번째 항목을 그대로 유지하고 싶습니다. 어떤 아이디어가 있나요? 따라서 알고리즘은 대략 다음과 같아야 합니다. For all lines in text file Find duplicate lines If duplicated line contains our text Remove all these lines except the first one 예를 들어, "Word"라는 텍스트의 중복된 ...

Admin

대용량 파일을 덩어리로 나누고 원본 파일을 삭제하시겠습니까?
large-files

대용량 파일을 덩어리로 나누고 원본 파일을 삭제하시겠습니까?

대용량 텍스트 파일(30GB)을 처리하는 데 문제가 있습니다. 더 작은 파일(예: 5GB)을 만들고 싶습니다. 하지만 안타깝게도 더 많은 저장 공간이 없습니다(최대 10G만 사용 가능). 이 줄은: split -b 5g "file.txt" "file.txt." 원본 파일을 유지한다는 것은 결국 총 60GB의 파일을 갖게 된다는 것을 의미합니다. 이는 실제로 내 컴퓨터에 남아 있는 것보다 더 많은 공간입니다. 원본 파일을 유지하지 않고 동일한 기능으로 코드를 실행하려면 어떻게 해야 합니까? ...

Admin

Unison이 대용량 파일을 동기화하는 것을 방지하는 방법은 무엇입니까?
large-files

Unison이 대용량 파일을 동기화하는 것을 방지하는 방법은 무엇입니까?

나는 사용하고있다Unison 파일 동기화 소프트웨어구성이 특정 정규식이나 이름을 가진 동기화 파일을 무시한다는 것을 알고 있습니다. 하지만 대용량 파일(예: 10MB 이상)의 동기화를 방지하는 방법이 있습니까? ignore = Name *.swp ignore = Path */env ignore = Path */build 집 인터넷 연결이 느리고 대용량 파일을 동기화하고 싶지 않습니다. ...

Admin

알려진 두 문자열 사이의 Grep 콘텐츠
large-files

알려진 두 문자열 사이의 Grep 콘텐츠

압축된 대용량 로그 파일이 있고 관심 있는 일부 텍스트에 어떤 줄 번호가 사용되는지 식별할 수 있습니다. find . -name "*" -exec zgrep -C 1 -n -i -H TextToFind {} \; 하지만 두 번째 명령에서는 관심 있는 줄 번호가 포함된 알려진 두 값 사이의 완전한 메시지를 찾고 싶습니다. 내가 원하는 텍스트는 열기 및 닫기 "실행" 사이와 파일에 있지만 특정 줄 번호가 포함된 열기 및 닫기 실행 블록만 반환되기를 원합니다. 예를 들어 여러 텍스트 문자열이 포함된...

Admin

Arch(호스트)와 Android 사이에 공유 폴더를 원합니다
large-files

Arch(호스트)와 Android 사이에 공유 폴더를 원합니다

완전히 오프라인 음악이 포함된 거의 10GB의 음악 폴더가 있습니다. 휴대전화에 저장해서 가지고 다니고 싶어요. 가장 쉬운 대답은 휴대폰과 PC 간에 파일을 전송하는 것입니다. 하지만 PC에 새로 추가되고 삭제된 음악을 따라잡을 수 없습니다. 가장 좋은 아이디어는 VSFTPD를 사용하고 휴대폰에 클라이언트를 설치하고 동기화하는 방법을 알아내는 것이지만 더 쉬운 방법이 있을 수 있다고 생각합니다. 감사합니다! Dropbox, Google Drive는 용량 문제로 불가능합니다. 어쨌든 Google 드...

Admin