대규모 데이터 세트를 병합하는 가장 빠른 방법

Question 1

내가 올바르게 이해했다면 모든 파일에서 하나의 (100GB 크기?) 파일을 만들고 싶습니다. 이 경우 고양이는 다음과 같이 할 수 있습니다.

cat foo1 foo2 bar1 bar2 > newfile

아니면 당신의 경우

cat folder1/* folder2/* > newfile

그러면 폴더1과 폴더2의 모든 파일이 가져와서 (텍스트로) 새 파일로 병합됩니다. cat은 파일을 끝에만 추가합니다(즉, 줄을 추가합니다).

그러나 이렇게 하면 이전 파일이 유지되므로 두 배의 공간이 필요하므로 개별적으로 처리할 수도 있습니다.

for f in folder1/* folder2/* ; do
    cat $f >> newfile && rm $f
done

이렇게 하면 모든 파일이 추가된 다음 제거됩니다.

이것이 당신이 찾고 있는 것입니까?

Answer

내가 올바르게 이해했다면 모든 파일에서 하나의 (100GB 크기?) 파일을 만들고 싶습니다. 이 경우 고양이는 다음과 같이 할 수 있습니다.

cat foo1 foo2 bar1 bar2 > newfile

아니면 당신의 경우

cat folder1/* folder2/* > newfile

그러면 폴더1과 폴더2의 모든 파일이 가져와서 (텍스트로) 새 파일로 병합됩니다. cat은 파일을 끝에만 추가합니다(즉, 줄을 추가합니다).

그러나 이렇게 하면 이전 파일이 유지되므로 두 배의 공간이 필요하므로 개별적으로 처리할 수도 있습니다.

for f in folder1/* folder2/* ; do
    cat $f >> newfile && rm $f
done

이렇게 하면 모든 파일이 추가된 다음 제거됩니다.

이것이 당신이 찾고 있는 것입니까?

Question 2

다음과 같이 시도해 보세요.

find /path/to/dir1 /path/to/dir2 -type f -name '*.csv' -exec cat {} + >/path/to/merged.csv

병합된 파일을 입력 디렉터리에 두지 않도록 하세요. :)

Answer

다음과 같이 시도해 보세요.

find /path/to/dir1 /path/to/dir2 -type f -name '*.csv' -exec cat {} + >/path/to/merged.csv

병합된 파일을 입력 디렉터리에 두지 않도록 하세요. :)

Question 3

모든 CSV 파일이 동일한 구조(헤더)를 갖고 레벨 2 하위 디렉터리에 배치되는 경우 32GB 또는 64GB 메모리로 사용할 수 있는 DuckDB를 사용하는 것이 좋습니다.

모든 파일을 가져오는 방법은 다음과 같습니다.

CREATE TABLE merge AS SELECT * from read_csv_auto('*/*/*.csv');

생성된 테이블을 빠르게 찾아보세요.

SUMMARIZE SELECT * from merge;

마지막으로 단일 csv 파일로 내보내기

COPY merge TO 'export.csv' (HEADER, DELIMITER ',');

Answer

모든 CSV 파일이 동일한 구조(헤더)를 갖고 레벨 2 하위 디렉터리에 배치되는 경우 32GB 또는 64GB 메모리로 사용할 수 있는 DuckDB를 사용하는 것이 좋습니다.

모든 파일을 가져오는 방법은 다음과 같습니다.

CREATE TABLE merge AS SELECT * from read_csv_auto('*/*/*.csv');

생성된 테이블을 빠르게 찾아보세요.

SUMMARIZE SELECT * from merge;

마지막으로 단일 csv 파일로 내보내기

COPY merge TO 'export.csv' (HEADER, DELIMITER ',');

관련 정보