특정 열만 비교하여 두 개의 CSV를 병합합니다.

특정 열만 비교하여 두 개의 CSV를 병합합니다.

두 개의 CSV 파일을 다음 형식으로 비교하고 싶습니다. 그들은 직함이 없습니다. 특정 열(이 경우 두 번째 열)을 기준으로 비교하고 싶습니다.

원본 CSV 파일은 약 4~5GB이므로 메모리에 로드할 수 없습니다.

old.csv에 일치하는 열이 없으면 각각의 새 행이 out.csv에 기록됩니다.

두 번째 열은 html 링크가 됩니다. 여기서는 단순화를 위해 한 단어만 사용합니다.

내 질문: sed, awk, Join 또는 grep을 사용하여 동일한 결과를 얻을 수 있습니까?

old.csv

"person"|"john"|"smith"
"person"|"anne"|"frank"
"person"|"bob"|"macdonald"
"fruit"|"orange"|"banana"
"fruit"|"strawberry"|"fields"
"fruit"|"ringring"|"banana"

새로운.csv

"person"|"john"|"smith"
"person"|"anne"|"frank"
"person"|"bob"|"macdonald"
"fruit"|"orange"|"banana"
"fruit"|"strawberry"|"fields"
"glider"|"person"|"airport"
"fruit"|"ringring"|"banana"
"glider"|"person2"|"airport"

diff.py

#!/usr/bin/env python3

"""
Source: https://gist.github.com/davidrleonard/4dbeebf749248a956e44
Usage: $ ./csv-difference.py -d new.csv -s old.csv -o out.csv -c 1
"""

import sys
import argparse
import csv

def main():
    parser = argparse.ArgumentParser(description='Output difference in CSVs.')
    parser.add_argument('-d', '--dataset', help='A CSV file of the full dataset', required=True)
    parser.add_argument('-s', '--subset', help='A CSV file that is a subset of the full dataset', required=True)
    parser.add_argument('-o', '--output', help='The CSV file we should write to (will be overwritten if it exists', required=True)
    parser.add_argument('-c', '--column', help='A number of the column to be compared (0 is column 1, 1 is column 2, etc.)', required=True, type=int)

    args = parser.parse_args()
    dataset_file = args.dataset
    subset_file = args.subset
    output_file = args.output
    column_num = args.column

    with open(dataset_file, 'r') as datafile, open(subset_file, 'r') as subsetfile, open(output_file, 'w') as outputfile:
        data = {row[column_num]: row for row in csv.reader(datafile, delimiter='|', quotechar='"')}
        subset = {row[column_num]: row for row in csv.reader(subsetfile, delimiter='|', quotechar='"')}

        data_keys = set(data.keys())
        subset_keys = set(subset.keys())
        output_keys = data_keys - subset_keys

        output = [data[key] for key in output_keys]
        output_csv = csv.writer(outputfile, delimiter='|', quotechar='"', quoting=csv.QUOTE_ALL)
        for row in output:
            output_csv.writerow(row)

if __name__ == '__main__':
    main()

sys.stdout.flush()

생성하는out.csv

"glider"|"person"|"airport"
"glider"|"person2"|"airport"

답변1

awk를 사용하는 것은 매우 쉽습니다:

$ awk -F'|' 'NR == FNR {old[$2]; next} !($2 in old)' old.csv new.csv
"glider"|"person"|"airport"
"glider"|"person2"|"airport"

old.csv 파일의 두 번째 필드를 "old"라는 배열에 저장한 다음 new.csv 파일의 경우 두 번째 필드가 "old" 배열에 없는 레코드를 인쇄합니다.

실제로 이는 따옴표 안의 파이프 문자를 존중하지 않습니다. 이를 위해 나는 Ruby의 csv 모듈을 좋아합니다.

ruby -rcsv  -e '
  old_col2 = []
  old_data = CSV.foreach("./old.csv", :col_sep => "|") do |row|
    old_col2 << row[1]
  end

  CSV.foreach("./new.csv", :col_sep => "|") do |row|
    if not old_col2.include?(row[1])
      puts CSV.generate_line(row, :col_sep => "|", :force_quotes => true)
    end
  end
'

관련 정보