CSV 파일에 특정 열을 이름별로 저장하는 명령줄 주문이 있습니까?

Question 1

간단한 쉼표로 구분된 열이 있는 경우 awk를 사용하여 수행할 수 있습니다. 첫 번째 줄을 구문 분석하여 필요한 열을 결정한 다음 해당 열을 인쇄합니다.

wanted_columns=city,zip
wanted_columns=",$wanted_columns," awk -F, '
    NR==1 {
        for (i=1; i<=NF; i++) {
            if (index(ENVIRON["wanted_columns"], ","$i",")) {last=i; columns[i]=","}
            columns[last]="\n"
        }
    }
    {
        for (i=1; i<=NF; i++) {
            if (columns[i]) printf "%s%s", $i, columns[i]
        }
    }'

또는 를 사용할 수 있습니다 cut. 파일이 크면 더 빠릅니다. 먼저 다른 도구를 사용하여 헤더 행을 구문 분석하여 열 번호를 결정합니다.

wanted_columns=city,zip
{
  IFS= read header;
  cut_spec=$(printf %s "$header" |
             wanted_columns=",$wanted_columns," awk -v RS=, '
                 index(ENVIRON["wanted_columns"], ","$0",") {printf "%d,", NR}'
             );
  { printf %s\\n "$header"; cat; } | cut -d , -f "${cut_spec%,}";
}

CSV 파일이 인용된 일부 열에 포함된 열이나 줄 바꿈이 있을 수 있는 실제 CSV 파일인 경우 적절한 CSV 도구를 사용하세요. 예를 들어,파이썬:

#!/usr/bin/env python2
import csv, sys
wanted_columns = set(sys.argv[1:])
reader = csv.reader(sys.stdin)
header = reader.next()
columns = [i for i in range(len(header)) if header[i] in wanted_columns]
writer=csv.writer(sys.stdout)
writer.writerow(sys.argv[1:])
for row in reader: writer.writerow([row[i] for i in columns])

(원하는 열 이름을 스크립트에 인수로 전달합니다.)

Answer

간단한 쉼표로 구분된 열이 있는 경우 awk를 사용하여 수행할 수 있습니다. 첫 번째 줄을 구문 분석하여 필요한 열을 결정한 다음 해당 열을 인쇄합니다.

wanted_columns=city,zip
wanted_columns=",$wanted_columns," awk -F, '
    NR==1 {
        for (i=1; i<=NF; i++) {
            if (index(ENVIRON["wanted_columns"], ","$i",")) {last=i; columns[i]=","}
            columns[last]="\n"
        }
    }
    {
        for (i=1; i<=NF; i++) {
            if (columns[i]) printf "%s%s", $i, columns[i]
        }
    }'

또는 를 사용할 수 있습니다 cut. 파일이 크면 더 빠릅니다. 먼저 다른 도구를 사용하여 헤더 행을 구문 분석하여 열 번호를 결정합니다.

wanted_columns=city,zip
{
  IFS= read header;
  cut_spec=$(printf %s "$header" |
             wanted_columns=",$wanted_columns," awk -v RS=, '
                 index(ENVIRON["wanted_columns"], ","$0",") {printf "%d,", NR}'
             );
  { printf %s\\n "$header"; cat; } | cut -d , -f "${cut_spec%,}";
}

CSV 파일이 인용된 일부 열에 포함된 열이나 줄 바꿈이 있을 수 있는 실제 CSV 파일인 경우 적절한 CSV 도구를 사용하세요. 예를 들어,파이썬:

#!/usr/bin/env python2
import csv, sys
wanted_columns = set(sys.argv[1:])
reader = csv.reader(sys.stdin)
header = reader.next()
columns = [i for i in range(len(header)) if header[i] in wanted_columns]
writer=csv.writer(sys.stdout)
writer.writerow(sys.argv[1:])
for row in reader: writer.writerow([row[i] for i in columns])

(원하는 열 이름을 스크립트에 인수로 전달합니다.)

Question 2

삽입이 없으면 ,(즉 삽입이 없음을 의미 ...,"foo,bar",...) 다음을 사용할 수 있습니다 cut.

cut -d, -f13,15

로 구분된 열 13과 15만 선택합니다 ,. 열 13과 15가 올바른 이유는 무엇입니까? 나는 쉼표를 세었다

head -n 1 data.csv | sed 's/zip,.*/,/' | tr -dc , | wc -c

설명: 입력( )의 첫 번째 줄을 가져와서 head"zip"을 찾아 해당 줄과 나머지 줄을 쉼표( )로 바꾼 다음 쉼표( ) 및 개수( ) sed가 아닌 모든 항목을 삭제합니다 . 따라서 "a,zip,b"는 "a,,"로 변환되고 ",,"는 2로 변환됩니다. "zip"은 두 번째 필드입니다.trwc

Answer

삽입이 없으면 ,(즉 삽입이 없음을 의미 ...,"foo,bar",...) 다음을 사용할 수 있습니다 cut.

cut -d, -f13,15

로 구분된 열 13과 15만 선택합니다 ,. 열 13과 15가 올바른 이유는 무엇입니까? 나는 쉼표를 세었다

head -n 1 data.csv | sed 's/zip,.*/,/' | tr -dc , | wc -c

설명: 입력( )의 첫 번째 줄을 가져와서 head"zip"을 찾아 해당 줄과 나머지 줄을 쉼표( )로 바꾼 다음 쉼표( ) 및 개수( ) sed가 아닌 모든 항목을 삭제합니다 . 따라서 "a,zip,b"는 "a,,"로 변환되고 ",,"는 2로 변환됩니다. "zip"은 두 번째 필드입니다.trwc

CSV 파일에 특정 열을 이름별로 저장하는 명령줄 주문이 있습니까?

답변1

답변2

관련 정보