csv 파일에서 날짜 범위를 가져오는 방법이 있습니까?

Question 1

나는 아직도 그 질문을 이해했는지 잘 모르겠습니다. 그러나 지정된 입력을 기반으로 원하는 출력을 생성하는 코드는 다음과 같으며 다른 답변보다 훨씬 짧습니다.

datetime1=$(head -n1 file1.csv | cut -d, -f24)
datetime4=$(tail -n1 file4.csv | cut -d, -f24)
printf '%s - %s\n' "${datetime1%% *}" "${datetime4%% *}"

그러면 첫 번째 파일에서 첫 번째 행을 가져오고 네 번째 및 마지막 파일에서 마지막 행을 가져오고 24번째 필드를 추출합니다(기준:,각각에 대한 구분 기호). 구체적으로 1/25/2012 7:20 AM는 날짜/시간 문자열입니다 11/7/2016 2:36 PM. 그런 다음 첫 번째 공백과 그 뒤의 모든 내용을 제거하여 각 단어의 첫 번째 "단어"를 인쇄합니다. 필수 날짜입니다.

이는 준한 줄로 된 것과 같습니다. 가독성을 위해 세 줄로 나누었지만 논리적으로는 긴 명령입니다.

printf '%s - %s\n' \
        "$(head -n1 file1.csv | cut -d, -f24 | cut -d' ' -f1)" \
        "$(tail -n1 file4.csv | cut -d, -f24 | cut -d' ' -f1)"

여기서는 변수를 사용하지 않기 때문에 매개변수 확장을 사용할 수 없기 때문에 두 번째 를 사용하여 24번째 필드의 첫 번째 "단어"를 추출했습니다 cut.

Answer

나는 아직도 그 질문을 이해했는지 잘 모르겠습니다. 그러나 지정된 입력을 기반으로 원하는 출력을 생성하는 코드는 다음과 같으며 다른 답변보다 훨씬 짧습니다.

datetime1=$(head -n1 file1.csv | cut -d, -f24)
datetime4=$(tail -n1 file4.csv | cut -d, -f24)
printf '%s - %s\n' "${datetime1%% *}" "${datetime4%% *}"

그러면 첫 번째 파일에서 첫 번째 행을 가져오고 네 번째 및 마지막 파일에서 마지막 행을 가져오고 24번째 필드를 추출합니다(기준:,각각에 대한 구분 기호). 구체적으로 1/25/2012 7:20 AM는 날짜/시간 문자열입니다 11/7/2016 2:36 PM. 그런 다음 첫 번째 공백과 그 뒤의 모든 내용을 제거하여 각 단어의 첫 번째 "단어"를 인쇄합니다. 필수 날짜입니다.

이는 준한 줄로 된 것과 같습니다. 가독성을 위해 세 줄로 나누었지만 논리적으로는 긴 명령입니다.

printf '%s - %s\n' \
        "$(head -n1 file1.csv | cut -d, -f24 | cut -d' ' -f1)" \
        "$(tail -n1 file4.csv | cut -d, -f24 | cut -d' ' -f1)"

여기서는 변수를 사용하지 않기 때문에 매개변수 확장을 사용할 수 없기 때문에 두 번째 를 사용하여 24번째 필드의 첫 번째 "단어"를 추출했습니다 cut.

Question 2

데이터가 이미 날짜별로 정렬되어 있고 일관된 구조를 갖고 있는 경우 이를 사용 sed하여 특정 행을 처리할 수 있습니다.

sed -E -n "2 {s/.*,([^ ]*).*/\1 - /;h}; $ {s/.*,([^ ]*).*/\1/;H;x;s/\n//;p}" file

첫 번째 파일의 출력은 다음과 같습니다.

1/26/2012 - 4/11/2012

모든 파일을 함께 넣습니다 cat(날짜 순서로 이름이 지정되고 올바른 순서로 파이프된다고 가정).

cat file* | sed ...
1/26/2012 - 11/7/2016

송곳

기본값을 인쇄하지 않음 sed으로 설정-n

sed -E -n "

두 번째 줄을 잡고 캡처 그룹으로 2원하는 줄 부분을 수집 ([^ ]+)하고 출력을 패턴 공간의 캡처 및 구분 기호로 결합합니다.\1 -

           2 {s/.*,([^ ]+).*/\1 - /;

h이전 공간 으로 밀어 넣습니다 ( h이전에 존재했던 모든 내용을 지움).

h};

위 $도선에서 패턴공간에서 다시 원하는 선 부분을 잡아주세요

                                    $ {s/.*,([^ ]+).*/\1/;

기존 공간에 새 패턴 공간을 추가하고 기존 콘텐츠와 새 콘텐츠 사이에 Hewline을 추가 (ewline 추가)한 다음 패턴 공간을 사용하여 예약된 공간의 전체 콘텐츠를 변경합니다.\nH\nx

                                                H;x;

이제 결합된 출력이 패턴 공간에 있습니다. 원하지 않는 줄 \n바꿈과 p린트 만 제거하면 됩니다.

                                                    s/\n//;p}" file

Answer

데이터가 이미 날짜별로 정렬되어 있고 일관된 구조를 갖고 있는 경우 이를 사용 sed하여 특정 행을 처리할 수 있습니다.

sed -E -n "2 {s/.*,([^ ]*).*/\1 - /;h}; $ {s/.*,([^ ]*).*/\1/;H;x;s/\n//;p}" file

첫 번째 파일의 출력은 다음과 같습니다.

1/26/2012 - 4/11/2012

모든 파일을 함께 넣습니다 cat(날짜 순서로 이름이 지정되고 올바른 순서로 파이프된다고 가정).

cat file* | sed ...
1/26/2012 - 11/7/2016

송곳

기본값을 인쇄하지 않음 sed으로 설정-n

sed -E -n "

두 번째 줄을 잡고 캡처 그룹으로 2원하는 줄 부분을 수집 ([^ ]+)하고 출력을 패턴 공간의 캡처 및 구분 기호로 결합합니다.\1 -

           2 {s/.*,([^ ]+).*/\1 - /;

h이전 공간 으로 밀어 넣습니다 ( h이전에 존재했던 모든 내용을 지움).

h};

위 $도선에서 패턴공간에서 다시 원하는 선 부분을 잡아주세요

                                    $ {s/.*,([^ ]+).*/\1/;

기존 공간에 새 패턴 공간을 추가하고 기존 콘텐츠와 새 콘텐츠 사이에 Hewline을 추가 (ewline 추가)한 다음 패턴 공간을 사용하여 예약된 공간의 전체 콘텐츠를 변경합니다.\nH\nx

                                                H;x;

이제 결합된 출력이 패턴 공간에 있습니다. 원하지 않는 줄 \n바꿈과 p린트 만 제거하면 됩니다.

                                                    s/\n//;p}" file

Question 3

Unix 파이프를 선호하는 경우 다음을 수행할 수 있습니다.

# standalone example: this converts from a 2-colum, 1-line "csv" to unixtime, 
#  and converts back to readable date
echo "2,1/25/2012  7:20:55 PM" \
| perl -aF, -MDate::Parse -E "say Date::Parse::str2time(\$F[1])" - \
| xargs -i date "+%D " -d@{}

# result
01/25/12

이는 오래되었지만 핵심이 아닌 Perl 모듈에 의존하며 Date::Parse, 아직 없는 경우 먼저 설치해야 합니다. 구성 클라이언트 설치를
사용하거나 0으로 설정할 수도 있습니다 .cpan Date::Parsecpanm Date::Parse

따라서 귀하의 예에서는 두 개의 단일 행에서 가장 어린 데이터와 가장 오래된 데이터를 얻으려고 할 수 있습니다.

perl -aF, -MDate::Parse -E "say Date::Parse::str2time(\$F[5])" *.csv \
| sort \
| sed -e 1b -e '$!d'  \
| xargs -i date "+%D " -d@{}

# result
01/25/12 
11/07/16

라인 sed은이 게시물이 웹사이트에서.

Answer

Unix 파이프를 선호하는 경우 다음을 수행할 수 있습니다.

# standalone example: this converts from a 2-colum, 1-line "csv" to unixtime, 
#  and converts back to readable date
echo "2,1/25/2012  7:20:55 PM" \
| perl -aF, -MDate::Parse -E "say Date::Parse::str2time(\$F[1])" - \
| xargs -i date "+%D " -d@{}

# result
01/25/12

이는 오래되었지만 핵심이 아닌 Perl 모듈에 의존하며 Date::Parse, 아직 없는 경우 먼저 설치해야 합니다. 구성 클라이언트 설치를
사용하거나 0으로 설정할 수도 있습니다 .cpan Date::Parsecpanm Date::Parse

따라서 귀하의 예에서는 두 개의 단일 행에서 가장 어린 데이터와 가장 오래된 데이터를 얻으려고 할 수 있습니다.

perl -aF, -MDate::Parse -E "say Date::Parse::str2time(\$F[5])" *.csv \
| sort \
| sed -e 1b -e '$!d'  \
| xargs -i date "+%D " -d@{}

# result
01/25/12 
11/07/16

라인 sed은이 게시물이 웹사이트에서.

Question 4

다음 awk프로그램이 실행됩니다(이라고 부르겠습니다 timerange.awk). 특정 순서로 파일을 제공할 필요 없이 간단히 사용할 수 있도록 설계되었습니다 *.csv. 그렇지 않으면 타임스탬프가 순서대로 지정되어 있으므로 디렉터리의 첫 번째 파일과 마지막 파일만 제공하면 됩니다.

#!/usr/bin/awk -f

# For every line of the files (after the first, which contains headers)
FNR>1{
    # Break the time stamp field into its individual components and reassemble
    # in a way that 'mktime' understands, to generate an epoch-based timestamp
    # for "later/earlier than"-type comparisons.
    split($NF,a,/[ /:]/);
    if (a[6]=="AM" && a[4]==12) a[4]=0;
    if (a[6]=="PM") a[4]=a[4]+12;
    tst=a[3]" " a[1] " " a[2] " " a[4] " " a[5] " 00";
    curr_ts=mktime(tst);

    # If we are on the first "data" row of the first file, initialize start and end
    # date
    if (NR==2)
    {
        end=start=$NF;
        end_ts=start_ts=curr_ts;
    }
    # On all later lines, check if the timestamps associated with the "start"
    # and "end" time specifications are later resp. earlier than that of the
    # current line. If so, update "start" and "end" specifications.
    else
    {
        if (curr_ts>end_ts) {end_ts=curr_ts; end=$NF};
        if (curr_ts<start_ts) {start_ts=curr_ts; start=$NF};
    }
}


# After the last file was processed: Output the human-readable range
END{print start " - " end}

당신은 그것을 호출할 수 있습니다

awk -F, -f timerange.awk file1.csv file2.csv ...

아니면 단순히

awk -F, -f timerange.awk *.csv

파일의 순서는 중요하지 않기 때문에 전역 "첫 번째" 및 "마지막" 항목을 자동으로 찾습니다.

예제 입력의 출력(현재 형식 - 첫 번째 설명과 반대라고 가정합니다. 타임스탬프는아니요초 포함):

1/25/2012 10:57 AM - 11/7/2016 2:36 PM

고쳐 쓰다

하루 중 시간을 완전히 무시하려면 프로그램을 중단하면 됩니다.

#!/usr/bin/awk -f

# For every line of the files (after the first, which contains headers)
FNR>1{
    split($NF,a,/[ /:]/);
    tst=a[3]" " a[1] " " a[2] " 00 00 00"
    curr_ts=mktime(tst);

    sub(/[[:space:]]+.* [AP]M$/,"",$NF);

    if (NR==2)
    {
        end=start=$NF;
        end_ts=start_ts=curr_ts;
    }
    else
    {
        if (curr_ts>end_ts) {end_ts=curr_ts; end=$NF};
        if (curr_ts<start_ts) {start_ts=curr_ts; start=$NF};
    }
}

END{print start " - " end}

Answer