테이블 값으로 파일 조인

Question 1

아래 스크립트는 연결하려는 모든 파일이 패턴과 일치한다고 가정합니다 *.tsv. 모두 일치한다는 것을 알고 있다면 ABC*.tsv대신 스크립트 시작 부분에서 해당 패턴을 사용할 수 있습니다 *.tsv.

또한 스크립트는 특정 그룹에 들어가는 모든 파일 이름이 로 확장된 목록의 연속 하위 목록으로 생성된다고 가정합니다 *.tsv.

#!/bin/sh

set -- *.tsv

while read -r group first last; do
        collect=false

        for name do
                if ! "$collect"; then
                        [ "$name" = "$first.tsv" ] || continue
                        collect=true
                fi

                if "$collect"; then
                        cat -- "$name"
                        [ "$name" = "$last.tsv" ] && break
                fi
        done >"$group.tsv"

done <info.tsv

스크립트는 위치 인수 목록을 일치하는 이름 목록으로 설정합니다 *.tsv. 그런 다음 각 행의 세 필드를 info.tsv변수 group및 first로 읽어옵니다 last.

이런 방식으로 읽은 각 줄 에 대해 info.tsv위치 인수 목록에서 그룹의 첫 번째 이름과 일치하는 이름을 검색합니다. 이 이름을 찾으면 collect목록의 현재 위치에서 시작하여 위치 매개변수 목록에 지정된 파일에서 데이터를 수집하도록 스크립트의 논리에 지시하는 플래그를 설정합니다. 이는 그룹의성에 해당하는 이름을 발견하면 종료됩니다.

여기서는 간단한 문자열이 아닌 명령으로 사용됩니다 true. false변수에 저장된 값이 $collect실행된다는 if ! "$collect"것은 스크립트가 두 개의 셸 내장 명령 중 하나를 실행한다는 의미입니다 . true또는 false셸에는 Python과 같은 다른 언어처럼 특별한 true 또는 false 키워드가 없습니다.

시험:

$ ls
script

$ touch ABC{1234001..1234030}.tsv
$ for name in ABC*.tsv; do printf 'Name: %s\n' "$name" >"$name"; done
$ cat ABC1234015.tsv
Name: ABC1234015.tsv

$ cat >info.tsv <<END_DATA
group1 ABC1234001 ABC1234010
group2 ABC1234025 ABC1234030
END_DATA

$ ./script
$ cat group1.tsv
Name: ABC1234001.tsv
Name: ABC1234002.tsv
Name: ABC1234003.tsv
Name: ABC1234004.tsv
Name: ABC1234005.tsv
Name: ABC1234006.tsv
Name: ABC1234007.tsv
Name: ABC1234008.tsv
Name: ABC1234009.tsv
Name: ABC1234010.tsv
$ cat group2.tsv
Name: ABC1234025.tsv
Name: ABC1234026.tsv
Name: ABC1234027.tsv
Name: ABC1234028.tsv
Name: ABC1234029.tsv
Name: ABC1234030.tsv

이 답변에 대한 설명에서 언급했듯이 개인적인 용도로 이 스크립트를 개발한 방식은 스크립트를 다음과 같이 만드는 것이었습니다.

#!/bin/sh

while read -r group first last; do
        collect=false

        for name do
                filename=$( basename "$name" )

                if ! "$collect"; then
                        [ "$filename" = "$first.tsv" ] || continue
                        collect=true
                fi

                if "$collect"; then
                        cat -- "$name"
                        [ "$filename" = "$last.tsv" ] && break
                fi
        done >"$group.tsv"

done

set상단의 명령 제거(명령줄 인수로 대체됨)와 리디렉션 제거 info.tsv(명령줄의 리디렉션으로 대체됨)에 유의하세요. 또한 filename명령줄에 제공된 경로 이름의 파일 이름 부분을 보유할 변수 도 도입했습니다 .

그런 다음 다음과 같이 스크립트를 실행합니다.

$ ./script ABC*.tsv <info.tsv

내가 이것을 구현한 것은 입력 그룹 목록이 어디에 저장되어 있는지, 이름이 있는지 모르고, 파일 이름 ( 파일 이름 접미사가 ABC있는 한 )이나 파일 이름이 어디에 있는지 신경 쓰지 않는 스크립트입니다. .tsv저장됩니다.

Answer

아래 스크립트는 연결하려는 모든 파일이 패턴과 일치한다고 가정합니다 *.tsv. 모두 일치한다는 것을 알고 있다면 ABC*.tsv대신 스크립트 시작 부분에서 해당 패턴을 사용할 수 있습니다 *.tsv.

또한 스크립트는 특정 그룹에 들어가는 모든 파일 이름이 로 확장된 목록의 연속 하위 목록으로 생성된다고 가정합니다 *.tsv.

#!/bin/sh

set -- *.tsv

while read -r group first last; do
        collect=false

        for name do
                if ! "$collect"; then
                        [ "$name" = "$first.tsv" ] || continue
                        collect=true
                fi

                if "$collect"; then
                        cat -- "$name"
                        [ "$name" = "$last.tsv" ] && break
                fi
        done >"$group.tsv"

done <info.tsv

스크립트는 위치 인수 목록을 일치하는 이름 목록으로 설정합니다 *.tsv. 그런 다음 각 행의 세 필드를 info.tsv변수 group및 first로 읽어옵니다 last.

이런 방식으로 읽은 각 줄 에 대해 info.tsv위치 인수 목록에서 그룹의 첫 번째 이름과 일치하는 이름을 검색합니다. 이 이름을 찾으면 collect목록의 현재 위치에서 시작하여 위치 매개변수 목록에 지정된 파일에서 데이터를 수집하도록 스크립트의 논리에 지시하는 플래그를 설정합니다. 이는 그룹의성에 해당하는 이름을 발견하면 종료됩니다.

여기서는 간단한 문자열이 아닌 명령으로 사용됩니다 true. false변수에 저장된 값이 $collect실행된다는 if ! "$collect"것은 스크립트가 두 개의 셸 내장 명령 중 하나를 실행한다는 의미입니다 . true또는 false셸에는 Python과 같은 다른 언어처럼 특별한 true 또는 false 키워드가 없습니다.

시험:

$ ls
script

$ touch ABC{1234001..1234030}.tsv
$ for name in ABC*.tsv; do printf 'Name: %s\n' "$name" >"$name"; done
$ cat ABC1234015.tsv
Name: ABC1234015.tsv

$ cat >info.tsv <<END_DATA
group1 ABC1234001 ABC1234010
group2 ABC1234025 ABC1234030
END_DATA

$ ./script
$ cat group1.tsv
Name: ABC1234001.tsv
Name: ABC1234002.tsv
Name: ABC1234003.tsv
Name: ABC1234004.tsv
Name: ABC1234005.tsv
Name: ABC1234006.tsv
Name: ABC1234007.tsv
Name: ABC1234008.tsv
Name: ABC1234009.tsv
Name: ABC1234010.tsv
$ cat group2.tsv
Name: ABC1234025.tsv
Name: ABC1234026.tsv
Name: ABC1234027.tsv
Name: ABC1234028.tsv
Name: ABC1234029.tsv
Name: ABC1234030.tsv

이 답변에 대한 설명에서 언급했듯이 개인적인 용도로 이 스크립트를 개발한 방식은 스크립트를 다음과 같이 만드는 것이었습니다.

#!/bin/sh

while read -r group first last; do
        collect=false

        for name do
                filename=$( basename "$name" )

                if ! "$collect"; then
                        [ "$filename" = "$first.tsv" ] || continue
                        collect=true
                fi

                if "$collect"; then
                        cat -- "$name"
                        [ "$filename" = "$last.tsv" ] && break
                fi
        done >"$group.tsv"

done

set상단의 명령 제거(명령줄 인수로 대체됨)와 리디렉션 제거 info.tsv(명령줄의 리디렉션으로 대체됨)에 유의하세요. 또한 filename명령줄에 제공된 경로 이름의 파일 이름 부분을 보유할 변수 도 도입했습니다 .

그런 다음 다음과 같이 스크립트를 실행합니다.

$ ./script ABC*.tsv <info.tsv

내가 이것을 구현한 것은 입력 그룹 목록이 어디에 저장되어 있는지, 이름이 있는지 모르고, 파일 이름 ( 파일 이름 접미사가 ABC있는 한 )이나 파일 이름이 어디에 있는지 신경 쓰지 않는 스크립트입니다. .tsv저장됩니다.

Question 2

귀하의 접근 방식은 좋은 생각이지만 불행히도 변수가 중괄호 확장 내부에서 확장되지 않기 때문에 작동하지 않습니다.

$ echo {1..5}
1 2 3 4 5
$ a=1
$ b=5
$ echo {$a..$b}
{1..5}

다음 방법을 사용하여 이 문제를 해결할 수 있습니다 eval.

sed 's/ABC//g' info.tsv | 
    while read -r group start end; do 
        files=( $(eval echo ABC{$start..$end}.tsv) )
        cat "${files[@]}" > "$group.tsv"; 
    done

그러면 먼저 파일 ABC에서 모든 인스턴스가 제거되어 숫자를 개별적으로 얻을 수 있습니다. info.tsv이는 귀하가 보여준 정확한 데이터 구조를 가정합니다. ABC그룹 이름에도 나타날 수 있다면 이는 깨질 것입니다.

삭제 후 ABC결과는 , 및 while3개의 변수를 읽는 루프 로 파이프됩니다 . 그런 다음 중괄호 확장을 호출하기 전에 확장될 변수 에 전달하여 파일 이름 목록을 얻을 수 있습니다.$group$start$endeval

$ eval echo ABC{1..5}
ABC1 ABC2 ABC3 ABC4 ABC5

의 결과는 다음에 대한 입력으로 전달되는 배열 eval에 저장됩니다 .$filescat

cat "${files[@]}" > "$group.tsv";

Answer