빅 데이터를 위해 Linux에서 테이블을 병합하는 방법은 무엇입니까?

Question

"tcsh script.csh"를 사용하여 실행할 수 있는 tcsh 스크립트

#script.csh

    egrep -v '==>|ID' *.matrix | sort -k2,2 -k1,1 | sed -e's/\.counts.matrix:/ /g' | sort -k2,2 -u | awk '{printf("   %s   0.0\n",$2)}' > allIDs.txt
  
    foreach xx ( ` ls -1d *.matrix ` )
      set yy = ` echo $xx | sed -e's/matrix/matrix.tmp/g' `
      cat $xx allIDs.txt | xargs -L1 | sort -k1,1 -k2,2gr | awk 'BEGIN {last="xxx"} { if ( $1 != last ) printf(" %s\n",$0) ; last=$1}' > $yy
    end

    ( echo '  ID  '; ls -1d *.counts.matrix.tmp | sed -e's/.counts.matrix.tmp//g' | sort -k1,1 ) | xargs | sed -e's/ /     /g' -e's/ID /      ID       /g' > table.txt
    egrep -v '==>|ID' *.matrix.tmp |  sort -k2,2 -k1,1 -k3,3gr | sed -e's/.counts.matrix.tmp//g'   | awk 'BEGIN {last="xxx"} { if ($2!=last) { if (last != "xxx") printf("\n"); printf("%s    ",$2);} printf("%s     ",$3); last=$2} END{printf("\n")}' >> table.txt
    unset xx yy

출력을 "table.txt" 파일에 저장하지만 형식이 올바르지 않습니다. 여러 값 중 가장 큰 값만 씁니다. 또한 중간 파일로 정크 ".matrix.tmp" 파일을 생성합니다. 빠른 스크립트로 작업을 수행할 수 있지만 최고는 아닙니다.

또한 파일 이름이 출력 파일의 열 헤더와 일치한다고 가정합니다.

Answer 1

"tcsh script.csh"를 사용하여 실행할 수 있는 tcsh 스크립트

#script.csh

    egrep -v '==>|ID' *.matrix | sort -k2,2 -k1,1 | sed -e's/\.counts.matrix:/ /g' | sort -k2,2 -u | awk '{printf("   %s   0.0\n",$2)}' > allIDs.txt
  
    foreach xx ( ` ls -1d *.matrix ` )
      set yy = ` echo $xx | sed -e's/matrix/matrix.tmp/g' `
      cat $xx allIDs.txt | xargs -L1 | sort -k1,1 -k2,2gr | awk 'BEGIN {last="xxx"} { if ( $1 != last ) printf(" %s\n",$0) ; last=$1}' > $yy
    end

    ( echo '  ID  '; ls -1d *.counts.matrix.tmp | sed -e's/.counts.matrix.tmp//g' | sort -k1,1 ) | xargs | sed -e's/ /     /g' -e's/ID /      ID       /g' > table.txt
    egrep -v '==>|ID' *.matrix.tmp |  sort -k2,2 -k1,1 -k3,3gr | sed -e's/.counts.matrix.tmp//g'   | awk 'BEGIN {last="xxx"} { if ($2!=last) { if (last != "xxx") printf("\n"); printf("%s    ",$2);} printf("%s     ",$3); last=$2} END{printf("\n")}' >> table.txt
    unset xx yy

출력을 "table.txt" 파일에 저장하지만 형식이 올바르지 않습니다. 여러 값 중 가장 큰 값만 씁니다. 또한 중간 파일로 정크 ".matrix.tmp" 파일을 생성합니다. 빠른 스크립트로 작업을 수행할 수 있지만 최고는 아닙니다.

또한 파일 이름이 출력 파일의 열 헤더와 일치한다고 가정합니다.

빅 데이터를 위해 Linux에서 테이블을 병합하는 방법은 무엇입니까?

답변1

관련 정보