Perl 또는 awk를 사용하여 파일을 제자리에서 편집합니다.

Question 1

내부 편집의 경우 다음과 같은 작업을 수행하는 것이 더 쉬울 수 있습니다.

sed -i "s/\t/ /g" file.txt \
&& sed -i "s/ID=match[[:digit:]]\+;Target=//g" test.txt \
&& sed -i "s/_RDNAU_[[:digit:]]\+_[[:digit:]]\+//g" test.txt

약간의 무차별 대입이지만 훨씬 쉽습니다.

Answer

내부 편집의 경우 다음과 같은 작업을 수행하는 것이 더 쉬울 수 있습니다.

sed -i "s/\t/ /g" file.txt \
&& sed -i "s/ID=match[[:digit:]]\+;Target=//g" test.txt \
&& sed -i "s/_RDNAU_[[:digit:]]\+_[[:digit:]]\+//g" test.txt

약간의 무차별 대입이지만 훨씬 쉽습니다.

Question 2

$ awk 'BEGIN{FS=OFS="\t"} {sub(/(_[^_]+){3}$/,"",$1); sub(/.*=/,"",$5)}1' file
SF_0000000555   10873   11041   +       SF_0000000005   99      267     168
SF_0000000555   188079  188215  +       SF_0000000020   3       138     135
SF_0000000555   137594  137704  -       SF_0000000048   16      126     110
SF_0000000555   70582   71504   -       SF_0000000350   8970    9886    916
SF_0000000555   100212  101204  -       SF_0000000350   9584    10597   1013
SF_0000000555   101165  101747  -       SF_0000000350   9005    9581    576
SF_0000000555   82434   82891   -       SF_0000000350   9273    9730    457

-i inplaceGNU awk를 사용하면 sed 및 Perl과 마찬가지로 "내부" 편집을 추가할 수 있습니다 -i. awk를 사용하면 물론 awk 'script' file > tmp && mv tmp file다른 명령처럼 수행할 수 있습니다.

Answer

$ awk 'BEGIN{FS=OFS="\t"} {sub(/(_[^_]+){3}$/,"",$1); sub(/.*=/,"",$5)}1' file
SF_0000000555   10873   11041   +       SF_0000000005   99      267     168
SF_0000000555   188079  188215  +       SF_0000000020   3       138     135
SF_0000000555   137594  137704  -       SF_0000000048   16      126     110
SF_0000000555   70582   71504   -       SF_0000000350   8970    9886    916
SF_0000000555   100212  101204  -       SF_0000000350   9584    10597   1013
SF_0000000555   101165  101747  -       SF_0000000350   9005    9581    576
SF_0000000555   82434   82891   -       SF_0000000350   9273    9730    457

-i inplaceGNU awk를 사용하면 sed 및 Perl과 마찬가지로 "내부" 편집을 추가할 수 있습니다 -i. awk를 사용하면 물론 awk 'script' file > tmp && mv tmp file다른 명령처럼 수행할 수 있습니다.

Question 3

이 시도:

awk -v FS='\t' -v OFS='\t' '{
    split($1, a, "_"); $1 = a[1]"_"a[2];
    sub(/.*=/, "", $5);
    print
}' input > output

이는 원본 파일의 공백이 실제로 탭이라고 가정합니다. 그렇지 않은 경우 이러한 -v..옵션을 제거할 수 있습니다.

k1=v1;k2=v2;...다섯 번째 필드의 순서가 임의대로이거나 마지막이 아닐 수 있는 경우에는 더 Target=SF..복잡한 것이 필요하지만 사용 가능한 정보로는 무엇인지 추측하기 어렵습니다.

파일을 "제자리에서" 편집하려면 파일 이름을 원본 파일로 바꾸세요.

awk '...' input > tmpfile && mv tmpfile input

Answer

이 시도:

awk -v FS='\t' -v OFS='\t' '{
    split($1, a, "_"); $1 = a[1]"_"a[2];
    sub(/.*=/, "", $5);
    print
}' input > output

이는 원본 파일의 공백이 실제로 탭이라고 가정합니다. 그렇지 않은 경우 이러한 -v..옵션을 제거할 수 있습니다.

k1=v1;k2=v2;...다섯 번째 필드의 순서가 임의대로이거나 마지막이 아닐 수 있는 경우에는 더 Target=SF..복잡한 것이 필요하지만 사용 가능한 정보로는 무엇인지 추측하기 어렵습니다.

파일을 "제자리에서" 편집하려면 파일 이름을 원본 파일로 바꾸세요.

awk '...' input > tmpfile && mv tmpfile input

Question 4

펄에서는:

#!/usr/bin/perl

use feature 'say';

while(<>) {
  chomp;                            # strip the trailing end-of-line character(s).
  my (@F) = split;                  # split the input line into fields

  $F[0] =~ s/(^[^_]*_[^_]*)_.*/$1/; # strip everything from 2nd _ from field 1
  $F[4] =~ s/^ID=[^;]*;Target=//;   # strip from ID= to Target= from field 5

  say join("\t",@F);                # print all the fields separated by a tab.
}

라인으로 원하는 경우 :

perl -lane '$F[0] =~ s/(^[^_]*_[^_]*)_.*/$1/;
            $F[4] =~ s/^ID=[^;]*;Target=//;
            print join("\t",@F);' input.txt

Perl -l옵션은 자동 줄 끝 처리(chomp)를 활성화합니다. -aawk와 유사한 자동 필드 분할( array 로)을 켭니다 @F. -a또한 암시적으로 활성화되지만 -n( while(<>){ .. }Perl 코드 주위에 자동으로 루프를 배치) 이 옵션을 명시적으로 지정하는 것을 선호합니다. man perlrun자세히보다.

Perl 배열은 1이 아닌 0에서 시작합니다.

출력 예(독립형 또는 단일 행 버전):

SF_0000000555   10873   11041   +       SF_0000000005   99      267     168
SF_0000000555   188079  188215  +       SF_0000000020   3       138     135
SF_0000000555   137594  137704  -       SF_0000000048   16      126     110
SF_0000000555   70582   71504   -       SF_0000000350   8970    9886    916
SF_0000000555   100212  101204  -       SF_0000000350   9584    10597   1013
SF_0000000555   101165  101747  -       SF_0000000350   9005    9581    576
SF_0000000555   82434   82891   -       SF_0000000350   9273    9730    457

Answer