이름은 "| 문자"로 구분된 쌍으로 구분됩니다.

Question 1

$ awk '{split($1,a,"|"); split($2,b,"|"); for (i in a) {for (j in b) print a[i],b[j];}}' file
TMPRSS2 AADAT
pp9284 AADAT
ERG TMPRSS2
ERG pp9284
TMPRSS2 ETV1
pp9284 ETV1
PDE4A RAB4B-EGLN2
PDE4A EGLN2
PDE4A MIA
PDE4A MIA-RAB4B
PDE4A RAB4B

세 번째( SampleN) 필드를 동시에 인쇄하려면 $3루프 내부에 인쇄 문을 추가하기만 하면 됩니다.

$ awk '{split($1,a,"|"); split($2,b,"|"); for (i in a) {for (j in b) print a[i],b[j],$3;}}' file
TMPRSS2 AADAT Sample1
pp9284 AADAT Sample1
ERG TMPRSS2 Sample2
ERG pp9284 Sample2
TMPRSS2 ETV1 Sample3
pp9284 ETV1 Sample3
PDE4A RAB4B-EGLN2 Sample4
PDE4A EGLN2 Sample4
PDE4A MIA Sample4
PDE4A MIA-RAB4B Sample4
PDE4A RAB4B Sample4

Answer

$ awk '{split($1,a,"|"); split($2,b,"|"); for (i in a) {for (j in b) print a[i],b[j];}}' file
TMPRSS2 AADAT
pp9284 AADAT
ERG TMPRSS2
ERG pp9284
TMPRSS2 ETV1
pp9284 ETV1
PDE4A RAB4B-EGLN2
PDE4A EGLN2
PDE4A MIA
PDE4A MIA-RAB4B
PDE4A RAB4B

세 번째( SampleN) 필드를 동시에 인쇄하려면 $3루프 내부에 인쇄 문을 추가하기만 하면 됩니다.

$ awk '{split($1,a,"|"); split($2,b,"|"); for (i in a) {for (j in b) print a[i],b[j],$3;}}' file
TMPRSS2 AADAT Sample1
pp9284 AADAT Sample1
ERG TMPRSS2 Sample2
ERG pp9284 Sample2
TMPRSS2 ETV1 Sample3
pp9284 ETV1 Sample3
PDE4A RAB4B-EGLN2 Sample4
PDE4A EGLN2 Sample4
PDE4A MIA Sample4
PDE4A MIA-RAB4B Sample4
PDE4A RAB4B Sample4

Question 2

배시 사용:

# important to use parentheses, not braces, to localize changes to IFS
# the variable is purposefully unquoted
split_pipe() ( IFS='|'; echo $1 )

while read -r first second third; do
  for word1 in $(split_pipe "$first"); do
    for word2 in $(split_pipe "$second"); do
      echo $word1 $word2 $third
    done
  done
done < file

Answer

배시 사용:

# important to use parentheses, not braces, to localize changes to IFS
# the variable is purposefully unquoted
split_pipe() ( IFS='|'; echo $1 )

while read -r first second third; do
  for word1 in $(split_pipe "$first"); do
    for word2 in $(split_pipe "$second"); do
      echo $word1 $word2 $third
    done
  done
done < file

Question 3

GNU를 사용하면 sed다음을 수행할 수 있습니다.

sed -E 's/(\|[^ |]+) /\1| /
        s/(([^|]* )?([^|]*))\|(([^ ]*)(.*))/\1\6\n\2\4/
        /\n/P;D' <infile

...인쇄...

TMPRSS2 AADAT Sample1
pp9284 AADAT Sample1
ERG    TMPRSS2 Sample2
ERG    pp9284 Sample2
TMPRSS2 ETV1 Sample3
pp9284 ETV1 Sample3
PDE4A   MIA Sample4
PDE4A   MIA-RAB4B Sample4
PDE4A   RAB4B Sample4
PDE4A   RAB4B-EGLN2 Sample4
PDE4A   EGLN2 Sample4

\n한 줄의 내용을 분할하고 인쇄한 다음 추가 줄 문자를 하나씩 제거하는 방식으로 작동합니다 . 이 P명령은 패턴 공간에서 처음으로 나타나는 ewline P만 인쇄하므로 \n필요한 경우 편집 버퍼의 일부만 쉽게 인쇄할 수 있습니다.

이 경우 sed모든 비트는 공백을 포함하지 않는 파이프의 분할된 각 부분에 대해 편집 버퍼의 양쪽 끝에 두 번 배치됩니다. sed가장 왼쪽 파이프 분할의 왼쪽과 오른쪽에 가장 왼쪽과 가장 오른쪽 끝을 삽입하고 순서대로 ewline을 사용한 \n다음 오른쪽에 남아 있는 모든 파이프 분할의 양쪽 끝에 동일한 선택 항목을 삽입합니다. 라인의 손 쪽을 삽입합니다 \n. 따라서 패턴 공간에 ewline이 존재한다면 왼쪽 비트만 인쇄한 다음 패턴 공간에서 처음 나타나는 ewline만 삭제하고 다시 시도하면 됩니다 sed.P\nD\n

첫 번째 교체는 한 번만 발생합니다. 파이프로 구분된 섹션의 끝에 파이프를 추가하기 때문에 마지막 발생의 경우에도 항상 구분할 파이프가 있습니다. 나머지 시간에는 sed교체가 이루어지며 s///패턴 P공간의 첫 번째 줄을 인쇄하고 D동일한 삭제가 이어집니다. 더 이상 그렇게 할 수 없으면 D삭제 됩니다.모두패턴 공간을 확보하고 자동으로 다음 입력 라인을 가져옵니다.

동일한 작업을 수행하도록 POSIX BRE를 작성할 수 있습니다.

sed '   s/\(|[^ |]\{1,\}\) /\1| /
        s/^\(\( *[^ |]*  *\)*\([^ |]*\)\)|\(\([^ ]*\)\(.*\)\)/\1\6\
\2\4/;   /\n/P;D' <infile

Answer