패턴이 N번 나타난 후 파일을 여러 파일로 분할하는 방법은 무엇입니까?

Question 1

한 가지 방법은 다음을 사용하는 것입니다 awk.

awk -v moleculesNum=7 '
/^@<TRIPOS>MOLECULE/{
    if((++num)%moleculesNum==1){
        close(outfile); outfile="file" (++Output)
    }
}
{ print >outfile }' infile

이렇게 하면 원본 파일이 각각 최대 7개의 분자가 포함된 여러 파일로 분할됩니다( moleculesNum=7매개변수에서 조정 가능).

Answer

한 가지 방법은 다음을 사용하는 것입니다 awk.

awk -v moleculesNum=7 '
/^@<TRIPOS>MOLECULE/{
    if((++num)%moleculesNum==1){
        close(outfile); outfile="file" (++Output)
    }
}
{ print >outfile }' infile

이렇게 하면 원본 파일이 각각 최대 7개의 분자가 포함된 여러 파일로 분할됩니다( moleculesNum=7매개변수에서 조정 가능).

Question 2

다음은 다음을 bash기반으로 하는 csplit유틸리티 방법 입니다.

### user customization section
tmpdir=$(mktemp -d)
prefix='outfile'
bunch=5
pat='@<TRIPOS>MOLECULE'

## break up the input file on pattern
csplit ./file \
  --silent \
  --elide-empty-files \
  --prefix "$tmpdir/$prefix" \
  --suffix-format='%d.tmp' \
  "/$pat/+1" '{*}' \
;

## coalesce the split up files into bunches
i=0
while :; do
  start=$(( bunch * i ))
  stop=$(( start + bunch - 1 ))
  for ((j=start; j<=stop; j++)) {
    printf '%s\n' "$tmpdir/$prefix$j.tmp"
  } | xargs cat > "./$prefix.$i" 2>/dev/null || break
  (( i++ ))
done

현재 디렉토리에는 outfiles.* 번들이 보관됩니다.

Answer

다음은 다음을 bash기반으로 하는 csplit유틸리티 방법 입니다.

### user customization section
tmpdir=$(mktemp -d)
prefix='outfile'
bunch=5
pat='@<TRIPOS>MOLECULE'

## break up the input file on pattern
csplit ./file \
  --silent \
  --elide-empty-files \
  --prefix "$tmpdir/$prefix" \
  --suffix-format='%d.tmp' \
  "/$pat/+1" '{*}' \
;

## coalesce the split up files into bunches
i=0
while :; do
  start=$(( bunch * i ))
  stop=$(( start + bunch - 1 ))
  for ((j=start; j<=stop; j++)) {
    printf '%s\n' "$tmpdir/$prefix$j.tmp"
  } | xargs cat > "./$prefix.$i" 2>/dev/null || break
  (( i++ ))
done

현재 디렉토리에는 outfiles.* 번들이 보관됩니다.

패턴이 N번 나타난 후 파일을 여러 파일로 분할하는 방법은 무엇입니까?

답변1

답변2

관련 정보