간단한 BASH 스크립트가 다중 프로세스/"스레드" BASH 스크립트로 바뀌었나요?

Question 1

GNU Parallel을 사용하면 다음을 수행할 수 있습니다.

rhubarb=/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb 

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o {.}.tsv

또는 (다른 디렉토리에 출력이 정말로 필요한 경우):

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o /hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/{/.}.tsv

Answer

GNU Parallel을 사용하면 다음을 수행할 수 있습니다.

rhubarb=/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb 

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o {.}.tsv

또는 (다른 디렉토리에 출력이 정말로 필요한 경우):

find /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/ -name "*.wav" |
  parallel $rhubarb {} -o /hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/{/.}.tsv

Question 2

매개변수를 반복하도록 스크립트를 작성하십시오. 예를 들어:

#!/bin/bash

rhubarb='/hummdinger/LoCI/LoCI_orig/TSV/rhubarb-lip-sync-1.10.0-osx/rhubarb'
outdir='/hummdinger/LoCI/LoCI_orig/LOCI_GAME_FILES/Compiled/Windows/sync/'

for fn in "$@"; do
    bn=$(basename "$fn" .wav)
    "$rhubarb" "$fn" -o "$outdir/$bn.tsv"
done

예를 들어 다른 이름으로 저장 myscript1.sh하고 실행 가능하게 만듭니다 chmod +x myscript1.sh.

직접 실행할 수도 있지만 각 파일을 순차적으로 처리합니다. 대신 GNU parallel또는 xargs -P.

상황에 따라 rhubarb이는 CPU 바인딩 작업보다 I/O 바인딩 작업에 더 가까울 수 있으므로 코어를 너무 많이 추가해도 도움이 되지 않습니다. 실제로 디스크 I/O로 인해 속도가 느려질 수 있습니다. O O 경합이 너무 많습니다. 특히 SSD 대신 HDD에서 실행하는 경우 더욱 그렇습니다.

저처럼 사용하는 대신 아래 스크립트에 또는 같은 것을 하드코딩하고 싶을 수도 있습니다. cores=4(저는 16개의 코어와 32개의 스레드가 있는 threadripper 1950x를 실행하고 있기 때문에 이렇게 썼습니다... 그리고 실행하고 싶지 않습니다.) 32개 작업을 병렬로 수행하며 이 작업에서 유용한 정보를 추출하는 방법의 예가 됩니다.cores=8lscpu | awk ...lscpu

또 다른 제안: 드라이브가 여러 개인 경우 .wav 파일을 읽는 디렉터리가 한 드라이브에 있고 .tsv 파일을 쓰는 디렉터리가 다른 드라이브에 있도록 배열해 보세요. 이렇게 하면 파일 읽기와 쓰기 간의 I/O 경합이 제거됩니다. .tsv 파일이 크지 않으면 tmpfs 램디스크의 임시 디렉터리에 쓰고 스크립트 끝에 있는 최종 위치로 이동합니다.

#!/bin/bash

wavdir="$1"

cores=$(lscpu | awk -F': +' '/^CPU\(s\):/ {cpus=$2};
                             /^Thread\(s\) per core:/ {tpc=$2};
                             END { print int(cpus / tpc) }')

count=$(find "$wavdir" -type f -name "*.wav" -print0 |
          perl -0ne '$c++;END{print $c}')

let files_per_thread=count/cores

find "$wavdir" -type f -name "*.wav" -print0 |
    xargs -0 -r -L "$files_per_thread" -P "$cores" /path/to/myscript1.sh

예를 들어 다른 이름으로 저장 myscript2.sh하고 실행 가능하게 만듭니다 chmod +x myscript2.sh.

이는 명령줄이나 cron 등에서 실행하는 스크립트입니다. 차례로 xargs여러 인스턴스를 병렬로 실행하는 데 사용됩니다.myscript1.sh

다음과 같이 실행하세요:

./myscript2.sh /hummdinger/LoCI/LoCI_orig/VO/WAV_Processed/

그런데, 이는 파일 이름 사이의 구분 기호로 NUL을 사용하므로 모든 파일 이름에 사용하는 것이 안전합니다(줄 바꿈은 파일 이름에서 유효한 문자이므로 줄 바꿈을 파일 이름 구분 기호로 사용하는 것은 안전하지 않습니다).

Answer