![Bash를 사용하여 작업을 병렬로 실행](https://linux55.com/image/58306/Bash%EB%A5%BC%20%EC%82%AC%EC%9A%A9%ED%95%98%EC%97%AC%20%EC%9E%91%EC%97%85%EC%9D%84%20%EB%B3%91%EB%A0%AC%EB%A1%9C%20%EC%8B%A4%ED%96%89.png)
이 스크립트를 사용하여 데이터를 분석하고 있습니다.
#!/bin/bash
inlist=/aut/cl/tera/mja/scripts
in=/aut/cl/tera/mja/data/ran_ready/
out=/aut/cl/tera/mja/data/mas/aft/
for i in $(cat $inlist/list.txt); do
echo "$i"
mri_binarize --i ${in}/${i}/mri/aseg.mgz --o ${out}/${i}/masks/cc.nii.gz --match 41 42 43 44 45
flirt -in ${out}/${i}/masks/cc.nii.gz -ref ${out}/${i}/T1.nii -out ${out}/${i}/masks/cc2T1.nii.gz -omat ${out}/${i}/masks/cc2T1.mat -bins 256 -cost corratio -searchrx -90 90 -searchry -90 90 -searchrz -90 90 -dof 12 -interp trilinear
echo "$i ... done"
wait
done
스크립트는 list.txt에 언급된 항목 목록(50개 항목)에서 두 개의 명령줄을 실행합니다. 각 항목에 대해 스크립트가 작업을 완료하는 데 30분 정도 걸립니다. 다음 명령을 사용하여 list.txt의 모든 항목에 대해 이 스크립트를 동시에 실행하고 싶습니다."xargs"아니면 다른 가능한 방법도 있어요!
이 스크립트를 어떻게 수정하여 보다 효율적으로 만들 수 있습니까?
답변1
GNU Parallel이 있다면 다음과 같이 할 수 있습니다:
doit() {
i=$1
echo "$i"
mri_binarize --i ${in}/${i}/mri/aseg.mgz --o ${out}/${i}/masks/cc.nii.gz --match 41 42 43 44 45
flirt -in ${out}/${i}/masks/cc.nii.gz -ref ${out}/${i}/T1.nii -out ${out}/${i}/masks/cc2T1.nii.gz -omat ${out}/${i}/masks/cc2T1.mat -bins 256 -cost corratio -searchrx -90 90 -searchry -90 90 -searchrz -90 90 -dof 12 -interp trilinear
echo "$i ... done"
}
export -f doit
parallel doit :::: $inlist/list.txt
그러면 코어당 1개의 작업이 실행됩니다.
모든 새 컴퓨터에는 다중 코어가 있지만 대부분의 프로그램은 본질적으로 직렬이므로 다중 코어를 사용하지 않습니다. 그러나 많은 작업은 매우 병렬화 가능합니다.
- 여러 파일에서 동일한 프로그램 실행
- 파일의 각 줄에 대해 동일한 프로그램을 실행합니다.
- 파일의 각 블록에 대해 동일한 프로그램을 실행합니다.
GNU Parallel은 동일한 컴퓨터 또는 SSH를 통해 액세스할 수 있는 여러 컴퓨터에서 작업을 병렬로 쉽게 실행할 수 있게 해주는 범용 병렬 처리기입니다.
4개의 CPU에서 32개의 서로 다른 작업을 실행하려는 경우 병렬화하는 간단한 방법은 각 CPU에서 8개의 작업을 실행하는 것입니다.
대신, GNU Parallel은 작업이 완료되면 새로운 프로세스를 생성하여 CPU를 활성 상태로 유지하여 시간을 절약합니다.
설치하다
배포판에 GNU Parallel이 패키지되어 있지 않으면 루트 액세스 없이 개인 설치를 수행할 수 있습니다. 이 작업은 10초 안에 완료할 수 있습니다.
(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash
다른 설치 옵션은 다음을 참조하세요.http://git.savannah.gnu.org/cgit/parallel.git/tree/README
더 알아보기
더 많은 예시 보기:http://www.gnu.org/software/parallel/man.html
소개 비디오 보기:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1
이 튜토리얼을 살펴보세요:http://www.gnu.org/software/parallel/parallel_tutorial.html
지원을 받으려면 이메일 목록에 가입하세요.https://lists.gnu.org/mailman/listinfo/parallel
답변2
프로그램이 아무런 문제 없이 병렬로 실행된다면 단순히 백그라운드로 보내는 것은 어떨까요?
for i in $(cat $inlist/list.txt); do
echo "$i"
(
mri_binarize --i ${in}/${i}/mri/aseg.mgz --o ${out}/${i}/masks/cc.nii.gz --match 41 42 43 44 45
flirt -in ${out}/${i}/masks/cc.nii.gz -ref ${out}/${i}/T1.nii -out ${out}/${i}/masks/cc2T1.nii.gz -omat ${out}/${i}/masks/cc2T1.mat -bins 256 -cost corratio -searchrx -90 90 -searchry -90 90 -searchrz -90 90 -dof 12 -interp trilinear
echo "$i ... done"
) &
done
괄호는 명령을 함께 그룹화하고 하위 쉘에서 실행하므로 명령을 함께 백그라운드로 보낼 수 있습니다. 이 flirt
명령이 에 있어야 한다고 가정합니다 mri_binarize
. 그렇지 않은 경우 &
두 명령 뒤에 하나를 추가하면 됩니다.
mri_binarize --i ${in}/${i}/mri/aseg.mgz --o ${out}/${i}/masks/cc.nii.gz --match 41 42 43 44 45 &
flirt -in ${out}/${i}/masks/cc.nii.gz -ref ${out}/${i}/T1.nii -out ${out}/${i}/masks/cc2T1.nii.gz -omat ${out}/${i}/masks/cc2T1.mat -bins 256 -cost corratio -searchrx -90 90 -searchry -90 90 -searchrz -90 90 -dof 12 -interp trilinear &