Bash를 사용하여 작업을 병렬로 실행

Bash를 사용하여 작업을 병렬로 실행

이 스크립트를 사용하여 데이터를 분석하고 있습니다.

#!/bin/bash
inlist=/aut/cl/tera/mja/scripts
in=/aut/cl/tera/mja/data/ran_ready/
out=/aut/cl/tera/mja/data/mas/aft/
for i in $(cat $inlist/list.txt); do
echo "$i" 
mri_binarize --i ${in}/${i}/mri/aseg.mgz --o ${out}/${i}/masks/cc.nii.gz --match 41 42 43 44 45 
flirt -in ${out}/${i}/masks/cc.nii.gz -ref ${out}/${i}/T1.nii -out ${out}/${i}/masks/cc2T1.nii.gz -omat ${out}/${i}/masks/cc2T1.mat -bins 256 -cost corratio -searchrx -90 90 -searchry -90 90 -searchrz -90 90 -dof 12  -interp trilinear

echo "$i ... done"    
wait
done

스크립트는 list.txt에 언급된 항목 목록(50개 항목)에서 두 개의 명령줄을 실행합니다. 각 항목에 대해 스크립트가 작업을 완료하는 데 30분 정도 걸립니다. 다음 명령을 사용하여 list.txt의 모든 항목에 대해 이 스크립트를 동시에 실행하고 싶습니다."xargs"아니면 다른 가능한 방법도 있어요!

이 스크립트를 어떻게 수정하여 보다 효율적으로 만들 수 있습니까?

답변1

GNU Parallel이 있다면 다음과 같이 할 수 있습니다:

doit() {
  i=$1
  echo "$i" 
  mri_binarize --i ${in}/${i}/mri/aseg.mgz --o ${out}/${i}/masks/cc.nii.gz --match 41 42 43 44 45 
  flirt -in ${out}/${i}/masks/cc.nii.gz -ref ${out}/${i}/T1.nii -out ${out}/${i}/masks/cc2T1.nii.gz -omat ${out}/${i}/masks/cc2T1.mat -bins 256 -cost corratio -searchrx -90 90 -searchry -90 90 -searchrz -90 90 -dof 12  -interp trilinear
  echo "$i ... done"
}
export -f doit

parallel doit :::: $inlist/list.txt

그러면 코어당 1개의 작업이 실행됩니다.

모든 새 컴퓨터에는 다중 코어가 있지만 대부분의 프로그램은 본질적으로 직렬이므로 다중 코어를 사용하지 않습니다. 그러나 많은 작업은 매우 병렬화 가능합니다.

  • 여러 파일에서 동일한 프로그램 실행
  • 파일의 각 줄에 대해 동일한 프로그램을 실행합니다.
  • 파일의 각 블록에 대해 동일한 프로그램을 실행합니다.

GNU Parallel은 동일한 컴퓨터 또는 SSH를 통해 액세스할 수 있는 여러 컴퓨터에서 작업을 병렬로 쉽게 실행할 수 있게 해주는 범용 병렬 처리기입니다.

4개의 CPU에서 32개의 서로 다른 작업을 실행하려는 경우 병렬화하는 간단한 방법은 각 CPU에서 8개의 작업을 실행하는 것입니다.

간단한 스케줄링

대신, GNU Parallel은 작업이 완료되면 새로운 프로세스를 생성하여 CPU를 활성 상태로 유지하여 시간을 절약합니다.

GNU 병렬 스케줄링

설치하다

배포판에 GNU Parallel이 패키지되어 있지 않으면 루트 액세스 없이 개인 설치를 수행할 수 있습니다. 이 작업은 10초 안에 완료할 수 있습니다.

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

다른 설치 옵션은 다음을 참조하세요.http://git.savannah.gnu.org/cgit/parallel.git/tree/README

더 알아보기

더 많은 예시 보기:http://www.gnu.org/software/parallel/man.html

소개 비디오 보기:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

이 튜토리얼을 살펴보세요:http://www.gnu.org/software/parallel/parallel_tutorial.html

지원을 받으려면 이메일 목록에 가입하세요.https://lists.gnu.org/mailman/listinfo/parallel

답변2

프로그램이 아무런 문제 없이 병렬로 실행된다면 단순히 백그라운드로 보내는 것은 어떨까요?

for i in $(cat $inlist/list.txt); do    
    echo "$i" 
    ( 
        mri_binarize --i ${in}/${i}/mri/aseg.mgz --o ${out}/${i}/masks/cc.nii.gz --match 41 42 43 44 45 
        flirt -in ${out}/${i}/masks/cc.nii.gz -ref ${out}/${i}/T1.nii -out ${out}/${i}/masks/cc2T1.nii.gz -omat ${out}/${i}/masks/cc2T1.mat -bins 256 -cost corratio -searchrx -90 90 -searchry -90 90 -searchrz -90 90 -dof 12  -interp trilinear
        echo "$i ... done"        
    ) &
done

괄호는 명령을 함께 그룹화하고 하위 쉘에서 실행하므로 명령을 함께 백그라운드로 보낼 수 있습니다. 이 flirt명령이 에 있어야 한다고 가정합니다 mri_binarize. 그렇지 않은 경우 &두 명령 뒤에 하나를 추가하면 됩니다.

mri_binarize --i ${in}/${i}/mri/aseg.mgz --o ${out}/${i}/masks/cc.nii.gz --match 41 42 43 44 45 &
flirt -in ${out}/${i}/masks/cc.nii.gz -ref ${out}/${i}/T1.nii -out ${out}/${i}/masks/cc2T1.nii.gz -omat ${out}/${i}/masks/cc2T1.mat -bins 256 -cost corratio -searchrx -90 90 -searchry -90 90 -searchrz -90 90 -dof 12  -interp trilinear &

관련 정보