GNU 병렬 처리를 사용하여 grep 검색 향상

Question 1

이것은 작동합니다:

parallel --pipepart --block -1 -a large_strings.txt grep -oFf patterns.txt |
  grep -vFf - patterns.txt > unmatched_patterns.txt

사용한 적이 있는 경우 ripgrep:

parallel --pipepart --block -1 -a large_strings.txt rg -oFf patterns.txt |
  rg -vFf - patterns.txt > unmatched_patterns.txt

크기도 크면 patterns.txt다음을 살펴보세요.

https://www.gnu.org/software/parallel/man.html#예: -Grepping-n-lines-for-m-regular-expressions

귀하의 상황은 BLAT가 DNA를 위해 만들어졌다는 점을 제외하면 BLAT가 해결하는 문제와 매우 유사합니다. 하지만 귀하의 경우에는 BLAT를 사용할 수 없을 것 같습니다. 일부 변경이 필요할 수도 있습니다.할 수 있다각 16진수 값을 2개의 DNA 문자로 변환하여 직접 사용하세요. BLAT는 데이터베이스 조회만큼 빠르기 때문에 grep. http://genome.ucsc.edu/FAQ/FAQblat.html#blat3

Answer

이것은 작동합니다:

parallel --pipepart --block -1 -a large_strings.txt grep -oFf patterns.txt |
  grep -vFf - patterns.txt > unmatched_patterns.txt

사용한 적이 있는 경우 ripgrep:

parallel --pipepart --block -1 -a large_strings.txt rg -oFf patterns.txt |
  rg -vFf - patterns.txt > unmatched_patterns.txt

크기도 크면 patterns.txt다음을 살펴보세요.

https://www.gnu.org/software/parallel/man.html#예: -Grepping-n-lines-for-m-regular-expressions

귀하의 상황은 BLAT가 DNA를 위해 만들어졌다는 점을 제외하면 BLAT가 해결하는 문제와 매우 유사합니다. 하지만 귀하의 경우에는 BLAT를 사용할 수 없을 것 같습니다. 일부 변경이 필요할 수도 있습니다.할 수 있다각 16진수 값을 2개의 DNA 문자로 변환하여 직접 사용하세요. BLAT는 데이터베이스 조회만큼 빠르기 때문에 grep. http://genome.ucsc.edu/FAQ/FAQblat.html#blat3

Question 2

grep이 없는 더 효율적인 답변:

build_k_mers() {
    k="$1"
    slot="$2"
    perl -ne 'for $n (0..(length $_)-'"$k"') {                                                                                               
       $prefix = substr($_,$n,2);                                                                                                            
       $fh{$prefix} or open $fh{$prefix}, ">>", "tmp/kmer.$prefix.'"$slot"'";                                                                
       $fh = $fh{$prefix};                                                                                                                   
       print $fh substr($_,$n,'"$k"'),"\n"                                                                                                   
    }'
}
export -f build_k_mers

rm -rf tmp
mkdir tmp
export LC_ALL=C
# search strings must be sorted for comm                                                                                                     
parsort patterns.txt | awk '{print >>"tmp/patterns."substr($1,1,2)}' &

# make shorter lines: Insert \n(last 12 char before \n) for every 32k                                                                         
# This makes it easier for --pipepart to find a newline                                                                                      
# It will not change the kmers generated                                                                                                     
perl -pe 's/(.{32000})(.{12})/$1$2\n$2/g' large_strings.txt > large_lines.txt
# Build 12-mers                                                                                                                              
parallel --pipepart --block -1 -a large_lines.txt 'build_k_mers 12 {%}'
# -j10 and 20s may be adjusted depending on hardware
parallel -j10 --delay 20s 'parsort -u tmp/kmer.{}.* > tmp/kmer.{}; rm tmp/kmer.{}.*' ::: `perl -e 'map { printf "%02x ",$_ } 0..255'`
wait
parallel comm -23 {} {=s/patterns./kmer./=} ::: tmp/patterns.??

저는 이것을 전체 작업( patterns.txt:9GBytes/725937231 라인, large_strings.txt:19GBytes/184 라인)에서 테스트했고 64코어 컴퓨터에서 3시간 만에 완료했습니다.

Answer

grep이 없는 더 효율적인 답변:

build_k_mers() {
    k="$1"
    slot="$2"
    perl -ne 'for $n (0..(length $_)-'"$k"') {                                                                                               
       $prefix = substr($_,$n,2);                                                                                                            
       $fh{$prefix} or open $fh{$prefix}, ">>", "tmp/kmer.$prefix.'"$slot"'";                                                                
       $fh = $fh{$prefix};                                                                                                                   
       print $fh substr($_,$n,'"$k"'),"\n"                                                                                                   
    }'
}
export -f build_k_mers

rm -rf tmp
mkdir tmp
export LC_ALL=C
# search strings must be sorted for comm                                                                                                     
parsort patterns.txt | awk '{print >>"tmp/patterns."substr($1,1,2)}' &

# make shorter lines: Insert \n(last 12 char before \n) for every 32k                                                                         
# This makes it easier for --pipepart to find a newline                                                                                      
# It will not change the kmers generated                                                                                                     
perl -pe 's/(.{32000})(.{12})/$1$2\n$2/g' large_strings.txt > large_lines.txt
# Build 12-mers                                                                                                                              
parallel --pipepart --block -1 -a large_lines.txt 'build_k_mers 12 {%}'
# -j10 and 20s may be adjusted depending on hardware
parallel -j10 --delay 20s 'parsort -u tmp/kmer.{}.* > tmp/kmer.{}; rm tmp/kmer.{}.*' ::: `perl -e 'map { printf "%02x ",$_ } 0..255'`
wait
parallel comm -23 {} {=s/patterns./kmer./=} ::: tmp/patterns.??

저는 이것을 전체 작업( patterns.txt:9GBytes/725937231 라인, large_strings.txt:19GBytes/184 라인)에서 테스트했고 64코어 컴퓨터에서 3시간 만에 완료했습니다.

Question 3

이것이 효과가 있는지 모르겠습니다 ...

while read line; 
do 
  grep -oF "$line" large_strings.txt & 
done <patterns.txt | grep -vFf - patterns.txt > unmatched_patterns.txt

Answer

이것이 효과가 있는지 모르겠습니다 ...

while read line; 
do 
  grep -oF "$line" large_strings.txt & 
done <patterns.txt | grep -vFf - patterns.txt > unmatched_patterns.txt

GNU 병렬 처리를 사용하여 grep 검색 향상

답변1

답변2

답변3

관련 정보