파일에서 줄 번호와 패턴을 동시에 추출

Question 1

awk정리하기 전에 원래 입력 파일에서 다음을 사용하십시오.

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print NR ";" substr($0, a[1, "start"], a[1, "length"]); }' input

그러면 계좌 번호가 추출되고 줄 시작 부분에 줄 번호가 인쇄됩니다.

1;2345356432
3;8623525534

정리된 파일에서 전처리된 숫자를 추출하려면 다음을 수행하십시오.

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print $1 ";" substr($0, a[1, "start"], a[1, "length"]); }' input

조금 분석해 보세요.

/account number [[:digit:]]+/"계좌 번호" 뒤에 숫자가 일치하는 행만 처리하는지 확인하세요.
match($0, "account number ([[:digit:]]+)", a)패턴을 다시 찾아 일치하는 그룹의 위치와 길이( , 개수)를 ([[:digit:]]+)배열에 저장합니다 a.
print NR ";" substr($0, a[1, "start"], a[1, "length"])기록번호 인쇄(즉줄 번호, FNR여러 파일을 처리하는 경우 사용), ;첫 번째 그룹에 해당하는 하위 문자열: 시작 인덱스, 길이(패딩으로 채워짐 ) a[1, "start"]제공 .a[1, "length"]match

이 모든 것은 행당 최대 하나의 계정이 있다고 가정합니다.

두 번째 변형은 $1대신 인쇄합니다 NR.즉파일의 첫 번째 필드는 전처리된 줄 번호입니다.

Answer

awk정리하기 전에 원래 입력 파일에서 다음을 사용하십시오.

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print NR ";" substr($0, a[1, "start"], a[1, "length"]); }' input

그러면 계좌 번호가 추출되고 줄 시작 부분에 줄 번호가 인쇄됩니다.

1;2345356432
3;8623525534

정리된 파일에서 전처리된 숫자를 추출하려면 다음을 수행하십시오.

awk '/account number [[:digit:]]+/ { match($0, "account number ([[:digit:]]+)", a); print $1 ";" substr($0, a[1, "start"], a[1, "length"]); }' input

조금 분석해 보세요.

/account number [[:digit:]]+/"계좌 번호" 뒤에 숫자가 일치하는 행만 처리하는지 확인하세요.
match($0, "account number ([[:digit:]]+)", a)패턴을 다시 찾아 일치하는 그룹의 위치와 길이( , 개수)를 ([[:digit:]]+)배열에 저장합니다 a.
print NR ";" substr($0, a[1, "start"], a[1, "length"])기록번호 인쇄(즉줄 번호, FNR여러 파일을 처리하는 경우 사용), ;첫 번째 그룹에 해당하는 하위 문자열: 시작 인덱스, 길이(패딩으로 채워짐 ) a[1, "start"]제공 .a[1, "length"]match

이 모든 것은 행당 최대 하나의 계정이 있다고 가정합니다.

두 번째 변형은 $1대신 인쇄합니다 NR.즉파일의 첫 번째 필드는 전처리된 줄 번호입니다.

Question 2

귀하의 grep 버전이 Perl 정규 표현식을 지원하는 경우, 뒤돌아보기를 사용할 수 있습니다:

grep -Pnio "(?<=account number.)([0-9]{0,15})" text

Answer

귀하의 grep 버전이 Perl 정규 표현식을 지원하는 경우, 뒤돌아보기를 사용할 수 있습니다:

grep -Pnio "(?<=account number.)([0-9]{0,15})" text

Question 3

입력과 출력을 고려하면 awk 스크립트는 훨씬 간단해 보입니다.

gawk '/account number/ {
    nr=gensub(/.*account\s*number\s*([0-9]+).*/, "\\1", "g")
    print FNR "; " nr
}'

물론 계정 추출 및 출력 형식을 원하는 대로 조정해야 할 수도 있습니다. 그러나 당신은 요점을 이해합니다. (이 기능을 사용하려면 GNU awk가 필요합니다 gensub.)

Answer

입력과 출력을 고려하면 awk 스크립트는 훨씬 간단해 보입니다.

gawk '/account number/ {
    nr=gensub(/.*account\s*number\s*([0-9]+).*/, "\\1", "g")
    print FNR "; " nr
}'

물론 계정 추출 및 출력 형식을 원하는 대로 조정해야 할 수도 있습니다. 그러나 당신은 요점을 이해합니다. (이 기능을 사용하려면 GNU awk가 필요합니다 gensub.)

Question 4

나는 이 목적으로 Perl을 사용하고 싶습니다. 다음과 같이 작동해야 합니다:

perl -ne 'print "$1; $2\n" if /^(\d+).*account number (\d+)/' input

^\d+첫 번째 및 두 번째 캡처링 그룹(괄호 안의 부분, 여기서는 숫자)을 숫자( )로 시작하고 "계좌 번호"라는 문자열과 숫자가 포함된 줄에 인쇄합니다. Perl의 줄 번호 개념을 인쇄하려면 $.대신 를 사용하십시오 $1.

Answer

나는 이 목적으로 Perl을 사용하고 싶습니다. 다음과 같이 작동해야 합니다:

perl -ne 'print "$1; $2\n" if /^(\d+).*account number (\d+)/' input

^\d+첫 번째 및 두 번째 캡처링 그룹(괄호 안의 부분, 여기서는 숫자)을 숫자( )로 시작하고 "계좌 번호"라는 문자열과 숫자가 포함된 줄에 인쇄합니다. Perl의 줄 번호 개념을 인쇄하려면 $.대신 를 사용하십시오 $1.

관련 정보