배열 구축

Question

스크립트에는 낭비처럼 보이고 효율성이라는 이름으로 재배치될 수 있는 일부 부분이 있습니다.

배열 구축

grep 'Errorcode' logfile >> ./grablog
NumOfErrors=$(grep -c 'Errorcode' grablog)

AllPrimaryReferences=($(sed -r 's/^.*(<Referencetag>)([^<]*)(<\/Referencetag>).*$/\2/g' grablog))

나중에 "NumOfErrors"를 종료 조건으로 사용하고 +=2while 루프를 사용하여 배열을 반복합니다. 를 통해 직접 배열의 길이에 액세스할 수 있습니다 ${#arrayname[@]}.

즉, 한 번만 읽어야 하거나 grablog파이프에서 읽어야 하므로 임시 파일이 제거됩니다.

AllPrimaryReferences=( $(grep 'Errorcode' logfile | sed -r '...' | uniq ) )
NumOfRefs=${#AllPrimaryReferences[@]}

uniq중복 항목을 +=2건너뛰기 위해 사용하는 대신 제거 해야 합니다 . 나는 그들이 항상 서로 쌍을 이루고 있다고 가정하고 있습니다(로그 파일을 볼 수 없기 때문에 확인할 수 없습니다). 그렇지 않은 경우 sort이전에 추가 할 수 있지만 uniq항목이 많으면 속도가 느려집니다.

그러나 루프 내부의 스크립트 부분은 더 많은 주의를 기울여야 하는 부분입니다.

변수 추출`sed`

sed각 루프를 두 번 실행하면 속도가 느려질까 봐 걱정됩니다 . 이를 방지할 수 있는 몇 가지 방법은 다음과 같습니다.

둘이 하나로`sed`

sed하나의 명령으로 전체 라인을 배열로 연결하여 두 개의 변수를 추출 할 수 있습니까 ?

ts_task=( $(echo "$Reference" | sed 's/\(timestamp_regex\).*\(task_regex\)/\1 \2/' ) )
timestamp="${ts_task[0]}"
task="${ts_task[1]}"

`bash`대안 사용

sed어쩌면 전혀 필요하지 않고 $References필요한 부분 문자열을 추출할 수도 있습니다.매개변수 확장. 예를 들어. 첫 번째 공백 이전의 모든 내용을 추출합니다.

timestamp=${References%% *}

명명된 파이프 사용

걱정된다면시작 sed천천히 해라, 너할 수 있다루프가 시작되기 전에 백그라운드에서 시작하고 명명된 파이프를 사용하여 메인 루프와 통신합니다. 읽기/쓰기가 중단된 프로세스를 기억하고 이를 백그라운드에 두거나 적절하게 기다려야 하기 때문에 이는 지루할 수 있습니다.

전체 입력 파일을 두 번 읽고 매번 한 번씩 반복합니다.

이것은 아마도 가장 느린 부분이고 개선 가능성이 가장 큰 부분일 것입니다.

참조에서 세부정보 추출

귀하의 의견에서 인용문당 한 줄만 있다고 언급하셨습니다 blablabla. 이는 첫 번째 라운드가 grep전체 입력 파일을 보고 일치하는 항목에서 중지한 다음 다음 라운드가 처음부터 시작하여 다음 항목을 찾는다는 것을 의미합니다.

참조당 이러한 라인이 하나만 있는 경우 전체 "배열 구축" 단계는 아마도 불필요하며 루프를 직접 입력할 수 있습니다.

grep 'blablablabla = ' logfile | # match each line that defines a primary reference
  sed '...' |                    # command to extract just the timestamp and taskname
  while read ts task ; do        # assign the two required variables

    # use ts and task to extract everything as before

  done

이는 grep두 개의 s 중 첫 번째가 이제 루프 외부에 있으므로 한 번만 실행된다는 것을 의미합니다.

결과 필터링

행의 하위 집합을 덤프 tempfile한 다음 grep잠시 동안 결과에 대해 실행합니다. 이전과 마찬가지로 이 두 단계를 파이프라인으로 결합하면 임시 파일 사용을 피할 수 있습니다.

grep "$task" logfile | grep "$timestamp" >> output

또는 전체 줄의 형식에 대해 충분히 알고 있는 경우

grep "$timestamp <match other part of line> $task" logfile >> output

전체 알고리즘

이러한 모든 개선 사항에도 불구하고 전체 로그 파일을 다시 읽고 모든 참조/작업에 대해 해당 파일의 모든 줄을 다시 확인하는 병목 현상이 발생할 수 있습니다. 이는 필요한 줄이 로그 파일의 어느 위치에나 어떤 순서로든 나타날 수 있는 경우에 적합합니다. 이는 모든 줄을 찾는 무차별 대입 방법이므로 시간이 오래 걸립니다.

근데 너가 갖고 있잖아힌트구조와 컨텍스트("첫 번째 및 마지막 행", "첫 번째 항목")를 사용하면 더 스마트한 접근 방식이 가능합니다. 입력 파일의 구조/순서에 대해 더 많이 알고 있는 경우 작업 중복을 피하기 위해 추가 단축키를 사용할 수 있습니다.

'위치 저장' 및 '저장된 위치로 돌아가기' 방법을 문의하셨습니다. grep -n각 일치 항목의 줄 번호를 보고합니다.tail(1)이 명령은 파일 시작 부분에서 여러 줄을 건너뛸 수 있지만 줄 바꿈을 찾으려면 파일을 다시 읽어야 합니다. 전체 파일을 while read루프로 처리할 수 있을까요?

Answer 1

스크립트에는 낭비처럼 보이고 효율성이라는 이름으로 재배치될 수 있는 일부 부분이 있습니다.

배열 구축

grep 'Errorcode' logfile >> ./grablog
NumOfErrors=$(grep -c 'Errorcode' grablog)

AllPrimaryReferences=($(sed -r 's/^.*(<Referencetag>)([^<]*)(<\/Referencetag>).*$/\2/g' grablog))

나중에 "NumOfErrors"를 종료 조건으로 사용하고 +=2while 루프를 사용하여 배열을 반복합니다. 를 통해 직접 배열의 길이에 액세스할 수 있습니다 ${#arrayname[@]}.

즉, 한 번만 읽어야 하거나 grablog파이프에서 읽어야 하므로 임시 파일이 제거됩니다.

AllPrimaryReferences=( $(grep 'Errorcode' logfile | sed -r '...' | uniq ) )
NumOfRefs=${#AllPrimaryReferences[@]}

uniq중복 항목을 +=2건너뛰기 위해 사용하는 대신 제거 해야 합니다 . 나는 그들이 항상 서로 쌍을 이루고 있다고 가정하고 있습니다(로그 파일을 볼 수 없기 때문에 확인할 수 없습니다). 그렇지 않은 경우 sort이전에 추가 할 수 있지만 uniq항목이 많으면 속도가 느려집니다.

그러나 루프 내부의 스크립트 부분은 더 많은 주의를 기울여야 하는 부분입니다.

변수 추출`sed`

sed각 루프를 두 번 실행하면 속도가 느려질까 봐 걱정됩니다 . 이를 방지할 수 있는 몇 가지 방법은 다음과 같습니다.

둘이 하나로`sed`

sed하나의 명령으로 전체 라인을 배열로 연결하여 두 개의 변수를 추출 할 수 있습니까 ?

ts_task=( $(echo "$Reference" | sed 's/\(timestamp_regex\).*\(task_regex\)/\1 \2/' ) )
timestamp="${ts_task[0]}"
task="${ts_task[1]}"

`bash`대안 사용

sed어쩌면 전혀 필요하지 않고 $References필요한 부분 문자열을 추출할 수도 있습니다.매개변수 확장. 예를 들어. 첫 번째 공백 이전의 모든 내용을 추출합니다.

timestamp=${References%% *}

명명된 파이프 사용

걱정된다면시작 sed천천히 해라, 너할 수 있다루프가 시작되기 전에 백그라운드에서 시작하고 명명된 파이프를 사용하여 메인 루프와 통신합니다. 읽기/쓰기가 중단된 프로세스를 기억하고 이를 백그라운드에 두거나 적절하게 기다려야 하기 때문에 이는 지루할 수 있습니다.

전체 입력 파일을 두 번 읽고 매번 한 번씩 반복합니다.

이것은 아마도 가장 느린 부분이고 개선 가능성이 가장 큰 부분일 것입니다.

참조에서 세부정보 추출

귀하의 의견에서 인용문당 한 줄만 있다고 언급하셨습니다 blablabla. 이는 첫 번째 라운드가 grep전체 입력 파일을 보고 일치하는 항목에서 중지한 다음 다음 라운드가 처음부터 시작하여 다음 항목을 찾는다는 것을 의미합니다.

참조당 이러한 라인이 하나만 있는 경우 전체 "배열 구축" 단계는 아마도 불필요하며 루프를 직접 입력할 수 있습니다.

grep 'blablablabla = ' logfile | # match each line that defines a primary reference
  sed '...' |                    # command to extract just the timestamp and taskname
  while read ts task ; do        # assign the two required variables

    # use ts and task to extract everything as before

  done

이는 grep두 개의 s 중 첫 번째가 이제 루프 외부에 있으므로 한 번만 실행된다는 것을 의미합니다.

결과 필터링

행의 하위 집합을 덤프 tempfile한 다음 grep잠시 동안 결과에 대해 실행합니다. 이전과 마찬가지로 이 두 단계를 파이프라인으로 결합하면 임시 파일 사용을 피할 수 있습니다.

grep "$task" logfile | grep "$timestamp" >> output

또는 전체 줄의 형식에 대해 충분히 알고 있는 경우

grep "$timestamp <match other part of line> $task" logfile >> output

전체 알고리즘

이러한 모든 개선 사항에도 불구하고 전체 로그 파일을 다시 읽고 모든 참조/작업에 대해 해당 파일의 모든 줄을 다시 확인하는 병목 현상이 발생할 수 있습니다. 이는 필요한 줄이 로그 파일의 어느 위치에나 어떤 순서로든 나타날 수 있는 경우에 적합합니다. 이는 모든 줄을 찾는 무차별 대입 방법이므로 시간이 오래 걸립니다.

근데 너가 갖고 있잖아힌트구조와 컨텍스트("첫 번째 및 마지막 행", "첫 번째 항목")를 사용하면 더 스마트한 접근 방식이 가능합니다. 입력 파일의 구조/순서에 대해 더 많이 알고 있는 경우 작업 중복을 피하기 위해 추가 단축키를 사용할 수 있습니다.

'위치 저장' 및 '저장된 위치로 돌아가기' 방법을 문의하셨습니다. grep -n각 일치 항목의 줄 번호를 보고합니다.tail(1)이 명령은 파일 시작 부분에서 여러 줄을 건너뛸 수 있지만 줄 바꿈을 찾으려면 파일을 다시 읽어야 합니다. 전체 파일을 while read루프로 처리할 수 있을까요?

배열 구축

답변1

배열 구축

변수 추출`sed`

둘이 하나로`sed`

`bash`대안 사용

명명된 파이프 사용

전체 입력 파일을 두 번 읽고 매번 한 번씩 반복합니다.

참조에서 세부정보 추출

결과 필터링

전체 알고리즘

관련 정보

답변1

배열 구축

변수 추출sed

둘이 하나로sed

bash대안 사용

명명된 파이프 사용

전체 입력 파일을 두 번 읽고 매번 한 번씩 반복합니다.

참조에서 세부정보 추출

결과 필터링

전체 알고리즘

관련 정보

변수 추출`sed`

둘이 하나로`sed`

`bash`대안 사용