경로 지정을 가장 긴 공통 접두사 + 접미사로 분해

경로 지정을 가장 긴 공통 접두사 + 접미사로 분해

두 개의 Unix 절대 경로가 주어지면안경그림 1에 표시된 것처럼 각 사양은 가장 긴 공통 접두사와 특정 접미사의 연결로 분해될 수 있습니다. 예를 들어,

/abc/bcd/cdf     -> /abc/bcd + cdf
/abc/bcd/chi/hij -> /abc/bcd + chi/hij

그러한 분해를 계산하는 Unix 유틸리티가 있습니까? (가장 긴 공통 접두사 계산과 상대 경로 계산을 위한 별도의 유틸리티가 있는 경우 "또는 유틸리티"를 추가했습니다.)

(이러한 유틸리티를 작성하는 것이 크게 어렵지 않다는 것을 알고 있지만 가능하면 사용자 정의 도구보다 다소 표준적인 도구를 우선시하려고 노력합니다.)

1 주어진 파일 시스템에서 (경로)의 존재, 링크 등의 문제를 회피하기 위해 "경로" 대신 "경로 지정"을 씁니다 .

답변1

다음을 사용하여 행 목록의 가장 긴 공통 선행 하위 문자열을 계산할 수 있습니다.

sed -e '1{h;d;}' -e 'G;s,\(.*\).*\n\1.*,\1,;h;$!d'

예를 들어:

/abc/bcd/cdf
/abc/bcd/cdf/foo
/abc/bcd/chi/hij
/abc/bcd/cdd

반품:

/abc/bcd/c

경로 구성요소로 제한하려면 다음을 수행하십시오.

sed -e 's,$,/,;1{h;d;}' -e 'G;s,\(.*/\).*\n\1.*,\1,;h;$!d;s,/$,,'

( /abc/bcd위의 예시로 돌아갑니다).

답변2

쉘 루프에서 이 작업을 수행할 수 있습니다. 아래 코드는 슬래시가 추가된 모든 종류의 이상한 경로에 대해 작동합니다. 모든 경로가 이 형식인 경우 더 /foo/bar간단한 것을 사용할 수 있습니다.

split_common_prefix () {
  path1=$1
  path2=$2
  common_prefix=
  ## Handle initial // specially
  case $path1 in
    //[!/]*) case $path2 in
               //[!/]*) common_prefix=/ path1=${path1#/} path2=${path2#/};;
               *) return;;
             esac;;
    /*) case $path2 in
          /*) :;;
          *) return;;
        esac;;
    *) case $path2 in /*) return;; esac;;
  esac
  ## Normalize multiple slashes
  trailing_slash1= trailing_slash2=
  case $path1 in */) trailing_slash1=/;; esac
  case $path2 in */) trailing_slash2=/;; esac
  path1=$(printf %s/ "$path1" | tr -s / /)
  path2=$(printf %s/ "$path2" | tr -s / /)
  if [ -z "$trailing_slash1" ]; then path1=${path1%/}; fi
  if [ -z "$trailing_slash2" ]; then path2=${path2%/}; fi
  ## Handle the complete prefix case (faster, necessary for equality and
  ## for some cases with trailing slashes)
  case $path1 in
    "$path2")
      common_prefix=$path1; path1= path2=
      return;;
    "$path2"/*)
      common_prefix=$path2; path1=${path1#$common_prefix} path2=
      return;;
  esac
  case $path2 in
    "$path1"/*)
      common_prefix=$path1; path1= path2=${path2#$common_prefix}
      return;;
  esac
  ## Handle the generic case
  while prefix1=${path1%%/*} prefix2=${path2%%/*}
        [ "$prefix1" = "$prefix2" ]
  do
    common_prefix=$common_prefix$prefix1/
    path1=${path1#$prefix1/} path2=${path2#$prefix1/}
  done
}

또는,두 문자열의 가장 긴 공통 접두사 결정그리고 이를 마지막 문자까지 자릅니다 /(공통 접두사가 슬래시로만 구성되지 않는 한).

답변3

제가 아는 한 그런 도구는 없습니다. 그러나 가장 긴 구성 요소 그룹을 결정해야 하기 때문에 이러한 프로그램을 쉽게 작성할 수 있습니다.

"한 줄" 예:

echo /abc/bcd/cdf | awk -vpath=/abc/bcd/chi/hij -F/ '{ OFS="\n";len=0; split(path, components); for (i=1; i<=NF; i++) if($i == components[i])len+=1+length($i);else break;print substr($0, 1, len - 1), substr($0, len + 1), substr(path, len + 1);exit;}

주석이 달린 형식의 버전:

$ cat longest-path.awk
#!/usr/bin/awk -f
BEGIN {
    FS="/";   # split by slash
}
{
    len=0;                      # initially the longest path has length 1
    split(path, components);    # split by directory separator (slash)
    for (i=1; i<=NF; i++) {     # loop through all path components
        if ($i == components[i]) {
            len += 1 + length($i);
        } else {
            break;              # if there is a mismatch, terminate
        }
    }
    print substr($0, 1, len - 1);  # longest prefix minus slash
    print substr($0, len + 1);     # remainder stdin
    print substr(path, len + 1);   # remainder path
    exit;                          # only the first line is compared
}
$ echo  /abc/bcd/cdf | ./longest-path.awk -vpath=/abc/bcd/chi/hij
/abc/bcd
cdf
chi/hij

답변4

Stéphane Chazelas가 sed 기반 솔루션을 시연했습니다. 조금 다른 내용을 접했습니다ack에 대한 sed 표현식이 질문에 답하기 위해 아래에 맞춤설정했습니다. 특히 경로 구성 요소로 제한하고 경로 구성 요소에서 개행 가능성을 처리했습니다. 그런 다음 이를 사용하여 경로 사양을 다음과 같이 분해하는 방법을 보여줍니다.가장 긴 공통 부팅 경로 구성 요소+나머지 경로 구성 요소.

우리는부터 시작하겠습니다ack에 대한 sed 표현식(저는 ERE 구문으로 전환했습니다. ① ) :

sed -E '$!{N;s/^(.*).*\n\1.*$/\1\n\1/;D;}' <<"EOF'
/abc/bcd/cdf
/abc/bcd/cdf/foo
/abc/bcd/chi/hij
/abc/bcd/cdd
EOF

/abc/bcd/c예상대로다. ✔️

경로 구성요소로 제한하려면 다음을 수행하십시오.

sed -E '$!{N;s|^(.*/).*\n\1.*$|\1\n\1|;D;};s|/$||' <<'EOF'
/abc/bcd/cdf
/abc/bcd/cdf/foo
/abc/bcd/chi/hij
/abc/bcd/cdd
EOF

/abc/bcd예상대로다. ✔️

개행으로 경로 구성요소 처리

테스트 목적으로 다음 경로 지정 배열을 사용합니다.

a=(
  $'/a\n/b/\nc  d\n/\n\ne/f'
  $'/a\n/b/\nc  d\n/\ne/f'
  $'/a\n/b/\nc  d\n/\ne\n/f'
  $'/a\n/b/\nc  d\n/\nef'
)

검사를 통해 가장 긴 공통 부팅 경로 구성 요소가 다음과 같다는 것을 알 수 있습니다.

$'/a\n/b/\nc  d\n'

이는 다음을 통해 계산되고 변수로 캡처될 수 있습니다.

longest_common_leading_path_component=$(
  printf '%s\0' "${a[@]}" \
    | sed -zE '$!{N;s|^(.*/).*\x00\1.*$|\1\x00\1|;D;};s|/$||' \
    | tr \\0 x # replace trailing NUL with a dummy character ②
)
# Remove the dummy character
longest_common_leading_path_component=${longest_common_leading_path_component%x} 
# Inspect result
echo "${longest_common_leading_path_component@Q}" # ③

결과:

$'/a\n/b/\nc  d\n'

예상대로. ✔️


테스트 사례를 계속해서 이제 경로 사양을 다음으로 분해하는 방법을 보여줍니다.가장 긴 공통 부팅 경로 구성 요소+나머지 경로 구성 요소다음과 같은 내용이 있습니다:

for e in "${a[@]}"; do
  remainder=${e#"$longest_common_leading_path_component/"}
  printf '%-26s -> %s + %s\n' \
    "${e@Q}" \
    "${longest_common_leading_path_component@Q}" \
    "${remainder@Q}"
done

결과:

$'/a\n/b/\nc  d\n/\n\ne/f' -> $'/a\n/b/\nc  d\n' + $'\n\ne/f'
$'/a\n/b/\nc  d\n/\ne/f'   -> $'/a\n/b/\nc  d\n' + $'\ne/f'
$'/a\n/b/\nc  d\n/\ne\n/f' -> $'/a\n/b/\nc  d\n' + $'\ne\n/f'
$'/a\n/b/\nc  d\n/\nef'    -> $'/a\n/b/\nc  d\n' + $'\nef'

① 나는 항상 -Esed와 grep에 옵션을 추가하여 전환합니다.오히려awk, bash, perl, javascript 및 java와 같이 내가 사용하는 다른 도구/언어와 더 잘 일치하도록 구문을 사용합니다.

② 이 명령 대체에서 후행 줄 바꿈을 유지하기 위해 다음을 사용합니다.일반적으로 사용되는 기술이후에 잘려진 더미 캐릭터를 추가합니다. x한 단계에서 후행 NUL 제거와 (선택한) 더미 문자 추가를 결합 합니다 tr \\0 x.

${parameter@Q}확장 결과는 "입력으로 반복적으로 사용할 수 있는 형식으로 인용된 매개변수 값인 문자열"입니다. –배쉬 참조 매뉴얼. 배쉬 4.4+ 필요 (논의하다). 그렇지 않으면 다음 방법 중 하나를 사용하여 결과를 확인할 수 있습니다.

printf '%q' "$longest_common_leading_path_component"
printf '%s' "$longest_common_leading_path_component" | od -An -tc
od -An -tc < <(printf %s "$longest_common_leading_path_component")
od -An -tc <<<$longest_common_leading_path_component # ④

④ 여기서 문자열은 줄바꿈을 추가한다는 점에 유의하세요(논의하다).

관련 정보