많은 URL 시리즈의 긴 목록에서 동일한 도메인을 가진 시리즈의 마지막 URL을 제외한 모든 항목을 제거합니다.

Question

이렇게 하면 됩니다:

cat input.txt | \
gawk -e '{match($0, /(https?:\/\/(?:www.)?[a-zA-Z0-9-]+?[a-z0-9.]+)/, url)} \
!a[url[1]]++{ \
    b[++count]=url[1] \
} \
{ \
    c[url[1]]=$0 \
} \
END{ \
    for(i=1;i<=count;i++){ \
        print c[b[i]] \
    } \
}' > output.txt

정규식은 아마도 많이 단순화될 수 있고 도메인 이름의 더 많은 변형을 포착할 수 있지만 제 경우에는 잘 작동합니다. 이 awk명령은 다음에서 수정되었습니다.이것답변. (흥미롭게도 누군가 내 질문에서 "bash" 태그를 제거한 반면, 나에게 정말 도움이 되었던 답변은 "bash" 태그가 붙어 있었습니다...

이것에 대해 더 생각해 보면, 일치하는 도메인을 끝에 별도의 "필드"로 추가하기 위해 질문을 사용하고, 고유 정렬을 사용하여 마지막 도메인을 선택한 다음 끝에 도메인 "필드"를 제거하거나, 오히려 다음을 사용할 수도 있다고 생각합니다. Ask는 정렬 후 고유한 원래 URL인 첫 번째 "필드"만 인쇄합니다.

Answer 1

이렇게 하면 됩니다:

cat input.txt | \
gawk -e '{match($0, /(https?:\/\/(?:www.)?[a-zA-Z0-9-]+?[a-z0-9.]+)/, url)} \
!a[url[1]]++{ \
    b[++count]=url[1] \
} \
{ \
    c[url[1]]=$0 \
} \
END{ \
    for(i=1;i<=count;i++){ \
        print c[b[i]] \
    } \
}' > output.txt

정규식은 아마도 많이 단순화될 수 있고 도메인 이름의 더 많은 변형을 포착할 수 있지만 제 경우에는 잘 작동합니다. 이 awk명령은 다음에서 수정되었습니다.이것답변. (흥미롭게도 누군가 내 질문에서 "bash" 태그를 제거한 반면, 나에게 정말 도움이 되었던 답변은 "bash" 태그가 붙어 있었습니다...

이것에 대해 더 생각해 보면, 일치하는 도메인을 끝에 별도의 "필드"로 추가하기 위해 질문을 사용하고, 고유 정렬을 사용하여 마지막 도메인을 선택한 다음 끝에 도메인 "필드"를 제거하거나, 오히려 다음을 사용할 수도 있다고 생각합니다. Ask는 정렬 후 고유한 원래 URL인 첫 번째 "필드"만 인쇄합니다.

많은 URL 시리즈의 긴 목록에서 동일한 도메인을 가진 시리즈의 마지막 URL을 제외한 모든 항목을 제거합니다.

답변1

관련 정보