대용량 파일에서 URL 추출

Question 1

~에 따르면https://stackoverflow.com/a/7109208/1745001URL의 유효한 문자는 다음과 같습니다.

AZ, az, 0-9, -, ., _, ~, :, /, ?, #, [, ], @, !, $, &, ', (, ), *, +, ,, ;, % 및 =

따라서 이것이 사실이라고 가정하면 다음을 시도해 볼 수 있습니다.

grep -o -E "https?://[][[:alnum:]._~:/?#@!$&'()*+,;%=-]+" file

이러한 문자 중 일부는 특정 컨텍스트에만 존재할 수 있기 때문에 여전히 100% 정확하지 않을 수 있지만 아마도 간단한 grep/regexp를 사용하여 수행할 수 있는 최선일 것입니다.

grep이 이를 지원하는 경우 약간의 추가 제약을 위해 \<t 앞에 단어 경계를 추가하십시오(예: GNU grep에서) http.

Answer