Lynx는 파일에서 URL을 읽고 링크를 다운로드합니다.

Lynx는 파일에서 URL을 읽고 링크를 다운로드합니다.
  1. 내 파일에는 500개의 URL이 있습니다.
  2. 이 URL에 나타나는 모든 링크를 추출해야 합니다.

Lynx를 사용하여 파일을 읽고 파일의 링크를 추출하는 방법은 무엇입니까?

아래 예는 file.txt한 줄에 1링크, 총 500줄입니다.

https://itunes.apple.com/
https://play.google.com/

... 등

답변1

향상된 스크립트는 다음과 같습니다.

#!/bin/sh
cat file.txt |while read url
do
    lynx -listonly -dump "$url"
done |
awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \
sort -u

lynx가 인식하는 모든 유형의 URL이 허용됩니다(예: ftp 포함). 스크립트는 결과를 정렬하여 중복을 제거합니다(Lynx는 기본적으로 이 작업을 수행하지 않습니다).

추가 자료:

답변2

목록과 함께 list.txt를 호출하세요.

for i in $(cat list.txt) 
do 
  lynx -accept_all_cookies -dump $i |grep "http" |sed -e "s/^.*http/http/"
done

출력을 일부 파일로 리디렉션하는 것이 좋습니다.

관련 정보