- 내 파일에는 500개의 URL이 있습니다.
- 이 URL에 나타나는 모든 링크를 추출해야 합니다.
Lynx를 사용하여 파일을 읽고 파일의 링크를 추출하는 방법은 무엇입니까?
아래 예는 file.txt
한 줄에 1링크, 총 500줄입니다.
https://itunes.apple.com/
https://play.google.com/
... 등
답변1
향상된 스크립트는 다음과 같습니다.
#!/bin/sh
cat file.txt |while read url
do
lynx -listonly -dump "$url"
done |
awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \
sort -u
lynx가 인식하는 모든 유형의 URL이 허용됩니다(예: ftp 포함). 스크립트는 결과를 정렬하여 중복을 제거합니다(Lynx는 기본적으로 이 작업을 수행하지 않습니다).
추가 자료:
답변2
목록과 함께 list.txt를 호출하세요.
for i in $(cat list.txt)
do
lynx -accept_all_cookies -dump $i |grep "http" |sed -e "s/^.*http/http/"
done
출력을 일부 파일로 리디렉션하는 것이 좋습니다.