보관된 웹사이트에서 모든 링크(다운로드 제외)를 추출하고 인쇄합니다.

Question 1

미러 사이트를 사용할 수도 있지만 wget, 아무것도 다운로드하지 않도록 웹 스파이더 역할을 하도록 지정할 수도 있습니다.

따라서 이렇게 할 수 있지만 로그를 저장해야 합니다.

wget --no-directories --mirror --spider "$url" 2>&1 | tee "$log"

내 경우에는 로그에서 다음과 같은 내용을 발견했습니다.

Spider mode enabled. Check if remote file exists.
--2017-12-19 07:19:23--  URL

grep그런 다음 URL을 검색하는 데 사용합니다 .

grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' "$log"

예:

$ wget --no-directories --mirror --spider https://utw.me/file/scripts/ 2>&1 | tee log.txt
...
$ grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' log.txt
...
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2001.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2002.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2003.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2004.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2005.ass
...

Answer

미러 사이트를 사용할 수도 있지만 wget, 아무것도 다운로드하지 않도록 웹 스파이더 역할을 하도록 지정할 수도 있습니다.

따라서 이렇게 할 수 있지만 로그를 저장해야 합니다.

wget --no-directories --mirror --spider "$url" 2>&1 | tee "$log"

내 경우에는 로그에서 다음과 같은 내용을 발견했습니다.

Spider mode enabled. Check if remote file exists.
--2017-12-19 07:19:23--  URL

grep그런 다음 URL을 검색하는 데 사용합니다 .

grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' "$log"

예:

$ wget --no-directories --mirror --spider https://utw.me/file/scripts/ 2>&1 | tee log.txt
...
$ grep -P -o -e '(?<=^--....-..-.. ..:..:..--  )(.*)' log.txt
...
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2001.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2002.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2003.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2004.ass
https://utw.me/file/scripts/Fate%20Zero/%5BUTW%5D%20Fate%20Zero%20-%2005.ass
...

Question 2

내 생각엔 당신이 검색에 갇힌 것 같아요.https://www.asite.com/Books/(에서https://www.asite.com/) 그리고https://www.asite.com/(하위 디렉터리 중 하나에서).

wget, 다양한 조건에서 항목을 다운/가져오도록 curl선택할 lynx수 있습니다(초기 사이트를 떠나지 말고 최대 깊이는 X, ftp 사용 등).

추신.:

전체 코드를 표시하지 않았습니다.
인수를 사용하여 호출 print_directory_items하지만 가져오지 않습니다(로컬이라고 함 $1).
$( )백틱 보다 낫다

Answer

내 생각엔 당신이 검색에 갇힌 것 같아요.https://www.asite.com/Books/(에서https://www.asite.com/) 그리고https://www.asite.com/(하위 디렉터리 중 하나에서).

wget, 다양한 조건에서 항목을 다운/가져오도록 curl선택할 lynx수 있습니다(초기 사이트를 떠나지 말고 최대 깊이는 X, ftp 사용 등).

추신.:

전체 코드를 표시하지 않았습니다.
인수를 사용하여 호출 print_directory_items하지만 가져오지 않습니다(로컬이라고 함 $1).
$( )백틱 보다 낫다

보관된 웹사이트에서 모든 링크(다운로드 제외)를 추출하고 인쇄합니다.

답변1

답변2

관련 정보