cURL을 사용하여 웹사이트의 모든 경로를 얻는 방법

cURL을 사용하여 웹사이트의 모든 경로를 얻는 방법

curl //website// 나에게 소스 코드를 제공할 것입니다. 그런데 거기에서 어떻게 각 고유 경로를 필터링하고 개수를 얻을 수 있습니까?

질문:

컴퓨터에서 cURL을 사용하여 "https://www.inlanefreight.com" 웹사이트의 소스 코드를 얻고 해당 도메인에 대한 모든 고유 경로를 필터링하세요. 이러한 경로의 수를 답변으로 제출하세요.

질문에서 "UNIQUE PATHS"가 무엇을 의미하는지 모르지만 그 의미는 실행에서 얻은 것과 유사하다고 가정합니다. $wget -p


이 방법을 사용했는데 어떻게 든 작동했습니다

wget --spider --recursive https://www.inlanefreight.com

이 표시됩니다

Found 10 broken links.

https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.svg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/testimonial-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/css/grabbing.png
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff2
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/subscriber-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot?
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/fun-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.ttf

FINISHED --2020-12-06 05:34:58--
Total wall clock time: 2.5s
Downloaded: 23 files, 794K in 0.1s (5.36 MB/s)

하단에. 23개의 다운로드와 10개의 깨진 링크를 합산하면 내가 얻는 유일한 경로인 33이 정답이라고 가정합니다.

답변1

이 방법을 사용했는데 어떻게 든 작동했습니다

$ wget --spider --recursive https://www.inlanefreight.com

이것은 표시됩니다 -

Found 10 broken links.

https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.svg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/testimonial-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/css/grabbing.png
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.woff2
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/subscriber-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.eot?
https://www.inlanefreight.com/wp-content/themes/ben_theme/images/fun-back.jpg
https://www.inlanefreight.com/wp-content/themes/ben_theme/fonts/glyphicons-halflings-regular.ttf

FINISHED --2020-12-06 05:34:58--
Total wall clock time: 2.5s
Downloaded: 23 files, 794K in 0.1s (5.36 MB/s)

-하단에. 이제 23개의 다운로드와 10개의 깨진 링크가 추가되어 33에 도달하는 유일한 경로가 정답이라고 가정해 보겠습니다.

답변2

이것이 내가 생각해낸 것입니다:

 curl https://www.inlanefreight.com/ | grep -Po 'https://www.inlanefreight.com/\K[^"\x27]+' | sort -u  | wc -l

정규식을 사용하여 해결하려는 것인지 모르겠습니다.

답변3

cURL과 grep, tr, sort, cut, wc 및 추가 도구 uniq와 같은 필터링 도구를 사용하세요. 내 결과는 정확하지 않습니다(34). 33은 정확합니다. 아직도 어떤 경로가 중복되는지 확실하지 않습니다.:(

curl https://www.inlanefreight.com --insecure > ilf

cat ilf | grep "https://www.inlanefreight.com" > ilf.1

cat ilf.1 | tr " " "\n" | sort | grep "inlanefreight.com" | cut -d'"' -f2 | sort | cut -d"'" -f2 | sort | uniq -c > ilf.2

cat ilf.2 | wc -l

$> 34

나는 이것이 중복된 소스라고 생각합니다(이 라인의 경우 cat ilf.2).

<snip>
1 https://www.inlanefreight.com/index.php/wp-json/oembed/1.0/embed?url=https%3A%2F%2Fwww.inlanefreight.com%2F
1 https://www.inlanefreight.com/index.php/wp-json/oembed/1.0/embed?url=https%3A%2F%2Fwww.inlanefreight.com%2F&#038;format=xml
<snip>

"?"에서 이 문제를 해결하세요.

cat ilf.1 | tr " " "\n" | sort | grep "inlanefreight.com" | cut -d'"' -f2 | sort | cut -d"'" -f2 | sort | cut -d"?" -f1 | uniq -c | wc -l
$> 33

정답은 33입니다.

답변4

TL;DR;: 그럴 수 없습니다.

wget 맨페이지에서:

"-p 옵션을 사용하면 Wget이 특정 HTML 페이지를 올바르게 표시하는 데 필요한 모든 파일을 다운로드하게 됩니다. 여기에는 인라인 이미지, 사운드, 참조 스타일 시트 등이 포함됩니다."

이것이 특징입니다 wget. curl단일 http 명령(간체)을 실행하는 소프트웨어/라이브러리입니다. wget전체 웹 사이트 및 필요한 항목을 다운로드하는 것과 같은 몇 가지 기능이 있습니다.설명하다콘텐츠. 이 기능은 Web 1.0 시대에는 작동했지만 웹 사이트에서 wget.https://www.inlanefreight.com다음 테마를 갖춘 WordPress 웹사이트입니다.https://themeansar.com/그러니 거기에서 구매하고 해석하고 대본을 작성하고 제대로 수행되기를 바랍니다.

하지만 어서,https://www.inlanefreight.com6페이지와 PDF 파일이 있습니다. 클릭하면 셀 수 있습니다. 이는 WordPress를 찾는 데 필요한 것보다 빠릅니다.

관련 정보