단일 Wikipedia 기사에서 전체 해상도(예: svg)의 모든 이미지를 다운로드하는 방법 [중복]

단일 Wikipedia 기사에서 전체 해상도(예: svg)의 모든 이미지를 다운로드하는 방법 [중복]

다운로드 방법을 물어보니

  • 모든(.svg) 이미지
  • Wikipedia 기사에서

각 이미지에 대해 수동으로 이 작업을 수행할 필요가 없습니다. Wikipedia는 더 복잡한 URL 구성표를 사용하여 다양한 해상도와 다양한 형식의 이미지를 제공합니다.

예시 URL:

https://en.wikipedia.org/wiki/Thirty-six_Views_of_Mount_Fuji

답변1

완벽한 해결책을 찾았어요douji.io~의Wget, Grep 및 Sed를 사용하여 웹에서 공개 도메인 배경화면을 다운로드하세요.. 나는 그것을 주요 단계로 요약하려고 노력했습니다(여기에서도 사용할 수 있도록):

  1. HTML 페이지를 다운로드하려면 다음 명령을 사용하십시오 wget.

    wget https://en.wikipedia.org/wiki/Thirty-six_Views_of_Mount_Fuji \
         -O page.html -O page.html
    
  2. grep이미지 URL을 사용하고 추출합니다 sed. 그런 다음 기사에서 URL을 추출하여 새 파일에 씁니다. URL.txt:

    grep -E "(https?:)?//[^/\s]+/\S+\.(jpg|png|gif|svg)" page.html -o | 
    sed "s/(^https?)?\/\//https\:\/\//g" -r > urls.txt
    
  3. 다음 명령을 사용하여 이미지를 다운로드합니다 wget.

    • 엄지 이미지
      썸 이미지만 필요한 경우 다음을 사용하여 실행할 수 있습니다.

      wget -i urls.txt -P downloads/
      
    • 전체 크기 이미지
      전체 크기 이미지를 얻으려면 URL 파일(URL.txt)을 새 파일(urls-new.txt):

      sed -E "s/\/thumb//g; s/\/[0-9]+px-.+\.(jpg|png)$//g" urls.txt |
      uniq > urls-new.txt
      

      그런 다음 다운로드를 다시 시작하십시오.

      wget -i urls-new.txt -P downloads_full_size/
      

링크된 기사에 대한 전체 크레딧입니다.

관련 정보