불완전한 링크 배열 수정

Question 1

이를 달성하는 데 사용할 수 있는 샘플 스크립트는 다음과 같습니다.

#!/bin/bash

shopt -s extglob
readonly URL="https://google.com"
links=($(grep -o -P '(?<=href=").*(?=")' source.html)) # read into array

for ((i=0; i<${#links[@]}; i++))
do
  case ${links[$i]} in
    http*)
      : # do nothing
      ;;
    /*)  
      links[$i]="$URL"${links[$i]}; # update array
      ;; 
    *)
      links[$i]="$URL/"${links[$i]}; # update array
      ;;
  esac
done

source.html현재 디렉터리에 있는 웹 페이지의 다운로드 소스로 가정됩니다 .

Answer

이를 달성하는 데 사용할 수 있는 샘플 스크립트는 다음과 같습니다.

#!/bin/bash

shopt -s extglob
readonly URL="https://google.com"
links=($(grep -o -P '(?<=href=").*(?=")' source.html)) # read into array

for ((i=0; i<${#links[@]}; i++))
do
  case ${links[$i]} in
    http*)
      : # do nothing
      ;;
    /*)  
      links[$i]="$URL"${links[$i]}; # update array
      ;; 
    *)
      links[$i]="$URL/"${links[$i]}; # update array
      ;;
  esac
done

source.html현재 디렉터리에 있는 웹 페이지의 다운로드 소스로 가정됩니다 .

Question 2

정규식을 사용하여 HTML을 구문 분석하는 방법은 셀 수 없이 많습니다.오류. 이는 HTML 파일에서 URL을 추출하는 것처럼 겉으로는 단순해 보이는 작업에도 해당됩니다.

따라서 정규식을 사용하지 마십시오. 다음과 같이 사용하십시오.

#! /bin/bash

htmlfile='./file.html'
URL='https://google.com'

links=($(lynx -dump -listonly -nonumbers -force_html "$htmlfile" | 
         sed -e "s=^file://=$URL="))

printf "%s\n" "${links[@]}"

이것이 필요하다살쾡이설치되어 있습니다. lynxncurses를 기반으로 한 텍스트 모드 웹 브라우저입니다. 여기서 사용된 것은 lynx이미 해결된 HTML 파일의 링크 목록을 생성하는 것입니다.생각보다 훨씬 더 어렵다HTML 콘텐츠(브라우저 작업의 중요한 부분)에서 URL을 안정적으로 찾는 방법에 대한 문제입니다. URL을 추출하기 위해 HTML을 구문 분석하는 데 좋은 라이브러리 모듈이 있거나 perl같은 다른 언어가 있습니다. python쉘 스크립트의 경우 lynx.

man lynx자세히보다.

lynxLinux 배포판이나 기타 UNIX 유사 운영 체제용으로 사전 패키지되어 제공되는 것이 거의 확실합니다. 그렇지 않은 경우 위 링크에서 소스 코드를 얻을 수 있습니다.

Answer