웹사이트에 의한 크롤링 및 블랙리스트 방지를 위해 IP를 지속적으로 변경하는 방법은 무엇입니까?

웹사이트에 의한 크롤링 및 블랙리스트 방지를 위해 IP를 지속적으로 변경하는 방법은 무엇입니까?

가사 사이트를 스크래핑하려고 하는데 꽤 좋은 스크립트를 만들었습니다. (처음이라 느리긴 하지만)

#!/bin/bash

touch visited
touch tobe

>visited
>tobe

url=$(echo http://www.azlyrics.com/)
UA=$(echo "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/7046A194A")

wget -q $url --user-agent=$(echo UA) -O index.html
cat index.html | grep \"http.*.html\" -o | cut -f2 -d\" >> temp_tobe

for i in `cat temp_tobe`;
do
    basename $(echo $i) >> tobe
done

rm temp_tobe

while true;
do
for i in `cat tobe`;
do
    echo getting $url -> $i
    wget -q $url$i --user-agent=$(echo UA)
    echo $i >> visited

    #PUT THE NEW LINK TO TOBE
    cat $(basename $(echo $url$i)) | grep \".*.html\" -o | cut -f2 -d\" >> tobe

    #SORT VISITED
    cat visited | sort | uniq > tmp && mv tmp visited

    #SORT TOBE
    cat tobe | sort | uniq > tmp && mv tmp tobe

    #REMOVE THE INTERSECTION FROM TOBE
    comm -23 tobe visited > tmp && mv tmp tobe

done
done

그런데 브라우저에서 해당 사이트에 접근조차 할 수 없어서 블랙리스트에 올라간 것 같아요. VPN을 시작했지만 여전히 사이트에 액세스할 수 없습니다(이건 미친 짓입니다!!!) The connection was reset.

IP를 지속적으로 변경하는 기술(다른 온라인 사용자에게 편승)을 들은 적이 있습니다.

이를 달성하는 방법(바람직하게는 이것이 가능함)이나 사이트에 계속 액세스할 수 있는 다른 방법을 알려주실 수 있나요?

필요한 경우 설명을 요청하세요.

답변1

나는 이를 수행하는 방법을 제안할 수 있습니다. 아마도 최선은 아닐 수도 있지만 작업이 완료됩니다. 스크립트에서 tor호출 torify또는 이전 도구를 사용하십시오.torsockswget

torify wget -q $url --user-agent=$(echo UA) -O index.html

이 명령은 서버에 요청을 보내지만 먼저 tor서버를 다운로드한 다음 점심을 먹은 후 원하는 작업을 수행할 수 있는 무료 공간을 채워야 합니다 torify.

예를 들어 CentOS 또는 Ubunutu에 설치하려면 다음을 수행하십시오.

yum install tor
apt-get install tor

기본적으로 설치됩니다 torify.

관련 정보