텍스트가 흐릿한 HTML 파일을 다운로드하는 방법

Question

이는 인코딩 문제가 아닙니다. 무슨 일이 일어나는지는 서버가 파일 이름이 손상된 HTML을 반환하고 이를 정리할 일부 Javascript가 있다는 것입니다.

다행스럽게도 수정은 숨겨져 있거나 난독화되지 않은 JavaScript로 수행되므로 쉽게 실행 취소할 수 있습니다. JS 코드는

function codeAndEncode(_key,_str){
     var keyUnicodeSum=0;
     var codedStr = "";
     for( j = 0; j<_key.length; j++ ){
          keyUnicodeSum += _key.charCodeAt( j );
     }
     for( i = 0; i<_str.length; i++ )
     {
          var _strXOR = _str.charCodeAt(i) ^ keyUnicodeSum;
          codedStr += String.fromCharCode( _strXOR );
     }
     return codedStr;
}

var filename = codeAndEncode("111", "ëúòüýúòý¡£¢¢£¥£¢½ãòáç¢½áòá");

매우 간단합니다. 값을 계산하고 이를 문자열의 각 문자와 XOR합니다. 형태 변경 및 형태 취소 작업은 동일합니다. 크롤러에 사용하는 모든 언어로 번역할 수 있습니다. 예를 들어, 다음은 실행 취소 손상된 Perl 코드입니다.

$ perl -CA -l -we 'my $sum = 0; $sum += ord foreach split //, $ARGV[0]; print $ARGV[1] ^ (chr($sum) x length($ARGV[1]))' 111 "ëúòüýúòý¡£¢¢£¥£¢½ãòáç¢½áòá"
xiaonian20110601.part1.rar

분쇄기 사용DOM복원해야 하는 HTML 트리의 노드에 액세스 document.getElementById("file_show_filename")하고 식별합니다. document.getElementById("file_down_filename")또한 크롤러가 사용하는 HTML 파서에 맞게 조정할 수도 있습니다.

파일 이름을 수정하는 목적은 크롤링을 더 어렵게 만드는 것이므로 사이트 관리자는 시간이 지남에 따라 수정 사항을 재현하기 더 어렵게 만들 수 있습니다. 웹사이트가 어떤 트릭을 사용하더라도 손상된 파일 이름을 보존하려면 자동화된 환경에서 Firefox를 실행할 수 있습니다. 바라보다SeleniumRC 외에 JavaScript 그리기 후 콘텐츠가 포함된 웹 페이지를 얻을 수 있는 좋은 도구가 있습니까?그리고Linux에서 Firefox 헤드리스를 실행하는 방법(예: libgtk-x11-2.0.so.0이 필요 없음)?

Answer 1

이는 인코딩 문제가 아닙니다. 무슨 일이 일어나는지는 서버가 파일 이름이 손상된 HTML을 반환하고 이를 정리할 일부 Javascript가 있다는 것입니다.

다행스럽게도 수정은 숨겨져 있거나 난독화되지 않은 JavaScript로 수행되므로 쉽게 실행 취소할 수 있습니다. JS 코드는

function codeAndEncode(_key,_str){
     var keyUnicodeSum=0;
     var codedStr = "";
     for( j = 0; j<_key.length; j++ ){
          keyUnicodeSum += _key.charCodeAt( j );
     }
     for( i = 0; i<_str.length; i++ )
     {
          var _strXOR = _str.charCodeAt(i) ^ keyUnicodeSum;
          codedStr += String.fromCharCode( _strXOR );
     }
     return codedStr;
}

var filename = codeAndEncode("111", "ëúòüýúòý¡£¢¢£¥£¢½ãòáç¢½áòá");

매우 간단합니다. 값을 계산하고 이를 문자열의 각 문자와 XOR합니다. 형태 변경 및 형태 취소 작업은 동일합니다. 크롤러에 사용하는 모든 언어로 번역할 수 있습니다. 예를 들어, 다음은 실행 취소 손상된 Perl 코드입니다.

$ perl -CA -l -we 'my $sum = 0; $sum += ord foreach split //, $ARGV[0]; print $ARGV[1] ^ (chr($sum) x length($ARGV[1]))' 111 "ëúòüýúòý¡£¢¢£¥£¢½ãòáç¢½áòá"
xiaonian20110601.part1.rar

분쇄기 사용DOM복원해야 하는 HTML 트리의 노드에 액세스 document.getElementById("file_show_filename")하고 식별합니다. document.getElementById("file_down_filename")또한 크롤러가 사용하는 HTML 파서에 맞게 조정할 수도 있습니다.

파일 이름을 수정하는 목적은 크롤링을 더 어렵게 만드는 것이므로 사이트 관리자는 시간이 지남에 따라 수정 사항을 재현하기 더 어렵게 만들 수 있습니다. 웹사이트가 어떤 트릭을 사용하더라도 손상된 파일 이름을 보존하려면 자동화된 환경에서 Firefox를 실행할 수 있습니다. 바라보다SeleniumRC 외에 JavaScript 그리기 후 콘텐츠가 포함된 웹 페이지를 얻을 수 있는 좋은 도구가 있습니까?그리고Linux에서 Firefox 헤드리스를 실행하는 방법(예: libgtk-x11-2.0.so.0이 필요 없음)?

텍스트가 흐릿한 HTML 파일을 다운로드하는 방법

답변1

관련 정보