일부 웹 페이지에 대해 컬이나 Lynx를 통해 말뭉치 생성을 수행하고 있습니다. HTML 코드를 제거하기 위해 bash로 프로그램을 작성했지만(예를 들어 lynx -source myurl을 수행할 때) 문제는 일부 페이지에 JavaScript가 있어서 제거되지 않는다는 것입니다.
Javascript를 사용하지 않고 Curl이나 Lynx를 사용할 수 있는 방법이 있나요? 나는 첫 번째 인스턴스에서 내 본문 데이터를 얻기 위해 html 인코딩을 원했기 때문에 lynx -dump 옵션을 사용하지 않았습니다(대신 lynx -source를 사용했습니다).
제가 여기서 너무 많은 것을 요구하는 것 같아요. 또는 Cygwin 환경에서 작동하는 JavaScript 스트리핑 애플리케이션을 알고 있다면 알려주시기 바랍니다. 읽어 주셔서 감사합니다!
답변1
매뉴얼 페이지에 소스 코드 변환에 대한 언급이 없습니다.curl
. 그래서 나는 대답이 "아니요"라고 생각합니다.
의 경우 lynx
거의 동일한 대답을 얻게 됩니다. <script>
태그를 주석과 거의 동일하게 처리합니다(닫는 태그를 특별하게 처리함). 2000년경부터 그랬다.변경 로그).
하지만 lynx
다운로드에서 주석(및 스크립트)을 제거할 수 있는 옵션은 (아직) 없습니다.
당신은 사용할 수 있습니다tidy
스크립팅을 단순화하기 위해 파일 형식을 다시 지정하고 DIY 스크립트 제거 도구를 사용하십시오. 예를 들어, -wrap
더 큰 값(예: 파일 크기)을 사용하면 모든 HTML 태그가 첫 번째 열에 배치되므로 간단한 스크립트가 결과를 구문 분석하고 <script>
삭제할 수 있습니다 </script>
.