내가 묻는 것과 비슷한 몇 가지 질문을 보았지만 예를 들어wget 명령 후에 얻은 모든 html 파일을 텍스트 파일로 변환하는 방법은 무엇입니까?
나도 하나 봤어블로그 게시물그것은 그것이 어떻게 작동하는지 설명하고 보았습니다. 심지어 로컬에서 시도해 본 결과 이것이 작동한다는 것을 알았지만 로컬 파일, 즉 일부 /usr/share/doc/$PACKAGENAME/index.html에 있는 파일과 그 안에 링크된 페이지 수가 있어야 합니다. 최소한 첫 번째 페이지를 얻는 더 쉬운 방법입니다.
나는 다음과 같은 것을하려고 노력합니다 -
html2text file:///usr/share/doc/$PACKAGENAME/html/index.html > packagename-doc.txt
그러나 그것은 작동하지 않았습니다.
나는 출력을 얻는다 -
Cannot open input file "file:///usr/share/doc/$PACKAGENAME/html/index.html".
중요하지 않기 때문에 패키지 이름을 밝히지 않았습니다. 요즘에는 man이나 info 대신 html 페이지로 문서를 제공하는 패키지가 많이 있지만 이는 완전히 주제에서 벗어났습니다.
누군가 이유를 말하거나 html2text 또는 간단한 방법으로 이를 수행하는 다른 도구를 통해 대안을 제공할 수 있습니까?
답변1
@Karkouch의 생각이 맞습니다.- 이 부분을 제거해야 합니다 file://
. 쉘 도구는 일반적으로 URL을 매개변수로 이해하거나 기대하지 않습니다.
실제로,file:///[…]/html/index.html
유효한 경로입니다, 그러나 이라는 디렉터리의 파일을 가리키는 식으로, 마지막으로 html
이라는 디렉터리의 파일을 가리킵니다.PWD
file:
여러 개의 슬래시는 단순히 단일 슬래시로 처리됩니다., 보이는 모든 문자(및 대부분의 보이지 않는 문자)는 *nix 경로에서 유효합니다. 경로에서 유일하게 유효하지 않은 문자는 NUL입니다.