방문한 모든 웹 페이지의 일반 텍스트 콘텐츠를 자동으로 저장하시겠습니까?

방문한 모든 웹 페이지의 일반 텍스트 콘텐츠를 자동으로 저장하시겠습니까?

내가 방문하는 각 웹 페이지의 텍스트를 HTML 문서가 아닌 해당 텍스트 문서에 자동으로 저장하고 싶습니다. 나는 모든 스타일과 HTML 테이블 및 기타 불필요하게 낭비되는 바이트와 같은 추가 중복 코드를 저장하고 싶지 않습니다. 나는 귀중한 정보, 즉 방문한 각 웹 페이지의 텍스트 정보만 저장할 수 있기를 원합니다.

그래서 웹 텍스트 파일은 이렇게 저장할 수 있을 것 같아요.

Website_Title.txt

그리고 문서 내부에는 해당 웹페이지의 텍스트만 포함됩니다. 아래의 xclip 스크립트와 비슷하지만 자동으로 전체 페이지를 저장합니다. 해당 웹페이지의 태그에서 <title></title>파일명 제목을 수집합니다 .

이것이 가능합니까? 아마도 "xclip" 애플리케이션의 도움으로 가능할까요? 아마 그 자체로는 아닐 수도 있을 것 같아요. "xclip"이 자동으로 수행되지 않기 때문에 내 생각에는...


현재 저는 키보드 단축키를 누른 후 선택한 텍스트를 저장하기 위해 "xclip"을 사용하고 있습니다.

예를 들어 다음과 같습니다... 선택한 텍스트를 아래에 저장하려는 경우:

여기에 이미지 설명을 입력하세요.

내 경우에는 Ctrl + Shift + X를 누릅니다.

그러면 다음과 같은 파일이 저장됩니다.

여기에 이미지 설명을 입력하세요.

파일 내부는 다음과 같습니다.

여기에 이미지 설명을 입력하세요.



동일한 작업을 수행하고 싶지만 원하는 텍스트를 선택하고 저장하는 대신 Ctrl+A를 사용하는 것처럼 전체 페이지를 저장한 다음 콘텐츠를 저장하고 각 페이지를 자동으로 사이트에 추가합니다. 타이틀 파일 이름.

시간을 내주셔서 미리 감사드립니다.



아, 누군가 내 스크립트를 사용하고 싶다면 xclip-save-selection.sh여기로 가세요:

#!/bin/sh
#
#           _  _                                               _           _    _                    _    
# __ __ __ | |(_) _ __  ___  ___ __ _ __ __ ___  ___  ___ ___ | | ___  __ | |_ (_) ___  _ _      ___| |_  
# \ \ // _|| || || '_ \|___|(_-</ _` |\ V // -_)|___|(_-</ -_)| |/ -_)/ _||  _|| |/ _ \| ' \  _ (_-<| ' \ 
# /_\_\\__||_||_|| .__/     /__/\__,_| \_/ \___|     /__/\___||_|\___|\__| \__||_|\___/|_||_|(_)/__/|_||_|
#                |_|                                                                                      
#
# Save Selected Text Script
# XFCE4: Applications > Settings > Keyboard
# Attach this script to a custom keyboard shortcut to be able to save selected text from anywhere

xclip -o > "/home/anonymous/.logs/clips/$(date +'%Y-%m-%d_%H-%M-%S')_$(xclip -o | cat -s | perl -pe 's/\r?\n/_/' | perl -pe 's/\ /_/g' | sed 's/    /_/g' | sed 's/__/_/g' | sed -e 's/^M//' | tr -s -c [:alnum:][:blank:] _ | cut -c1-50).txt"
bash -c 'notify-send "Save Selected Text - Success!"'

답변1

나는 이렇게 할 것이다:

  • w3m 설치
  • w3m -dump siteurl > 출력.txt

그런 다음 스크립트를 생성하여 기록을 보고, URL을 크롤링하고, URL에서 텍스트를 변환할 수도 있습니다. 또한 변환된 사이트에 대한 참조로 텍스트 파일 이름을 확인하고 중복 생성을 피하기 위해 처리를 무시합니다.

관련 정보