파일의 "텍스트 내용"을 가져옵니다.

파일의 "텍스트 내용"을 가져옵니다.

파일의 텍스트 내용을 가져올 수 있는 도구가 있는지 궁금합니다. 기본적으로 나는 pdf, word 문서, zip 또는 기타 파일을 넣고 그 안에 포함된 텍스트를 얻고 싶습니다.

일련의 인쇄 가능한 문자를 인쇄 할 수 있지만 strings많은 압축 형식에서는 작동하지 않습니다. "멍청한" 특성은 일반적으로 단순히 텍스트를 인쇄하는 것 이상의 작업을 수행한다는 것을 의미합니다. 그러나 알 수 없는 파일 형식에 대해서는 좋은 대안이 될 수 있습니다.

내가 원하는 것을 거의 정확하게 수행하는 명령이 있지만 pdftotextPDF에서만 작동합니다.

여러 형식 또는 이러한 도구를 결합하여 처리할 수 있는 도구가 있습니까?

추가 정보

많은 사람들이 자신의 도구가 표준이 아니라고 언급했습니다. 나는 이것이 좋다는 점을 지적하고 싶다.

답변1

strings와 친구들을 제외하고 는 텍스트 파일의 데이터를 구문 분석할 수 있는 Unix 명령줄 도구를 본 적이 없습니다 . 이러한 도구는 모두 데이터가 텍스트 형식이라고 가정합니다.grepawk

PDF 또는 Word 문서와 같은 파일은 텍스트 데이터를 바이너리 형식으로 인코딩하므로 이를 구문 분석하는 다른 도구의 도움 없이는 액세스할 수 없습니다. 이러한 도구는 일반적으로 속임수이며 일반적으로 이러한 바이너리 파일 형식 중 하나 또는 몇 개만 처리할 수 있습니다.

file명령을 사용하여 파일 유형을 식별할 수 있습니다.

$ file /usr/share/cups/data/default.pdf
/usr/share/cups/data/default.pdf: PDF document, version 1.5

man file사용법에 대한 자세한 내용은 참고자료를 참조하세요.

Lucene, Solar 및 기타 인덱싱 도구

색인 도구에 포함된 도구를 조정하거나 찾을 수 있습니다.루체른(예를 들어:PDF&MSOffice문서), 이는 사람들이 일반적으로 매일 처리하는 파일의 적어도 상당 부분에서 이 텍스트를 구문 분석할 수 있습니다. 우선, PDF, Word 및 Libre Office 파일 형식과 경쟁할 것으로 예상합니다.

기타 도구

이러한 도구는 일부 바이너리를 적어도 부분적으로 읽을 수 있으므로 여기에 추가하여 이에 대한 아이디어를 제공합니다. 모든 내용을 포함하지는 않지만 귀하에게 유용할 수 있습니다.

답변2

그러한 변환 도구는 존재하지 않지만(적어도 표준은 아님) 기존 도구를 결합한 좋은 미리보기 생성기 또는 도구를 찾을 수 있습니다(아래 참조). 매우 많은 문서 형식이 있으며 모두 해당 형식을 사용하는 응용 프로그램에 의해 정의됩니다(예: PDF, Word 문서, ODS 스프레드시트, PowerPoint 프리젠테이션, HTML 문서[일부 문자열이 콘텐츠의 일부가 아님], JPG 텍스트). 이미지, 컴파일러, 데이터베이스 파일, 압축 파일, gzip 압축 파일, bzip 압축 파일 등 목록이 계속됩니다). 존재하는 모든 문서 데이터 형식을 읽고, 데이터를 디코딩하고, 실제 내용을 추출할 수 있는 프로그램을 만드는 것은 거의 불가능합니다.

검색 인덱서/미리 보기 생성기가 사용하는 일반적인 전략은 파일 형식을 추측하고 관련 텍스트를 크롤링하는 일부 필터를 호출한 다음 해당 텍스트를 처리/미리 보는 것입니다. 일반적으로 이는 작성자가 직접 작은 공통 유형의 필터 세트를 작성하거나(형식 사양을 이해하기 위한 연구 수행), 일부 유형의 확장 가능한 플러그인 프레임워크를 제공하고 이를 제3자에게 필터 작성을 맡기는 애플리케이션에 의해 수행됩니다. . 두 가지가 결합된 경우가 많습니다.

예를 들어 Nautilus는 이러한 접근 방식을 결합합니다. 일반적인 이미지 형식과 같은 일부 형식의 경우 자체적으로 미리보기를 생성할 수 있습니다. 다른 형식의 경우, 애플리케이션 작성자가 생성하고 gconf의 Nautilus에 지정된 타사 스크립트를 사용합니다. 이 스크립트는 문서를 구문 분석하고 축소판을 생성하기 위해 다양한 문서 형식을 정의합니다. 이는 단순히 미리보기 생성 작업을 이러한 스크립트에 위임한 다음 이미지 파일로 저장하고 Nautilus에 표시합니다.

귀하가 찾은 모든 검색 인덱서는 유사한 원칙에 따라 작동합니다.

다음을 포함하되 이에 국한되지 않고 조사해 볼 수 있는 다른 옵션이 있습니다.

  • 기존 검색 소프트웨어를 사용하세요. 다음은 Linux에 사용 가능한 옵션에 대한 자세한 목록과 검토입니다.http://www.tuxradar.com/content/best-linux-desktop-search-tools(ADD가 있는 경우: 상위 3개는 Recoll, Beagle 및 Google Desktop입니다.)
  • 자신만의 필터를 작성하는 경우 이미 작성한 필터를 사용할 수 있는 필터 작성을 고려해 보세요.
  • 실제로 지원하고 싶은 문서 유형에 대해 생각하고 다양한 file필터링 도구(예: .pdftotext
  • 제한된 비압축 원시 텍스트 및 사용법을 충족합니다 strings.

관련 정보