명령줄 친화적인 전체 텍스트 인덱싱?

명령줄 친화적인 전체 텍스트 인덱싱?

명령줄에서 쿼리할 수 있고 이상적으로는 GUI를 전혀 사용할 필요가 없는 전체 텍스트 인덱싱 엔진과 같은 것이 있습니까?

저는 특히 전자책과 논문의 색인을 만드는 데 관심이 있기 때문에 여기에는 pdf, epub 및 일부 djvu가 혼합되어 있습니다. (공개) Office 문서가 있으면 좋겠지만 내 목록에서는 훨씬 낮습니다.

답변1

Lucene이나 Sphinx를 보셨나요? 먼저 색인화하려는 문서를 구문 분석해야 하지만 일단 완료되면 cli에서 둘 중 하나를 검색할 수 있습니다.

Lucene의 경우 이 작업에 대한 몇 가지 정보가 있습니다.쓸 수 있는.

Sphinx, 약간 모호하지만 일부 문서도 있음쓸 수 있는. xmlpipe2 데이터 소스를 통해 원하는 구조화된 XML 데이터를 스핑크스에 전달할 수 있습니다.

Lucene은 Java를 사용하는 반면 Sphinx는 C++로 구축되어 외부 종속성이 필요하지 않습니다.

어느 쪽이든 원하는 것을 달성하려면 약간의 작업이 필요하지만 완벽하게 실행 가능한 솔루션인 것 같습니다.

답변2

확인하다서부영화. 명령줄 인터페이스가 있으며 여러 형식을 색인화할 수 있습니다.

답변3

기록GUI 없이 구축할 수 있으며 명령줄에서 문서 유형을 검색할 수 있습니다.

그것은 사용한다샤피안후드.

답변4

Tracker는 명령줄에서 호출할 수 있으며 gtk+는 프로젝트의 하드 종속성이 아닙니다(그러나 패키지의 하드 종속성일 수 있음).

관련 정보