저는 가끔 핀란드어로 작성된 PDF 파일을 읽습니다. Xpdf 및 Okular를 통해 ä 및 ö 문자가 포함된 텍스트를 검색할 수 없습니다. 이 문자를 정확하게 찾을 수 있는 PDF 리더가 있습니까? eliisanet.fi/matti.t.lehtinen/Geom2011.pdf 파일에 문제가 있습니다.
답변1
저는 Evince를 사용하고 있으며 가끔씩 독일어를 읽어야 합니다. Evince는 ö 및 ä(ß와 같은 기타 독일어 특수 문자도 포함)를 올바르게 찾습니다.
이러한 문자에 대한 특수 키보드 단축키(올바른 메타 키 포함)를 제공하지만 키보드에서 해당 문자가 생성되지 않으면 검색 필드에 복사하여 붙여넣을 수도 있습니다.
한 가지 명심해야 할 점은 출력이 ä처럼 보이지만 그래픽은 별도의 "ä" 및 "¡"(별도의 분음 부호/움라우트)로 구성되는 PDF를 생성할 수 있다는 것입니다. 이 경우 악센트 부호가 있는 문자를 검색하여 찾을 수 없습니다. 따라서 뷰어를 전환하기 전에 실제 PDF에서 "a"와 "o"만 찾아보세요.
파일의 강조 표시된 부분을 보기 위해 then을 사용하는 경우 pdfedit
(죄송합니다. 문서의 2페이지에 있으므로 약간 작습니다):
인코딩은 다음과 같은 배열로 되어 있습니다.
보시다시피 분음 기호와 "o"(첫 번째 필드의) 사이에는 연결이 거의 없으며 오프셋을 사용하면 자동화할 수 있는 "간단한" UTF16에서 UTF-8로의 변환이나 기타 문자 인코딩 변환이 아닙니다.
텍스트에 수학적인 내용이 많지 않으면 이미지로 렌더링한 다음 OCR을 시도해 볼 수 있지만, 그런 경우에는 작성자에게 연락하여 원본(아마도 LaTeX) 소스를 구하는 것이 더 나을 것 같습니다. 검색이 필요합니다) 텍스트에서.