버스 노선 PDF 파일에서 이탈리아어 단어 "ANDDATA" 앞의 텍스트를 제거하려고 합니다. 나는 이것을 사용하고 있습니다
pdftotext "file.pdf" - | sed -r "s/^.*ANDATA//g"
그러나 이것은 작동하지 않습니다. "ANDDATA"라는 단어만 제거됩니다. 나는 또한 모든 줄 바꿈을 제거한 다음
pdftotext "file.pdf" - sed -r "s/\s//g" | sed -r "s/^.*ANDATA//g"
개행 문자는 없지만 여전히 작동하지 않습니다.
어떻게 해야 합니까?
편집 2 ANDATA라는 단어가 텍스트에 여러 번 나타나지만 첫 번째 항목 앞에 오는 내용만 삭제하고 싶습니다.
편집하다
입력하다
PIAZZA OBERDAN - UNIVERSITA' - S.CILINO STR. NUOVA PER OPICINA - OPICINA VILLA CARSIA - CAMPO ROMANO - VILLA CARSIA L’orario è passibile di variazioni per esigenze contingenti TRIESTE TRASPORTI S.p.A. Via dei Lavoratori, 2 Numero Verde: 800-016675 LINEA 4 FERIALE LUNEDI' - VENERDI' ANDATA VILLA CARSIA OPICINA VIA CANTU' PIAZZA OBERDAN PIAZZA TOMMASEO PROSECCO DEVINCINA 5:10 5:15 | 5:35 | | 5:30 5:35 | 5:55 | | 6:00 6:05 | 6:25 | | 6:15 6:20 | 6:40 | | 6:30 6:35 | 6:55 | | 6:45 6:50 | 7:10 | | 6:55 7:00 | 7:20 | | 7:10 7:15 | 7:35 | | 7:20 7:25 | 7:45 | | 7:30 7:35 | 7:55 | | 7:45 7:50 | 8:10 | | 8:00 8:05 | 8:25 | | 8:25 8:30 | 8:50 | | 8:50 8:55 | 9:15 (etc..)
산출(내 정규식 사용)
PIAZZA OBERDAN - UNIVERSITA' - S.CILINO STR. NUOVA PER OPICINA - OPICINA VILLA CARSIA - CAMPO ROMANO - VILLA CARSIA L’orario è passibile di variazioni per esigenze contingenti TRIESTE TRASPORTI S.p.A. Via dei Lavoratori, 2 Numero Verde: 800-016675 LINEA 4 FERIALE LUNEDI' - VENERDI' VILLA CARSIA OPICINA VIA CANTU' PIAZZA OBERDAN PIAZZA TOMMASEO PROSECCO DEVINCINA 5:10 5:15 | 5:35 | | 5:30 5:35 | 5:55 | | 6:00 6:05 | 6:25 | | 6:15 6:20 | 6:40 | | 6:30 6:35 | 6:55 | | 6:45 6:50 | 7:10 | | 6:55 7:00 | 7:20 | | 7:10 7:15 | 7:35 | | 7:20 7:25 | 7:45 | | 7:30 7:35 | 7:55 | | 7:45 7:50 | 8:10 | | 8:00 8:05 | 8:25 | | 8:25 8:30 | 8:50 | | 8:50 8:55 | 9:15 (etc)
편집 3
원하는 출력
VILLA CARSIA OPICINA VIA CANTU' PIAZZA OBERDAN PIAZZA TOMMASEO PROSECCO DEVINCINA 5:10 5:15 | 5:35 | | 5:30 5:35 | 5:55 | | 6:00 6:05 | 6:25 | | 6:15 6:20 | 6:40 | | 6:30 6:35 | 6:55 | | 6:45 6:50 | 7:10 | | 6:55 7:00 | 7:20 | | 7:10 7:15 | 7:35 | | 7:20 7:25 | 7:45 | | 7:30 7:35 | 7:55 | | 7:45 7:50 | 8:10 | | 8:00 8:05 | 8:25 | | 8:25 8:30 | 8:50 | | 8:50 8:55 | 9:15 (etc..)
답변1
이 명령을 시도해 보세요
pdftotext "file.pdf" -|tr -d '\n'|sed -r 's/^.*ANDATA/ANDATA/'
ANDATA라는 단어 앞의 텍스트를 제거합니다.