bash 명령은 이전 파이프의 결과를 출력합니다.

Question 1

while 루프를 사용하여 이 작업을 수행할 수 있습니다.

while read l; do
  [ ${#l} -gt 65 ] && \
    echo "$l" | langid --line | grep -q "is" && \
    echo "$l"
done <file

read l입력을 한 줄씩 읽고 현재 줄을 변수에 저장합니다 $l.
[ ${#l} -gt 65 ]줄에 65자를 초과하는 경우.
- echo "$l" | langid --line | grep -q "is"이 줄을 처리하려면 grep언어의 경우 자동으로 처리 -q됩니다 grep. 문자열이 존재하는지 확인하고 싶고 출력은 없습니다.
- echo "$l"문자열이 있으면 원래 줄이 인쇄됩니다.
<file콘텐츠를 file입력으로 사용합니다.

편집하다: 위의 langid명령은 각 줄에서 명령을 실행하는데 매우 느립니다. 한 번의 전송으로 (더 빠르게) 실행하려면 다음을 사용하십시오.

awk 'FNR==NR{a[NR]=$0}
  FNR!=NR&&$1~"is"{print a[FNR]}' \
<(sed -n '/^.\{65\}/p' file) \
<(sed -n '/^.\{65\}/p' file | langid --line)

awk두 개의 "파일"이 처리됩니다.
- 출력 sed -n '/^.\{65\}/p' file: 65자 이상의 모든 문장.
- 출력은 sed -n '/^.\{65\}/p' file | langid --line한 번의 전송으로 65자 이상의 문자를 포함하는 모든 라인을 처리합니다.
안에 awk:
- FNR==NR첫 번째 "파일"에 적용
- a[NR]=$0행 번호를 인덱스로 사용하여 배열 채우기
- FNR!=NR&&$1~"is"두 번째 "파일"에 대해 작업하고 행에 문자열이 포함되어 있는지 확인합니다.is
- print a[FNR]a그렇다면 원래 문장을 포함하는 이전에 생성된 배열에서 해당 줄을 인쇄합니다.

Answer

while 루프를 사용하여 이 작업을 수행할 수 있습니다.

while read l; do
  [ ${#l} -gt 65 ] && \
    echo "$l" | langid --line | grep -q "is" && \
    echo "$l"
done <file

read l입력을 한 줄씩 읽고 현재 줄을 변수에 저장합니다 $l.
[ ${#l} -gt 65 ]줄에 65자를 초과하는 경우.
- echo "$l" | langid --line | grep -q "is"이 줄을 처리하려면 grep언어의 경우 자동으로 처리 -q됩니다 grep. 문자열이 존재하는지 확인하고 싶고 출력은 없습니다.
- echo "$l"문자열이 있으면 원래 줄이 인쇄됩니다.
<file콘텐츠를 file입력으로 사용합니다.

편집하다: 위의 langid명령은 각 줄에서 명령을 실행하는데 매우 느립니다. 한 번의 전송으로 (더 빠르게) 실행하려면 다음을 사용하십시오.

awk 'FNR==NR{a[NR]=$0}
  FNR!=NR&&$1~"is"{print a[FNR]}' \
<(sed -n '/^.\{65\}/p' file) \
<(sed -n '/^.\{65\}/p' file | langid --line)

awk두 개의 "파일"이 처리됩니다.
- 출력 sed -n '/^.\{65\}/p' file: 65자 이상의 모든 문장.
- 출력은 sed -n '/^.\{65\}/p' file | langid --line한 번의 전송으로 65자 이상의 문자를 포함하는 모든 라인을 처리합니다.
안에 awk:
- FNR==NR첫 번째 "파일"에 적용
- a[NR]=$0행 번호를 인덱스로 사용하여 배열 채우기
- FNR!=NR&&$1~"is"두 번째 "파일"에 대해 작업하고 행에 문자열이 포함되어 있는지 확인합니다.is
- print a[FNR]a그렇다면 원래 문장을 포함하는 이전에 생성된 배열에서 해당 줄을 인쇄합니다.

Question 2

쉘이 bash인 경우 다음을 수행할 수 있습니다.

sed -n '/^.\{65\}/p' www.mbl.is | while read line ; do
   LANGID=$(echo "$line" | langid --line)
   if [[ "$LANGID" =~ is ]] ; then
      echo "$line: $LANGID"
   fi
done

langid그러나 이는 여러 인스턴스 (각 입력 행에 대해 하나씩) 를 실행하므로 속도가 매우 느립니다 . Github의 추가 정보에 설명된 대로 langid를 가져오는 Python 스크립트를 작성하는 것이 더 나을 수도 있습니다. 위에서 언급했듯이 stdin을 읽고 이를 stdin에 전달하는 간단한 루프가 langid.classify()트릭을 수행합니다.

내 Python은 매우 녹슬었고 langid.py가 설치되어 있지 않으므로 테스트되지 않았지만 다음은 매우 원시적인 Python 예입니다.

#! /usr/bin/python

import langid, fileinput, re

for line in fileinput.input():
  if len(line) > 65:
    id = langid.classify(line)
    if re.match(r'is',id):
      print line, ": ", id

컴파일 테스트를 통과했지만 python -m py_compile langtest.py그것이 내가 유리하다고 말할 수 있는 전부입니다.

Frost Software에서 추가한 내용:

훨씬 개선되었으며 아마도 테스트를 거쳐 작동하는 버전입니다.

#! /usr/bin/python

import sys, codecs, re
from fileinput import input as file
from langid import classify

#Output STDOUT as UTF-8
sys.stdout = codecs.getwriter("utf8")(sys.stdout)
sys.stderr = codecs.getwriter("utf8")(sys.stderr)

#read text as a positional argument and procss each line
for line in file():
    #check if line is greater than 65 characters
    if len(line) > 65:
        #determine the language of each line
        id = classify(line)
        #check if language is Icelandic
        if re.search('is', str(id)):
            #print the line and the langid classification 
            print line, ": ", id

매개변수와 일부 추가 기능을 허용하는 보다 포괄적인 Python 스크립트도 있습니다.요점 코드

Answer