결과

Question 1

짧은멍하니방법:

awk '(index($1, $2) !=0 && length($2) >= 4) || (index($2, $1) !=0 && length($1) >= 4)' file

산출:

023q                                              023q023q
0adc                                              0adc0adc
123456                                              123456
abcde                                             abcdefg

인덱스(in,find)
검색 문자열존재하다문자열이 처음으로 나타나는 경우찾다, 문자열에서 문자열이 나타나기 시작하는 문자 위치를 반환합니다.존재하다.

이상복잡한2개의 입력 문자열에서 최소 4자 길이의 가장 긴 공통 하위 문자열을 찾아야 하는 경우 다음을 권장합니다.파이썬 방법:

입력 파일이 약간 "복잡"하고 다음 줄을 포함한다고 가정합니다.

1023q                                              023q023q
v0adc                                              20adc0adc
s123456                                              123456
eabcde                                             cabcdefg
08tgdf                                            90alkhg

가장 긴 공통 부분 문자열을 찾으려면 다음을 사용하십시오.시퀀스 일치자수업차이 라이브러리기준 치수.

find_common_lines.py스크립트:

import re
from difflib import SequenceMatcher

with open('filename', 'r') as fh:
    for l in fh.read().splitlines():
        items = re.findall(r'\S+', l.strip())  # getting 2 comparable strings
        m = SequenceMatcher(None, items[0], items[1]).find_longest_match(0, len(items[0]), 0, len(items[1]))
        if m.size >= 4:
            print(l)

용법(다른 것이 있을 수도 있습니다.파이썬버전 3.x, 현재 사례가 테스트되었습니다.파이썬3.5):

python3.5 find_common_lines.py

산출:

1023q                                              023q023q
v0adc                                              20adc0adc
s123456                                              123456
eabcde                                             cabcdefg

Answer