텍스트 파일에서 특정 ID를 구문 분석하는 방법은 무엇입니까?

Question 1

Linux 시스템을 사용하는 경우 다음을 매우 쉽게 수행할 수 있습니다.

$ grep -oP '"uniprot":"\K[^"]+' file
P12807
P12807
T12807
P12808
Z12809
P12821
P0C918

-o각 줄 의 일치하는 부분만 인쇄 grep하고 -PPerl 호환 정규식을 활성화함을 나타냅니다. 정규식은 찾고 있지만 "uniprot":"삭제합니다(즉, \K"지금까지 일치하는 항목을 모두 삭제"하여 출력에 포함되지 않음을 의미함). 그런 다음 "( ) 이 아닌 가장 긴 세그먼트를 찾습니다 [^"]+.

물론 이는 JSON 데이터처럼 보이므로 더 복잡한 경우에는 적절한 구문 분석기를 사용해야 합니다 jq. 예를 들어 종료 문을 추가하여 파일을 수정하고 ]다음과 같이 만듭니다.

[{"site":"1a2v_1","pfam":"Cu_amine_oxid","uniprot":"P12807"},{"site":"1a2v_2","pfam":"Cu_amine_oxid","uniprot":"P12807"},{"site":"1a2v_3","pfam":"Cu_amine_oxid","uniprot":"T12807"},{"site":"1a2v_4","pfam":"Cu_amine_oxid","uniprot":"P12808"},{"site":"1a2v_5","pfam":"Cu_amine_oxid","uniprot":"Z12809"},{"site":"1a2v_6","pfam":"Cu_amine_oxid","uniprot":"P12821"},{"site":"1a3z_1","pfam":"Copper-bind,SoxE","uniprot":"P0C918"}]

넌 할 수있어:

$ jq -r '.[].uniprot' file
P12807
P12807
T12807
P12808
Z12809
P12821
P0C918

Answer

Linux 시스템을 사용하는 경우 다음을 매우 쉽게 수행할 수 있습니다.

$ grep -oP '"uniprot":"\K[^"]+' file
P12807
P12807
T12807
P12808
Z12809
P12821
P0C918

-o각 줄 의 일치하는 부분만 인쇄 grep하고 -PPerl 호환 정규식을 활성화함을 나타냅니다. 정규식은 찾고 있지만 "uniprot":"삭제합니다(즉, \K"지금까지 일치하는 항목을 모두 삭제"하여 출력에 포함되지 않음을 의미함). 그런 다음 "( ) 이 아닌 가장 긴 세그먼트를 찾습니다 [^"]+.

물론 이는 JSON 데이터처럼 보이므로 더 복잡한 경우에는 적절한 구문 분석기를 사용해야 합니다 jq. 예를 들어 종료 문을 추가하여 파일을 수정하고 ]다음과 같이 만듭니다.

[{"site":"1a2v_1","pfam":"Cu_amine_oxid","uniprot":"P12807"},{"site":"1a2v_2","pfam":"Cu_amine_oxid","uniprot":"P12807"},{"site":"1a2v_3","pfam":"Cu_amine_oxid","uniprot":"T12807"},{"site":"1a2v_4","pfam":"Cu_amine_oxid","uniprot":"P12808"},{"site":"1a2v_5","pfam":"Cu_amine_oxid","uniprot":"Z12809"},{"site":"1a2v_6","pfam":"Cu_amine_oxid","uniprot":"P12821"},{"site":"1a3z_1","pfam":"Copper-bind,SoxE","uniprot":"P0C918"}]

넌 할 수있어:

$ jq -r '.[].uniprot' file
P12807
P12807
T12807
P12808
Z12809
P12821
P0C918

Question 2

자세히 살펴보면 입력 파일은 Python 데이터 구조입니다. 특히 사전 목록입니다. 닫는 대괄호를 추가해야 합니다.

ast 모듈을 통해 유효한 Python 데이터 구조인 문자열을 직렬화할 수 있습니다.

python3 -c 'import sys, ast
ifile,key = sys.argv[1:]
str = ""
with open(ifile) as fh:
  for l in fh: str += l.rstrip()
  lod = ast.literal_eval(str)
  for d in lod: print(d[key])
' file uniprot

Answer

자세히 살펴보면 입력 파일은 Python 데이터 구조입니다. 특히 사전 목록입니다. 닫는 대괄호를 추가해야 합니다.

ast 모듈을 통해 유효한 Python 데이터 구조인 문자열을 직렬화할 수 있습니다.

python3 -c 'import sys, ast
ifile,key = sys.argv[1:]
str = ""
with open(ifile) as fh:
  for l in fh: str += l.rstrip()
  lod = ast.literal_eval(str)
  for d in lod: print(d[key])
' file uniprot

Question 3

사용 gawk:

awk 'BEGIN{RS=","}
/uniprot/{print gensub(/.*("uniprot":")(.*)".*/, "\\2", "g") }' input

이 명령에는 RS쉼표로 설정된 레코드 구분 기호( )를 입력합니다.

그런 다음 gawk내장 함수는 gensub()backreference()를 사용하여 행을 원하는 패턴으로 바꿉니다 \\2.

Answer

사용 gawk:

awk 'BEGIN{RS=","}
/uniprot/{print gensub(/.*("uniprot":")(.*)".*/, "\\2", "g") }' input

이 명령에는 RS쉼표로 설정된 레코드 구분 기호( )를 입력합니다.

그런 다음 gawk내장 함수는 gensub()backreference()를 사용하여 행을 원하는 패턴으로 바꿉니다 \\2.

Question 4

펄 5 솔루션

$ perl -nle 'print join"\n",m/uniprot\":\"(.*?)\"/g' file.txt
P12807
P12807
T12807
P12808
Z12809
P12821
P0C918
$

Answer

펄 5 솔루션

$ perl -nle 'print join"\n",m/uniprot\":\"(.*?)\"/g' file.txt
P12807
P12807
T12807
P12808
Z12809
P12821
P0C918
$

텍스트 파일에서 특정 ID를 구문 분석하는 방법은 무엇입니까?

답변1

답변2

답변3

답변4

관련 정보