다음과 같이 공백으로 구분된 파일이 있습니다. (1775줄이 있습니다)
head output.fam
0 ALIKE_g_1LTX827_BI_SNP_F01_33250.CEL 0 0 0 -9
0 BURRY_g_3KYJ479_BI_SNP_A12_40182.CEL 0 0 0 -9
0 ABAFT_g_4RWG569_BI_SNP_E12_35136.CEL 0 0 0 -9
0 MILLE_g_5AVC089_BI_SNP_F02_35746.CEL 0 0 0 -9
0 PEDAL_g_8WWR250_BI_SNP_B06_37732.CEL 0 0 0 -9
쉼표로 구분된 파일 phg000008.individualinfo(1838줄):
#Phen_Sample_ID - individual sample name associated with phenotypes
#Geno_Sample_ID - sample name associates with genotypes
#Ind_id - unique individual name which can be used to match duplicates (in this case same as Phen_Sample_ID)
#Ped_id - Pedigree ID
#Fa_id - Father individual ID
#Ma_id - Mother individual ID
#Sex - coded 1 for Male, 2 for Female
#Ind_QC_flag - value "ALL" indicates released in both Quality Filtered and Complete set
#Sample_plate_well_string - This string corresponds to the file within the CEL files distribution
#Study-id - dbGaP assigned study id
Output.fam의 두 번째 열에서 값을 찾을 수 있는지 확인하고(예: phg000008.individualinfo의 ALIKE_g_1LTX827_BI_SNP_F01_33250.CEL(.CEL 접미사 무시)) 해당 항목이 있는 줄이 있는지 확인하여 내 output.fam을 변경하고 싶습니다. 이를 대체하면 output.fam의 항목이 phg000008.individualinfo의 첫 번째 열에 있는 값으로 대체되고, 동일한 행에 대해 output.fam의 첫 번째 열에 있는 값이 다음 값으로 대체됩니다. phg000008.individualinfo의 네 번째 열(- 접미사 제외)
예를 들어, 두 줄이 있는 경우 output.fam은 다음과 같습니다.
fam2208 G2208 0 0 0 -9
fam1676 G1676 0 0 0 -9
awk '
FNR == NR {sub (/-/, "", $4) # get rid of "-" in $4
T[$10 ".CEL"] = $4 " " $1 # save file2 in temp array
$2 in T {$1 = T[$2] # check if $2 is relevant; replace
$2 = "" # $1 with temp array value; delete $2
' FS=, file2 FS=" " file1
phg 파일에서 sed 스크립트를 생성하고 이를 사용하여 fam 파일을 수정할 수 있습니다.
grep -v ^# phg000008.individualinfo \
| cut -d, -f3,4,10 \
| sed -E 's=(.*),(.*)-,(.*)=s/[^ ]+ \3\\.CEL/\2 \1/=' \
| grep s/ \
| sed -Ef- output.fam
생성된 스크립트는 다음과 같습니다.
s/[^ ]+ POSED_g_7FDZ321_BI_SNP_B02_36506\.CEL/fam1000 G1000/
s/[^ ]+ BURRY_g_3KYJ479_BI_SNP_H04_40068\.CEL/fam1001 G1001/
s/[^ ]+ ALIKE_g_1LTX827_BI_SNP_F01_33250\.CEL/fam2208 G2208/
s/[^ ]+ BURRY_g_3KYJ479_BI_SNP_A12_40182\.CEL/fam1676 G1676/