AWK: FS의 현장 작업과 "체인" 작업을 함께 "변경"

Question

JSON을 구문 분석하기 위해 awk를 사용하는 것의 지혜에 대해서는 논의하지 않을 것입니다(gawks JSON 라이브러리를 사용하지 않는 한). 그러나 awk 호출의 쉘 파이프라인을 변환하는 방법에 대해 논의할 것입니다.

awk 'BEGIN { FS = "|" }\
gsub (/\\n/, "\n") gsub (/\[\[[^\|]*\||\]\]/, "")\
gsub (/\|\|/, "|")' |\ # Sub. "\n" for line-break, remove "[[" and "]]", substitute "||" for "|"
awk 'gsub (/^\|/, "")' |\ # Remove leading "|"
awk 'BEGIN { FS = "|" } {print $5}' |\ # Print 5th field
awk '{gsub (/^[ \t]*/, "")} NF' # Remove any leading whitespace and delete empty lines

단일 awk 명령으로.

awk는 구문이나 의미가 쉘과 다른 C와 유사한 프로그래밍 언어입니다. C 프로그램에서 C 문을 서로 파이프하는 방법에 대해 생각하지 않을 것이며 awk 프로그램에서도 그렇게 하지 않을 것입니다.

이 시도:

$ cat tst.awk
BEGIN { FS = "|" }
{
    gsub(/(\[\[[^|]*\|)|(]])/, "")
    gsub(/\|\|/, FS)
    split($0,lines,/\\n/)
    for (i=1; i in lines; i++) {
        $0 = lines[i]
        sub(/^[[:space:]]+/, "", $6)
        if ( $6 !~ /^$/ ) {
            print $6
        }
    }
}

curl -s 'https://en.wikipedia.org/w/api.php?action=parse&prop=sections&page=List_of_islands_of_Spain&section=1&prop=wikitext&format=json' |
awk -f tst.awk

Province
Isla de \u00cdzaro
Garraitz
Santa Clara
Aqueche
Txatxarramendi
Villano
Montehano
Santa Marina o Los Jorganes
Pedrosa
Virgen del Mar
Castril, Am\u00edo o M\u00edo, Las Lastras de Pech\u00f3n
La Pasiega o Solita
La Torre
Ratones o Marnay
Neptuno Ni\u00f1o
Ori\u00f1\u00f3n
Castro
Cuarezo
Llera
\u00c1guila
Suaces
Garfanta
Deva
Pantorgas
Isla Herbosa
Isla del Carmen
Illa de Arousa
Ons
La Toja Peque\u00f1a
Ansar\u00f3n
Guidoiro Areoso
A Creba
Lobeiras
Centoleiras
Beiro
Farall\u00f3ns
Guidoiro Pedregoso
Malveiras
Isla de Santa Cruz
Isla Herbosa
San Clemente
San Vicente
San Ant\u00f3n (Pontevedra)
San Ant\u00f3n (La Coru\u00f1a)
Pancha
Gavoteira
Isla de Santa Catalina
Isla Canela
Isla de Salt\u00e9s
Las Palomas
Trocadero
Sancti Petri
San Andr\u00e9s
Terreros
Isla Negra
Albor\u00e1n
San Sebasti\u00e1n
Piedra del Hombre
Isla Mayor
Rondella
Las Palomas
Isla de Tabarca
Benidorm
Portichol
Descubridor
Medas
Port Lligat
Encalladora
Cabrera
Isla del Rey

RSGNU awk를 사용하면 s에서 입력 자동 분할을 설정할 수 있으며 스크립트 내에서 s를 분할 \\n할 필요가 없다는 점은 주목할 가치가 있습니다.\\n

$ printf 'foo\\\\nbar\n'
foo\\nbar

$ printf 'foo\\\\nbar\n' | awk '{split($0,lines,/\\\\n/); for (i=1; i in lines; i++) print i, lines[i]}'
1 foo
2 bar

$ printf 'foo\\\\nbar\n' | awk 'BEGIN{RS="[\\\\]{2}n|\n"} {print NR, $0}'
1 foo
2 bar

Answer 1