Infiniband HCA, 물리적 상태가 비활성화된 상태로 멈춤 [닫기]

Infiniband HCA, 물리적 상태가 비활성화된 상태로 멈춤 [닫기]

두 서버 간에 지점 간 인피니밴드 연결을 설정하는 동안 다음 명령을 실행했습니다 ibportstate -G [my port GUID] disable. 이제 포트 폴링을 수행하거나 장치에 대한 작업을 수행하려고 하면 다음 오류가 발생합니다.

[user@server1 ~]$ perfquery -vvv -ddd
ibwarn: [16059] umad_init: umad_init
ibwarn: [16059] umad_open_port: ca (null) port 0
ibwarn: [16059] umad_get_cas_names: max 32
ibwarn: [16059] umad_get_cas_names: return 1 cas
ibwarn: [16059] resolve_ca_name: checking ca 'qib0'
ibwarn: [16059] resolve_ca_port: checking ca 'qib0'
ibwarn: [16059] umad_get_ca: ca_name qib0
ibwarn: [16059] umad_get_ca: opened qib0
ibwarn: [16059] resolve_ca_port: checking port 0
ibwarn: [16059] resolve_ca_port: checking port 1
ibwarn: [16059] resolve_ca_port: checking port 0
ibwarn: [16059] resolve_ca_port: checking port 1
ibwarn: [16059] resolve_ca_name: phys found -1 on (null) port 0
ibwarn: [16059] umad_open_port: opening mthca0 port 1
ibwarn: [16059] mad_rpc_open_port: can't open UMAD port ((null):0)
perfquery: iberror: [pid 16059] main: failed: Failed to open '(null)' port '0'

인피니밴드 장치와 상호 작용하는 모든 명령은 예외 없이 정확히 동일한 출력으로 응답합니다. 포트의 물리적 상태가 막혔습니다.

[user@server1 ~]$ cat /sys/class/infiniband/qib0/ports/1/phys_state 
3: Disabled

다른 서버의 상태는 다음과 같습니다. 최소한 시도 중이라는 것을 알 수 있습니다.

[user@server0 ~]$ cat /sys/class/infiniband/qib0/ports/1/phys_state 
2: Polling

재부팅하고, opensm을 다시 시작하고, 카드를 꺼내서 교체하기도 했습니다. 쌍의 두 번째 시스템은 곧 오프라인으로 전환할 수 없는 서비스를 호스팅하고 있으므로 HCA를 전환할 수 없습니다.

비슷한 문제를 설명하는 여러 사이트의 다른 스레드를 읽었지만 이 스레드에서는 아무 것도 다루지 않았습니다.

QLogic IBA7322

CentOS 7, 커널 3.10.0-514.26.2.el7.x86_64

인피니밴드 진단 1.6.5

답변1

사용하던 케이블이 사전에 작동했음에도 불구하고 케이블을 전환하여 이 문제를 해결했습니다. 그런 다음 다시 전환하여 다시 작동했습니다. 케이블 양쪽 끝을 뽑았다가 다시 연결해 보았지만 성공하지 못했습니다. QSFP 및 SFP DAC 케이블과 플러그형 장치에 전기 비트가 있다는 것을 알고 있지만 작동 방식을 모르기 때문에 무엇이 잘못되었는지 확실히 알 수 없습니다.

관련 정보