최근에 원격 서버를 듀얼 CPU가 장착된 새로운 Dell PowerEdge T630으로 업그레이드했습니다(따라서 모든 PCIe 슬롯이 활성화됨). 새로운 ATTO H644 SAS HBA를 통해 연결된 IBM LTO5 테이프 드라이브를 추가하기 전에는 몇 주 동안 잘 작동했습니다.
시스템은 정상적으로 부팅되며 카드가 설치될 때까지 안정적인 상태를 유지합니다. 카드를 설치한 후 POST는 정상이며 Linux 커널이 부팅되면 다음을 얻습니다.
megasas: INIT adapter done
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: APEI generic hardware error status
{1}[Hardware Error]: severity: 1, fatal
{1}[Hardware Error]: section: 0, severity: 1, fatal
{1}[Hardware Error]: flags: 0x01
{1}[Hardware Error]: primary
{1}[Hardware Error]: section_type: PCIe error
{1}[Hardware Error]: port_type: 4, root port
{1}[Hardware Error]: version: 1.16
{1}[Hardware Error]: command: 0x0547, status: 0x4010
{1}[Hardware Error]: device_id: 0000:00:1c.4
{1}[Hardware Error]: slot: 2
{1}[Hardware Error]: secondary_bus: 0x0b
{1}[Hardware Error]: vendor_id: 0x8086, device_id: 0x8d18
{1}[Hardware Error]: class_code: 000406
{1}[Hardware Error]: bridge: secondary_status: 0x2000, control: 0x0003
{1}[Hardware Error]: aer_status: 0x00000000, aer_mask: 0x00000000
{1}[Hardware Error]: aer_layer=Transaction Layer, aer_agent=Receiver ID
{1}[Hardware Error]: are_uncor_severity: 0x00000000
Kernel panic - not syncing: Fatal hardware error!
Rebooting in 30 seconds..
우리는 커널 3.5.4 x86_64를 실행 중입니다.
다른 반응 없이 서버의 여러 슬롯에 카드를 사용해 보았습니다. 또한 Clonezilla의 최신 라이브 CD를 부팅해 보았지만 동일한 결과가 나타났습니다.
문제가 무엇인지 진단하려고 합니다... 공급업체 ID는 Intel용이고 장치 ID는 PCIe 브리지(pcieport 커널 모듈)용인 것 같아서 마더보드에 내가 모르는 뭔가가 있을 수 있다는 생각이 듭니다. 카드처럼. 그러나 BIOS POST 화면은 정상이며 오류가 보고되지 않습니다. 온보드 Dell 베이스보드 관리 컨트롤러도 하드웨어 오류를 보고하지 않습니다.
서버가 원격이므로 현재 BIOS에서 PCIe 슬롯을 비활성화합니다.
ATTO H608 카드가 있는데 ATTO 지원에 따르면 내부 및 외부 SAS 포트 수를 제외하면 동일합니다(644 = 6Gbps, 4개의 외부 SAS, 4개의 내부 SAS, 608 = 6Gbps, 0개의 외부 SAS, 8개의 내부 SAS). . 이전 Dell PowerEdge 2850 중 하나에서 H608은 동일한 3.5.4 코어에서 잘 실행됩니다.
테스트할 다른 T630은 없지만 사무실에서 H608 카드를 시험해 볼 수 있는 T620을 구하고 싶습니다.
지금은 곤란한 상황입니다... 이것이 카드 문제인지, Dell 문제인지, 커널 문제인지 알아내려고 노력하고 있습니다... 어떤 의견이라도 보내주시면 감사하겠습니다.
감사해요. - 건배, 피터.
답변1
RH6 커널 버전 2.6.32-504에도 비슷한 문제가 있습니다. ATTO H680의 문제를 해결한 것으로 보이는 2.6.32-431로 롤백했습니다. 이것은 3.5.4 커널에 대한 터무니없는 해결책일 수 있지만 올바른 방향을 제시할 수 있다고 생각합니다.
내 연구에서 나는 발견했습니다.이 기사(ATTO 웹사이트)에는 다음과 같이 명시되어 있습니다.
ATTO 6Gb ESAS HBA 및 Linux 커널 2.6.33
Linux 커널 2.6.33 이상에서는 이제 PMC 8001 칩에 대한 지원이 이라는 드라이버에 내장되어 있습니다
pm8001.ko
. 이 드라이버가 있는 경우 ATTO 6GB HBA에 대해 자동으로 로드되므로rmmod pm8001
드라이버를 로드하기 전에 제거(" ")해야 합니다.2010년 5월 현재 이 커널을 사용하는 유일한 Linux 배포판은 Fedora Core 12입니다. PMC 드라이버를 영구적으로 제거하려면 다음 위치에 있는 내장 드라이버를 삭제해 보십시오.
/lib/modules/2.6.33-default/kernel/drivers/scsi/pm8001/pm8001.ko
참고: 이 위치는 이 커널 버전을 사용하는 모든 Linux 배포판에 적용되지 않을 수 있습니다.
또한 카드의 펌웨어를 업데이트하려면 해당 드라이버와 구성 도구를 설치해야 할 수도 있습니다(해당하는 경우).