정보공유

Dell R740 서버 정전 후 UEFI0116 Avago MegaRAID F/W Fault MFI Register 0xF0FF8302 부팅 불가

CheekyKite 2021. 10. 20.

안녕하세요

다산데이타 입니다.

 

Dell R740 서버를 사용하던 고객사에서 갑작스런 정전 후

BIOS POST 에서 아래와 같은 메세지가 발생하면서

RAID Controller 가 인식되지 않고

OS로 진입이 안된다는 접수를 받고 현장에 방문 했습니다.

 

Avago EFI SAS Driver:

Unhealthy status reported by this UEFI driver without specific error

message(s).

 

UEFI0116: One or more boot drivers have reported issue(s).

Check the Driver Health Menu is Boot Manager for details.

Contrller:  Avago MegaRAID SAS Controller

 F/W is in Fault State - MFI Register State 0xF0FF8302

 

(Dell R740에 장착된 RAID Controller 는 PERC H730P 이며

내장된 칩셋이 Avago MegaRAID 제품이라서 위와 같이 표시됩니다.)

 

BIOS PORT Error
Boot Fail...

 

하지만, 현장에 방문 해서 서버를 켜니 오류가 발생하지 않고

정상적으로 부팅이 진행 되었습니다. 

 

정상 부팅 후 PERC H730P Adapter 까지 정상 인식된 모습.

 

고객사에서 장애를 접수 하고 저희가 방문하기 전까지 직접 조치항 사항은 아래와 같았습니다. 

 

1) 서버에서 부팅 디스크를 꺼내어 다른 컴퓨터에 장착해 보았다. (정상적으로 부팅 되었다)

2) 서버에서 부팅 디스크를 꺼낼때 서버의 전원 공급장치의 플러그를 분리 했다.

 

PERC H730P RAID Controller 의 상태를 확인하기 위해

Windows 10에 MegaRAID Storage Manager (MSM) 를 다운로드 받아 설치 했습니다. 

 

* MegaRAID 는 원래 LSI 사의 상품명 이었는데 
LSI -> Avago Technologies 에 인수  (2013년 12월 16일) 
Avago Technologies 와 Broadcom 합병 (2015년 5월 28일) 
를 거치면서 현재(2021)는 Avago 제품으로 표기되고 있습니다. 

 

MSM (Megaraid Storage Manager) 를 설치 한 후 실행하니

RAID Controller 에 기록되어 있는 로그를 확인 할 수 있었습니다. 

controller cache discarded due to memory/battery 
controller cache discarded due to memory/battery 및 Cuurrent capacity of the battery is below

 

"controller cache discarded due to memory/battery" 라는 메세지 자체는

메모리 / 배터리로 인해 컨트롤러 캐시가 삭제되었 다는 뜻인데.

운영한지 오래된 서버인 경우 RAID Controller 의 Battery Backup Unit (BBU) 의 성능이 저하되어

충전이 원활이 이루어지지 않고,

그 때문에 controller  cache 가 보호되지 못해서 발생하는 경우가 많은데 

 

이 장비는 2020년 초 부터 운영 된 것으로 배터리가 직접적인 원인은 아닌듯 하고, 

(물론 새 장비라도 배터리의 고장이 발생할 수 있겠지만)

 

문제 발생 부터, 현재 문제가 해결 된 사이에 이루어진

고객의 작업등을 종합 해 볼때 아래와 같이 유추 할 수 있겠습니다. 

 

1) 갑작스런 정전이 발생 했다가 빠른 시간내에 전력이 복원됨.

2) 서버의 전원이 갑자기 꺼지면서 RAID Controller 의 Battery Backup Unit (BBU) 에 의해

    Cache Memory 의 보호가 시작됨.

3) 전력이 복원되고 RAID Controller 의 Cache Memory 를 복원하는

   과정에서 RAID Controller 에 알수 없는 오류 발생.

4) 서버 부팅을 시도 했지만 Cache Memory 문제로

    Avago EFI SAS Driver Unhealthy status reported 가 발생하면서

   정상적인 부팅이 진행되지 않음.

5) BIOS 의 장치 목록에 RAID Controller 가 표시 되지 않음

6) 장애 접수.

7) 서버의 전원 공급장치의 플러그를 제거하고

    부팅 디스크를 분리하여 다른 컴퓨터에 장착 시험.

8) 전원 공급장치의 플러그가 제거된 상태에서 RAID Controller 의 BBU 가 방전 됨

    (방전에 소요되는 시간은 찾을 수 없었습니다.)

9) RAID Controller 의 BBU 가 완전히 방전되면서 Cache Memory 가 초기화 됨.

10) 부팅 디스크 원위치 , 전원 플러그 원위치

11) 다산데이타 엔지니어 현장 방문, 정상 부팅 진행됨.

 

같은 오류는 아니지만, Dell 기술지원 자료에서 유사한 문제 와 해결 방법을 찾을 수 있었습니다. 

[Dell PowerEdge 서버의 PERC 컨트롤러에서 메모리 또는 배터리 오류 문제를 해결하는 방법]

 

유사한 문제가 발생 한 경우 서버의 파워를 얼마나 분리해야 하는지는 

(Battery Backup Unit (BBU) 가 완전히 방전되는데 얼마나 걸리는지) 찾을 수 없었습니다. 

 

자료를 찾아보는 도중

같은 모델과 오류는 아니지만 RAID Controller 펌웨어 및

시스템 BIOS 버젼의 문제도 있을 가능성이 있을 듯 하여

[LSI 9271-8i RAID 컨트롤러 카드가 장착된 Precision Workstation R7610에서 부팅 시 치명적 오류 발생]

 

이 장비에서 같은 문제가 발생할 경우 Update 를 진행할 예정 입니다. 

이상 입니다. 

댓글