Dell R740 서버 정전 후 UEFI0116 Avago MegaRAID F/W Fault MFI Register 0xF0FF8302 부팅 불가
안녕하세요
다산데이타 입니다.
Dell R740 서버를 사용하던 고객사에서 갑작스런 정전 후
BIOS POST 에서 아래와 같은 메세지가 발생하면서
RAID Controller 가 인식되지 않고
OS로 진입이 안된다는 접수를 받고 현장에 방문 했습니다.
Avago EFI SAS Driver:
Unhealthy status reported by this UEFI driver without specific error
message(s).
UEFI0116: One or more boot drivers have reported issue(s).
Check the Driver Health Menu is Boot Manager for details.
Contrller: Avago MegaRAID SAS Controller
F/W is in Fault State - MFI Register State 0xF0FF8302
(Dell R740에 장착된 RAID Controller 는 PERC H730P 이며
내장된 칩셋이 Avago MegaRAID 제품이라서 위와 같이 표시됩니다.)
하지만, 현장에 방문 해서 서버를 켜니 오류가 발생하지 않고
정상적으로 부팅이 진행 되었습니다.
고객사에서 장애를 접수 하고 저희가 방문하기 전까지 직접 조치항 사항은 아래와 같았습니다.
1) 서버에서 부팅 디스크를 꺼내어 다른 컴퓨터에 장착해 보았다. (정상적으로 부팅 되었다)
2) 서버에서 부팅 디스크를 꺼낼때 서버의 전원 공급장치의 플러그를 분리 했다.
PERC H730P RAID Controller 의 상태를 확인하기 위해
Windows 10에 MegaRAID Storage Manager (MSM) 를 다운로드 받아 설치 했습니다.
* MegaRAID 는 원래 LSI 사의 상품명 이었는데
LSI -> Avago Technologies 에 인수 (2013년 12월 16일)
Avago Technologies 와 Broadcom 합병 (2015년 5월 28일)
를 거치면서 현재(2021)는 Avago 제품으로 표기되고 있습니다.
MSM (Megaraid Storage Manager) 를 설치 한 후 실행하니
RAID Controller 에 기록되어 있는 로그를 확인 할 수 있었습니다.
"controller cache discarded due to memory/battery" 라는 메세지 자체는
메모리 / 배터리로 인해 컨트롤러 캐시가 삭제되었 다는 뜻인데.
운영한지 오래된 서버인 경우 RAID Controller 의 Battery Backup Unit (BBU) 의 성능이 저하되어
충전이 원활이 이루어지지 않고,
그 때문에 controller cache 가 보호되지 못해서 발생하는 경우가 많은데
이 장비는 2020년 초 부터 운영 된 것으로 배터리가 직접적인 원인은 아닌듯 하고,
(물론 새 장비라도 배터리의 고장이 발생할 수 있겠지만)
문제 발생 부터, 현재 문제가 해결 된 사이에 이루어진
고객의 작업등을 종합 해 볼때 아래와 같이 유추 할 수 있겠습니다.
1) 갑작스런 정전이 발생 했다가 빠른 시간내에 전력이 복원됨.
2) 서버의 전원이 갑자기 꺼지면서 RAID Controller 의 Battery Backup Unit (BBU) 에 의해
Cache Memory 의 보호가 시작됨.
3) 전력이 복원되고 RAID Controller 의 Cache Memory 를 복원하는
과정에서 RAID Controller 에 알수 없는 오류 발생.
4) 서버 부팅을 시도 했지만 Cache Memory 문제로
Avago EFI SAS Driver Unhealthy status reported 가 발생하면서
정상적인 부팅이 진행되지 않음.
5) BIOS 의 장치 목록에 RAID Controller 가 표시 되지 않음
6) 장애 접수.
7) 서버의 전원 공급장치의 플러그를 제거하고
부팅 디스크를 분리하여 다른 컴퓨터에 장착 시험.
8) 전원 공급장치의 플러그가 제거된 상태에서 RAID Controller 의 BBU 가 방전 됨
(방전에 소요되는 시간은 찾을 수 없었습니다.)
9) RAID Controller 의 BBU 가 완전히 방전되면서 Cache Memory 가 초기화 됨.
10) 부팅 디스크 원위치 , 전원 플러그 원위치
11) 다산데이타 엔지니어 현장 방문, 정상 부팅 진행됨.
같은 오류는 아니지만, Dell 기술지원 자료에서 유사한 문제 와 해결 방법을 찾을 수 있었습니다.
[Dell PowerEdge 서버의 PERC 컨트롤러에서 메모리 또는 배터리 오류 문제를 해결하는 방법]
유사한 문제가 발생 한 경우 서버의 파워를 얼마나 분리해야 하는지는
(Battery Backup Unit (BBU) 가 완전히 방전되는데 얼마나 걸리는지) 찾을 수 없었습니다.
자료를 찾아보는 도중
같은 모델과 오류는 아니지만 RAID Controller 펌웨어 및
시스템 BIOS 버젼의 문제도 있을 가능성이 있을 듯 하여
[LSI 9271-8i RAID 컨트롤러 카드가 장착된 Precision Workstation R7610에서 부팅 시 치명적 오류 발생]
이 장비에서 같은 문제가 발생할 경우 Update 를 진행할 예정 입니다.
이상 입니다.
'정보공유' 카테고리의 다른 글
HDD SSD 외장하드로 사용할 때 인식이 안된다면(MBR GPT 총정리) (0) | 2022.08.02 |
---|---|
블로워(Blower) 타입의 GPU를 장착해야 하는 이유 (0) | 2022.02.08 |
Intel I225-V 2.5Gb Ethernet - 식별되지 않은 네트워크 문제 (0) | 2021.10.20 |
메모리 에러 점검 'Memtest86' 설치 및 사용방법 (1) | 2020.03.02 |
Intel X520 10G Lancard 펌웨어 업데이트(+Dell Optiplex 9010) (0) | 2020.02.12 |
댓글