서버도 장비다 보니까 사용중에 에러가 생깁니다. 그중에 하나가 주로 이벤트 로그를 많이 살려 봅니다. 그 가운데에 다음과 같은 이벤트 오류가 떴다고 하면 펌웨어 업데이 조치를 취해야 합니다.



중간에 <경고>와 <오류> 메세지가 상당히 많이 기록됨을 알수 있습니다. 조금 더 자세히 살펴 보면 다음과 같은 이벤트 로그를 보여 주고 있습니다.



하드디스크 콘트롤러에 오류가 있다는 메세지를 보여줍니다. 그러면 관리자는 물리적인 서버에 문제가 있다고 판단을 하게 됩니다. 이러한 이벤트 오류가 발생을 하였을때 운영체제 문제인지, 아니면 하드웨어적인 서버 문제인지를 빨리 판단하는 것이 중요한데 위 메세지로는 우선 하드웨어에 문제가 있다고 보시면 되겠습니다.


특히 다음과 같이 이벤트 ID가 129로 나타날경우에는 콘트롤러 쪽에 무슨 문제가 있는 것처럼 보이는데 이럴때는 하드웨어적인 부분에서 펌웨어가 불안정하여 하드디스크가 인식을 했다 안했다 하는 에러 상황을 이벤트 로그로 보여 주고 있는 것입니다.

특히  이러한 부분들은 HP DL380(G5)와 윈도우2003 R2 버전에서 다음 서버에서도 일어나는 현상들이기도 합니다.

http://forums13.itrc.hp.com/service/forums/questionanswer.do?admit=109447627+1278462161749+28353475&threadId=1378213 

관련 내용에 대한 댓글들이 있는데 다른 분들도 비슷한 모양입니다. 우선 펌웨어 업데이트를 통하여 문제점이 개선 되는지는 조금 두고 봐야겠습니다.   참고 하시기 바랍니다.

그런데 조금 더 확인해 본 바로는 다음과 같은 상황에서는 디비쪽에 백업 받는시간에 일정하게 에러가 뿌려 진다는 것으로 봐서 해당 디비(오라클)와 백업간에 어떠한 충돌 문제인듯 합니다. 이번에는 백업을 하지 않고 동일 시간대에 체크를 해 보기로 하였으니, 추후 확인 해 보고 그결과를 알려 드리도록 하겠습니다. @엔시스.





Posted by 엔시스

1. 개요.

서버는 1년365일 내내 하루도 쉬지 않고 돌아가야 하는 시스템 장치이다. 그러다 보니 가끔은 서버도 기계인지라 장애가 발생하는 경우가 있다. 이러한 장애에 대비하여 다운타임(down time) 시간을 최대한 줄이기 위하여, 즉 위험 부담을 감소 시키기 위하여 서버에 레이드(어레이) 구성를 하게된다.


2. RAID 정의

일반적으로 많이 구성하는 방법중에 하나가 바로 미러링(mirroring) RAID 1 로 구성하는 경우이다. 물리적으로 두개의 하드디스크를 사용을 하지만 논리적으로 하나의 하드디스크를 사용하는 것이다.

만약, 이럴경우 하나의 하드디스크가 장애가 생기면 미러링 되어 있던 하드디스크에서 즉시 복구를 할수 있어 위험에 대비하여 중요한 서버의 경우 보통 RAID 1 (미러링)을 구성하여 사용을 많이 한다. 위험대비 효과적인 방법이다. 필자도 시스템을 운영하면서 수없이 많은 사람들이 서버 하드디스크 (소모품)의 장애로 인하여 곤란을 겪는 일을 많이 봐 왔기 때문이다.

보통 비용문제로 인하여 꺼리는 경우가 있는데 안전성 측면에서는 반드시 권장하고 싶고 특히 자신이 시스템 담당자라면 윗 사람에게 잘 설득하여 꼭 위험 감소에 대한 대비를 하여야 한다.


3. RAID 1(미러링장애)


이렇게 위험 감소를 위하여 어레이 구성을 해 놓았지만 서버도 장비인 관계로 장애가 나는 경우가 있다. 다음 그림은 HP 장비의 레이드 장애난 그림이다.  해당 그림을 보면 SAS 하드디스크를 사용하고 있지만 실제 뷰(view)에서 빨간색으로 경고를 알려 주고 있다. 즉 하드디스크에 장애가 난 것이다.





4. HP 장비에서는 툴로 확인 가능






그림에서는 HP 설치후 유틸리티를 설치 하여서 장비에 문제가 생길때 마다 볼수 있는 유틸리티가 있다. 이러한 벤더에서 제공하는 유틸리티를 잘 이용하면 유용하게 사용할 수 있다.


4.1 하드디스크 LED 확인


이러한 서버에 장애가 생기면 육안으로도 확인이 가능하다. 평소 SAS 하드디스크에 그린색인 LED에 주홍색 LED가 나타나게 되는것이다. 서버의 경우 육안으로도 장애를 식별할수 있어 주기적인 점검이 필요하기도 하다. 물론 자신의 서버이면 매일같이 접속을 하여 살펴 보겠지만 그렇지 않을 경우에는 외부에서 육안 검색도 필요하다는 것이다.


5. 스마트 어레이 P400I



현재 HPDL360(G5)에 제공되고 있는 어레이로서 관련 툴을 설치하면 아래 그림과 같이 볼수 있는데 Array A에 무슨 문제가 생겼다는 표시를 육안으로 확인 할수 있다.






6. 예비용 SAS 하드디스크로 교체

이런 경우에 핫스왑이 지원이 되지만 혹시 모를 경우에 대비를 하여 전원을 잠시 내렸다가 정상적인 예비 하드디스크를 이용하여 장애난 하드디스크와 교체후 전원을 넣어 교체처리를 한다. 물론 부팅은 정상적으로 이루어질 것이고 기존에 있던 내용은 미러링으로 묶여있는 관계로 새롭게 교체된 하드디스크에 복제가 되는 것이다. 만약 예비용 하드디스크가 없을 경우에는 서비스 기간내에 있으면 A/S를 이용하여 새로운 하드디스크로 교체 처리해야한다.



결론

어레이구성(레이드)은 대용량 저장 장치에서 여러가지 데이터를 효율적으로 사용하기 위하여 사용하는 방법이지만 한편으로는 갑자기 생긴 장애에 대비한 방법으로 미러링을 구성하여 사용하기도 한다. 기계는 사용하면 할수록 감가 상각이되고 노후화 되게 마련이다. 특히 서버에서 하드디스크는 수많은 I/O와 트렌젝션이 이루어지면 그 수명은 점점 줄어 들게 마련이다. 이러한 대비를 하지 않은채 무방비 상태로 대용량 저장장치를 이용하여 수 많은 데이터와 자료를 저장해 놓았다가 하루 아침에 모든 데이터가 날라 가는 우(愚)를 범하지 않아야 한다. 초기 시스템 구성시에 이러한 부분들을 잘 설계하여 보다 안정적이고 효율적으로 운영하는 것이 시스템관리자의 몫이기도 하다.  @엔시스.



Posted by 엔시스

오늘 유명한 블로거에 들렀다가 놀란 내용을 접하게 되었다... 이게 뭐니.....정말


관련 포스팅
IT납품비리 수면 위로…HP, 글로벌 명성 먹칠 


평소 유명 외산 벤더 서버제품을 자주 접하고 있는지라 여러가지 측면에서 브랜드적 이미지를 생각하고 선택하는 경우가 많았다. 특히 IT쪽에 근무하는 사람이라면 한번쯤 HP와 IBM등의 외산 밴더 제품을 선호하게 된다...


그런데 한마디 하자...

 "갑의 지위가 그리도 좋았더냐.."
"역시 잘못 먹으니 체하지......"

이젠 그런 HP 대한 호의적인 이미지는 싹 가시는거 같다,...제품 좋으면 뭐할까...차라리 어려움 겪는 국내 제품중에 우수한 제품을 선택하는 것이 나을것 같다..

"제발 정신 좀 차려라"
" 공무원 조직개편이다 뭐다 자기 밥그릇 챙기기 어려운데 이제 집으로 가슈"

오늘은 블로그 포스팅을 보고 왠지 씁슬하다는 생각이 들었고, 아래 포스팅은 무언가 의미 심장한 한마디를 던져 주는 것 같다....

먹으면 콱 죽는 독약, 요즘에는 좀 풀리는 듯? 

여러분 공짜라고 무조건 받아 먹으면 몇배 토해 냅니다...
중요한 것은 받아 먹으면 받아 먹으만큼 비리가 생긴다는 것에 문제가 있는것이죠...
아무튼  씁쓸합니다...에효..@엔시스



Posted by 엔시스