어쩌다 IT
article thumbnail
반응형

최초 대응

 

서버를 납품했던 업체에서 연락이 왔다.

 

'Package temperature above threshold, cpu clock throttled' 라는 오류와

'Core temperature above threshold, cpu clock throttled' 라는 오류가 계속적으로 발생한다는 것이다.

[2276289.708207] CPU10: Package temperature above threshold, cpu clock throttled (total events = 5656)
[2276289.708208] CPU7: Package temperature above threshold, cpu clock throttled (total events = 5656)
[2276289.708209] CPU8: Package temperature above threshold, cpu clock throttled (total events = 5655)
[2281195.986377] CPU0: Core temperature above threshold, cpu clock throttled (total events = 651)
[2281195.986378] CPU6: Core temperature above threshold, cpu clock throttled (total events = 651)
[2285693.104236] CPU1: Package temperature above threshold, cpu clock throttled (total events = 5706)
...

예시 사진

 

해당 오류는 진짜로 서버 내 온도를 낮춰주는 팬(Fan)이 문제가 생겨서 CPU의 온도가 임계치를 넘었거나,

센서 등의 오작동으로 CPU의 온도가 임계치를 초과하여 발생하는 알람이라고 한다.

 

일단 나의 경우에는 펌웨어 업데이트로 해결을 했다.

펌웨어 업데이트로 해결되지 않을 시에 팬의 속도를 임의로 최대로 올려보려고 했으나 굳이 그럴 필요까지는 없었다.

참고했던 페이지는 검색하다가 찾았던 인텔에서 찾았다.

물론 이 외에도 많은 글들이 있었지만 해외 커뮤니티에 있던 글들은 너무 어렵고 복잡했다... ㅠ

 

해당 제조사에서 최신 버전의 펌웨어를 구해서 로컬로 연결 후 BIOS 단에서 업데이트를 진행했고,

업데이트 완료 후 모니터링을 진행했는데 해당 오류는 더 이상 발생하지 않았다.

 

펌웨어 업데이트 방법은 다양한 방법이 있는데 추후 서버 납품할 때 포스팅할 수 있도록 하겠다.

 


오류 재발생 및 조치

 

주말이 지나고 업체에서 다시 연락이 왔는데 해당 알람이 다시 발생한다는 소식이었다...

재방문 일정을 잡고나서 해당 문제에 대해서 폭풍 검색을 했다.

 

근본적인 원인을 확인하기 위해서 CPU 온도를 확인해봐야 했다.

먼저 iPMI에 접근하여 서버의 온도와 로그를 확인했는데, 펌웨어 업데이트 이후 눈에 띄는 것은 없었다.

이후 서버에 lm_sensors 패키지를 설치하여 CPU 온도를 모니터링했다.

yum install lm_sensors
# 설치 후
watch sensors

 

명령어를 실행해보니 CPU 온도가 60~70도 정도로 비교적 높게 나오고 있었다.

그러다가 어느 순간 80도가 넘는 순간에 해당 오류가 발생했다.

원인은 방열판이 제대로 조립이 되지 않았거나, 센서가 문제가 있거나, 팬에 문제가 있거나 등등 다양한 원인이 있는데

정확한 원인은 파악하지 못했다.

 

일단 iPMI에서 팬의 속도를 최고로 올려서 돌려보았더니

소음은 많이 났지만 CPU 온도는 40도대로 내려가는 것을 확인할 수 있었다.

 

이후 30분 간격으로 팬 속도를 낮춰보았고 제일 낮은 설정값으로 설정해도 오류가 발생하지 않는 것을 확인할 수 있었다.

 


해결 방법

 

나의 경우에 가장 우선시 되는 작업은 펌웨어 업데이트였다.

이 문제를 검색했을 때 펌웨어 업데이트로 해결한 경우가 많이 있었다.

 

해당 오류가 지속된다면 CPU 온도를 확인하고 팬의 속도를 조절하여 모니터링 하는 것이 두번째 방법이다.

그럼에도 불구하고 계속 오류가 반복이 되면 방열판이나 팬 교체 등까지 고려해봐야 할 것 같다.

 

 

반응형
profile

어쩌다 IT

@jwlish

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!