GPU 벤더가 NVIDIA 인 경우 Teleraf 의 nvidia_smi 플러그인을 사용할 수 있음
nvidia_smi 플러그인은 내부적으로 "nvidia-smi" 프로그램을 사용해 메트릭을 수집하기 때문에 대상 서버에 미리 설치되어 있어야 함
nvidia-smi 설치 (centos 기준)
$ yum update $ yum install kernel-devel kernel headers gcc make $ echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist.conf $ dracut /boot/initramfs-$(uname -r).img $(uname -r) --force $ reboot $ wget http://kr.download.nvidia.com/XFree86/Linux-x86_64/390.59/NVIDIA-Linux-x86_64-390.59.run $ bash NVIDIA-Linux-x86_64-390.59.run
/etc/telegraf.conf 에서 nvidia_smi 플러그인 활성화
...
[[inputs.nvidia_smi]]
# 추가 설정 필요없음
...
GPU 부하 생성
cuda 설치 (참고)
$ wget https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-repo-rhel7-10.0.130-1.x86_64.rpm $ rpm -i cuda-repo-*.rpm $ yum install cuda -y
"requires dkms" 에러 발생할 경우 (참고)
$ yum install epel-release $ yum install dkms $ yum clean expire-cache $ yum install cuda -y
gpu-burn 설치 (참고, 본문에는 ubuntu 기준으로 되어 있으나 centos 에서도 동일)
$ git clone https://github.com/wilicc/gpu-burn $ cd gpu-burn $ make
"nvcc: command not found" 발생하는 경우
cuda 에 포함된 nvcc 가 PATH 에 안잡혀서 발생하는 현상
~/.bash_profile 에 아래 내용 추가 후 source ~/.bash_profile
CUDA_HOME=/usr/local/cuda
PATH=$PATH:$CUDA_HOME/bin
gpu-burn 으로 부하 발생
$ ./gpu_burn 120 # 120초 동안 부하