Telegraf GPU 모니터링 구성

Print
  • GPU 벤더가 NVIDIA 인 경우 Teleraf 의 nvidia_smi 플러그인을 사용할 수 있음
  • nvidia_smi 플러그인은 내부적으로 "nvidia-smi" 프로그램을 사용해 메트릭을 수집하기 때문에 대상 서버에 미리 설치되어 있어야 함
  • nvidia-smi 설치 (centos 기준)

    $ yum update
    $ yum install kernel-devel kernel headers gcc make
    					 
    $ echo 'blacklist nouveau' >> /etc/modprobe.d/blacklist.conf
    $ dracut /boot/initramfs-$(uname -r).img $(uname -r) --force
    $ reboot
    					 
    $ wget http://kr.download.nvidia.com/XFree86/Linux-x86_64/390.59/NVIDIA-Linux-x86_64-390.59.run
    $ bash NVIDIA-Linux-x86_64-390.59.run
    
    
  • /etc/telegraf.conf 에서 nvidia_smi 플러그인 활성화

    ...

    [[inputs.nvidia_smi]]

    # 추가 설정 필요없음

    ...

GPU 부하 생성

  • cuda 설치 (참고)

    $ wget https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-repo-rhel7-10.0.130-1.x86_64.rpm
    $ rpm -i cuda-repo-*.rpm
    $ yum install cuda -y
    
    
    • "requires dkms" 에러 발생할 경우 (참고)

      $ yum install epel-release
      $ yum install dkms
      $ yum clean expire-cache
      $ yum install cuda -y     
      				
  • gpu-burn 설치 (참고, 본문에는 ubuntu 기준으로 되어 있으나 centos 에서도 동일)

    $ git clone https://github.com/wilicc/gpu-burn
    $ cd gpu-burn
    $ make	
    				
    • "nvcc: command not found" 발생하는 경우
      • cuda 에 포함된 nvcc 가 PATH 에 안잡혀서 발생하는 현상
      • ~/.bash_profile 에 아래 내용 추가 후 source ~/.bash_profile


        CUDA_HOME=/usr/local/cuda
        PATH=$PATH:$CUDA_HOME/bin

  • gpu-burn 으로 부하 발생

    $ ./gpu_burn 120  # 120초 동안 부하				

이 답변이 유용합니까? 아니오

Send feedback
도움을 드리지 못해 죄송합니다. 피드백을 주시면 이 문서의 품질을 높이겠습니다.