본문 바로가기

전체 글48

nvidia3 Dynamic Resource Allocation (DRA) for GPUs in Kubernetes Kevin Klues kklues@nvidia.com>Last Updated: February 21st, 2023 IntroductionDynamic Resource Allocation (DRA) is an upcoming Kubernetes feature that puts resource scheduling in the hands of 3rd-party developers. From an end-user’s perspective, It moves away from the limited "countable" interface for requesting access to resources  (e.g. "n.. 2025. 2. 14.
nvidia2 Using a config file to configure the k8s-device-plugin and gpu-feature-discoveryKevin Klues kklues@nvidia.com>Last Updated:03-June-2022Table of ContentsOverview 2Design Details 2Deploying and Testing 4Deployment via helm 4Specifying Multiple Configuration Files 5Updating Per-Node Configuration With a Node Label 6Enabling gpu-feature-discovery 6OverviewAt present, the only way to configure the k8.. 2025. 2. 14.
nvidia Custom Resource Naming and Supporting Multiple GPU SKUs on a Single Node in KubernetesKevin Klues kklues@nvidia.com>Last Updated:12-May-2022Table of ContentsOverview 2Assumptions, Constraints, Dependencies 2Design Details 3OverviewA common question that often gets asked is: Can I have multiple GPUs with different SKUs on the same node in my Kubernetes cluster? As of today, the short answer is no.. 2025. 2. 14.
[k8s] Prometheus Error scraping target 해결하기 (connect: connection refused) (controller-manager, etcd, proxy, scheduler) 🔹 구성 환경Master Node: 3대Worker Node: 10대kube-prometheus-stack 버전: 67.5.0🔹 사전 지식Static Pod란?kubelet이 직접 관리하는 Pod로 일반적인 Pod와 다르게 API 서버와 상관없이 동작한다. Kubernetes API 서버에 의해 스케줄링되지 않고, 각 노드의 Kubelet이 로컬 설정 파일(/etc/kubernetes/manifests/)을 기반으로 실행한다.kube-apiserver.yamlkube-controller-manager.yamlkube-scheduler.yamletcd.yaml /etc/kubernetes/manifests/ 하위 yaml을 수정하면 즉시 적용된다.  yaml을 수정하니 Pod가 terminated되고 .. 2025. 2. 13.
[nginx] Jupyter Notebook 코드 실행 안됨(nginx socket error)(with kubeflow) 🔹 구성 환경사용자 ➡ Nginx ➡ Kubernetes(Ingress, Ingress Nginx Controller, Kubeflow, Jupyter Notebook)사용자는 Nginx를 거쳐서 Jupyter Notebook에 접근한다.🔹 문제 상황Kubeflow를 통해서 Jupyter Notebook Pod를 생성했다.Chrome에서 Jupyther Nodebook에 접근해서 Python 코드를 작성했고, 코드 실행 버튼을 클릭했는데 코드가 실행되지 않고 그냥 skip되는 느낌으로 다음으로 넘어갔다.즉, 코드가 실행이 안된다. 웹브라우저 개발자 도구에서 에러를 클릭해보니아래와 같이 WebSocket 에러가 나고 있었다.WebSocket connection to 'ws://{IP}/notebook/.. 2025. 1. 14.
반응형