Nvidia’nın yeni yazılımı GPU’ların nerede çalıştığını ortaya koyuyor

Nvidia GPU
Nvidia GPU

Nvidia, veri merkezlerindeki yapay zeka GPU filolarını tek panelde izlemeyi amaçlayan yeni bir platformu devreye aldı.

Yeni yapı, müşterinin kendi ortamına kurduğu bir ajan üzerinden telemetri verisi toplayıp NGC üzerindeki merkezi panele aktarıyor. Operatörler, küresel envanter görünümünden tek tek düğüm detayına kadar inerek kullanım, sıcaklık ve güç davranışı gibi başlıkları takip edebiliyor. Arayüz, GPU’ların hangi tesiste veya hangi bölgede çalıştığını da gösterebiliyor.

Nvidia GPU
Nvidia GPU

Telemetri tarafında kısa süreli güç sıçramaları, bellek bant genişliği kullanımı ve çok düğümlü kümelerde bağlantı performansı gibi veriler de izlenebiliyor. Bu sayede eğitim ve çıkarım işlerinde performansı düşüren darboğazlar daha erken tespit edilebiliyor.

Kullanım isteğe bağlı

Nvidia GPU
Nvidia GPU

Nvidia, yazılımın uzaktan müdahale edemediğini ve bir kill switch içermediğini özellikle öne çıkarıyor. Kurulum ve yönetim müşterinin kontrolünde ilerliyor. Ajanın açık kaynak olarak sunulacağı, bu sayede denetlenebilirlik hedeflendiği de aktarılıyor.