Kurumsal yapay zeka yatırımları artık tek bir GPU sunucusu seçimiyle sınırlı değil. NVIDIA DGX ailesi, masaüstü prototipten exaflop ölçeğindeki eğitim kümelerine kadar mimari süreklilik sunan katmanlı bir platform olarak konumlanıyor. Agentic AI — çoklu ajan orkestrasyonu, araç çağrıları, uzun bağlam pencereleri ve sürekli inference döngüleri — bu katman seçimini daha da kritik hale getiriyor. Bu rehber, DGX Spark, DGX Station, DGX B200/H200 sunucuları, BasePOD ve SuperPOD bileşenlerini iş yükü profiline göre haritalandırır ve Türkiye'deki kurumsal IT ekipleri için karar çerçevesi sunar.
[Agentic AI](/blog/agentic-ai-dgx-spark-playbook) İş Yüklerinin Altyapı İmzası
Agentic AI sistemleri, klasik batch inference veya tek seferlik fine-tuning senaryolarından farklı bir kaynak profili üretir. Bir ajan döngüsü tipik olarak şu bileşenleri içerir: büyük dil modeli (LLM) inference, vektör veritabanı sorguları, harici API çağrıları, kod yürütme sandbox'ları ve çoklu ajanlar arası mesaj geçişi. Bu döngü saniyede onlarca kez tekrarlanabilir; gecikme (latency) ve throughput aynı anda önem kazanır.
GPU bellek kapasitesi, agentic iş yüklerinde doğrudan eşzamanlı ajan sayısını ve bağlam penceresi uzunluğunu belirler. 70B parametreli bir modelin FP8 quantize edilmiş halinde bile onlarca gigabayt VRAM gerektirmesi, tek GPU'lu ortamlarda ajan sayısının sert bir tavanı olduğunu gösterir. Çoklu GPU tensor parallelism veya pipeline parallelism ise ağ bant genişliği ve NVLink/NVSwitch topolojisine bağımlılık yaratır.
Ayrıca agentic sistemlerde eğitim ve inference eşzamanlı çalışabilir: bir ajan hattı canlı inference yaparken, başka bir pipeline LoRA adaptörü fine-tune edebilir. Bu hibrit profil, yalnızca inference odaklı veya yalnızca eğitim odaklı kapasite planlamasını yetersiz kılar.
DGX Platformunun Katman Mantığı
NVIDIA DGX serisi, donanım form faktöründen bağımsız olarak tutarlı bir yazılım yığını sunmayı hedefler: NVIDIA AI Enterprise, NGC konteyner kataloğu, CUDA/TensorRT/TensorRT-LLM toolchain'i ve NeMo, NIM (NVIDIA Inference Microservices) gibi üst katman çerçeveleri. Bu süreklilik, bir iş yükünün DGX Spark üzerinde prototiplenip aynı konteyner imajlarıyla BasePOD veya SuperPOD'a taşınmasını mümkün kılar.
Katman seçimi üç eksende değerlendirilmelidir: compute yoğunluğu (FLOPS ve bellek), ölçeklenebilirlik (tek düğümden çok yüz düğüme), ve operasyonel model (masaüstü, rack, veri merkezi pod). Agentic AI için dördüncü bir eksen eklenir: inference gecikmesi ve eşzamanlı oturum sayısı.

[DGX Spark](/blog/agentic-ai-dgx-spark-playbook): Masaüstü Sınıfında Agentic Prototipleme
DGX Spark, Grace Blackwell (GB10) SoC üzerine kurulu kompakt bir form faktörüyle masaüstü veya küçük ofis ortamlarına yöneliktir. Unified memory mimarisi sayesinde CPU ve GPU arasında geleneksel PCIe darboğazı büyük ölçüde ortadan kalkar; bu, uzun bağlamlı agentic denemelerinde bellek bant genişliği avantajı sağlar.
Spark'ın güçlü yönleri şunlardır: hızlı iterasyon, düşük kurulum süresi, tek kullanıcı veya küçük ekip senaryoları, yerel veriyle çalışma (KVKK-nvidia-dgx) açısından veri ikameti kontrolü kolaylaşır), ve NeMo/NIM tabanlı ajan çerçevelerinin lokal testi. Sınırlamalar ise açıktır: çoklu kullanıcı production serving, yüksek eşzamanlılık, büyük ölçekli distributed training ve kurumsal HA/DR gereksinimleri Spark kapsamının dışındadır.
Agentic AI bağlamında Spark şu senaryolarda kazanır: çoklu ajan mimarisinin proof-of-concept'i, tool-calling davranışının fine-tuning veya prompt engineering ile doğrulanması, RAG pipeline'ının embedding + retrieval + generation üçlüsünün uçtan uca testi, ve veri merkezine taşınmadan önce model seçimi ile quantizasyon stratejisinin belirlenmesi.
Spark'tan BasePOD'a geçişte taşınacak artefaktlar arasında konteyner imajları, model ağırlıkları, ajan orkestrasyon kodu ve benchmark metrikleri yer alır. Mimari süreklilik bu geçişi "yeniden yazma" değil "ölçeklendirme" olarak konumlandırır.
DGX Station: Güçlü İş İstasyonu Sınıfı Geliştirme
DGX Station, birden fazla yüksek performanslı GPU'yu tek bir güçlü iş istasyonu formunda birleştirir. Spark'a kıyasla daha yüksek GPU sayısı ve soğutma kapasitesi sunar; veri merkezi rack'ine geçmeden önce orta ölçekli eğitim ve çoklu GPU inference denemeleri için uygundur.
Station, agentic AI geliştirmede özellikle şu profillerde değerlidir: 2-4 GPU ile tensor parallel inference testleri, orta boy model fine-tuning (LoRA/QLoRA), çoklu ajan simülasyonlarında paralel rollout'lar, ve ML mühendisleri ile veri bilimcilerin paylaşımlı geliştirme ortamı. Ancak kurumsal SLA, 7/24 operasyon, merkezi izleme ve çok kiracılı (multi-tenant) serving için Station yeterli değildir.
Station ile rack-mount DGX sunucuları arasındaki fark yalnızca form faktörü değildir: güç dağıtımı, ağ kartı seçenekleri, NVLink topolojisi ve veri merkezi soğutma uyumluluğu rack sistemlerinde daha öngörülebilir ölçekleme sağlar.

DGX B200 ve H200 Sunucuları: Rack Düzeyinde Compute Birimi
DGX B200 ve H200 sistemleri, veri merkezi rack'ine yönelik yoğun GPU compute birimleridir. Blackwell (B200) nesli, önceki Hopper (H200/H100) nesline kıyasla FP8/FP4 tensor işlemlerinde ve bellek bant genişliğinde önemli sıçrama sunar; agentic inference'da token başına maliyet ve gecikme açısından doğrudan etki yaratır.
Tek bir DGX B200/H200 düğümü, birden fazla GPU, yüksek hızlı NVLink/NVSwitch bağlantısı, yüksek bant genişlikli ağ arayüzleri (InfiniBand veya RoCE) ve kurumsal yönetim arayüzleri içerir. Bu düğümler BasePOD ve SuperPOD'un yapı taşlarıdır; tek başına da inference cluster'ı veya küçük eğitim kümesi olarak konuşlandırılabilir.
Agentic AI için B200/H200 düğüm seçiminde dikkat edilmesi gerekenler: model başına GPU bellek gereksinimi, eşzamanlı ajan oturumu hedefi, batch vs continuous batching stratejisi, ve tensor parallel derecesi. 405B sınıfı modellerin tek düğümde çalıştırılması ile 70B modellerin yüzlerce eşzamanlı oturumla servis edilmesi farklı GPU konfigürasyonları gerektirir.
H200, mevcut Hopper yatırımlarının devamı veya belirli yazılım uyumluluk gereksinimleri için hâlâ geçerli bir seçenek olabilir. B200 ise yeni kurulumlarda uzun vadeli TCO ve performans/watt optimizasyonu açısından öne çıkar. Karar, yazılım yığını hazırlık durumu ve tedarik takvimiyle birlikte verilmelidir.
BasePOD: Standartlaştırılmış Veri Merkezi AI Pod'u
BasePOD, önceden tanımlı referans mimari ile DGX düğümlerini, ağ fabric'ini, depolamayı ve yazılım yığınını entegre bir pod olarak sunar. Tipik bir BasePOD onlarca DGX düğümü, NVIDIA Quantum-2 InfiniBand switch'leri, yüksek performanslı paralel dosya sistemi (ör. WEKA, VAST, NetApp) ve kurulum/validasyon playbook'larını kapsar.
BasePOD'un agentic AI'daki rolü, production-grade inference ve orta-büyük ölçekli eğitimi aynı altyapıda barındırmaktır. Örneğin: NIM ile mikro-servis tabanlı model serving, Kubernetes üzerinde ajan orkestrasyon katmanı, vektör DB cluster'ı, ve sürekli fine-tuning pipeline'ı tek bir pod içinde yönetilebilir.
BasePOD seçiminin kazandığı senaryolar: yıllık AI bütçesi milyon dolar bandında olan kurumlar, 10-100 arası eşzamanlı agentic oturum hedefi, kurumsal MLOps/LLMOps disiplininin olgunlaşması, ve 3-5 yıllık kapasite planıyla öngörülebilir genişleme ihtiyacı.
BasePOD'un sınırları SuperPOD ile kıyaslandığında ölçek ve ağ topolojisi optimizasyonunda ortaya çıkar. Yüzlerce düğüme ve exaflop sınıfı eğitime ihtiyaç duyulduğunda SuperPOD referans mimarisi devreye girer.

SuperPOD: Exaflop Ölçeğinde Eğitim ve Foundation Model Üretimi
NVIDIA DGX SuperPOD, yüzlerce DGX düğümünü NVLink Spine ve yüksek radiks InfiniBand fat-tree topolojisiyle birleştirir. Hedef iş yükleri büyük ölçekli pre-training, çok aşamalı distributed fine-tuning, multimodal foundation model geliştirme ve hyperscale inference (binlerce eşzamanlı oturum) olarak özetlenebilir.
Agentic AI perspektifinden SuperPOD, kurum içi foundation model veya domain-specific büyük model üretmeyi planlayan organizasyonlar için anlamlıdır. Özellikle Türkçe ve sektöre özel terminoloji içeren modellerin sıfırdan veya büyük ölçekte continual pre-training ile eğitilmesi, tek BasePOD kapasitesini aşan veri ve compute gerektirebilir.
SuperPOD yatırımı, yalnızca donanım değil operasyonel dönüşüm gerektirir: GPU scheduler (Slurm, Kubernetes with GPU operator), enerji ve soğutma altyapısı, uzman MLOps ekibi, ve aylık kapasite kullanım raporlaması. Bu ölçekte underutilization maliyeti çok yüksektir; iş yükü portföyünün SuperPOD'u sürekli besleyecek kadar olgun olması gerekir.
Mimari Süreklilik: Prototipten Production'a Tek Yol
DGX platformunun stratejik değeri, katmanlar arası yazılım ve iş akışı sürekliliğindedir. Tipik bir olgunlaşma yolu şöyle modellenebilir:
Birinci aşama: DGX Spark veya Station üzerinde ajan mimarisi, model seçimi ve güvenlik kontrollerinin doğrulanması. İkinci aşama: seçilen modellerin DGX B200/H200 düğümünde production inference SLA'larına göre benchmark edilmesi. Üçüncü aşama: trafik ve model sayısı arttıkça BasePOD'a geçiş veya mevcut BasePOD kapasitesinin genişletilmesi. Dördüncü aşama (isteğe bağlı): kurum içi büyük model eğitimi için SuperPOD veya SuperPOD bölümü (slice) kiralama/yatırımı.
Bu yol haritasında her geçiş noktası için taşınabilir artefaktlar tanımlanmalıdır: OCI konteyner imajları, Helm chart'ları, IaC şablonları (Terraform/Ansible), model registry kayıtları, ve observability dashboard'ları. Katman değişimi "sıfırdan platform kurma" değil "kapasite ekleme ve yeniden boyutlandırma" olarak yönetilmelidir.
NeMo Agent Toolkit, LangGraph, CrewAI gibi orkestrasyon çerçeveleri Spark'ta geliştirilip BasePOD'daki Kubernetes namespace'lerine deploy edilebilir. TensorRT-LLM veya vLLM konfigürasyonları da düğüm başına GPU sayısına göre yeniden ölçeklendirilir; algoritma değişmez, yalnızca parallelization derecesi güncellenir.
Türkiye Bağlamı: [KVKK](/blog/kvkk-[air-gap](/blog/kvkk-air-gap-nvidia-dgx)-nvidia-dgx), Veri İkameti ve Tedarik Gerçekleri
Türkiye'deki kurumsal müşteriler için AI altyapı kararları yalnızca performans metrikleriyle verilemez. Kişisel Verilerin Korunması Kanunu (KVKK), kişisel verilerin yurt dışına aktarımında açık rıza veya yeterlilik kararı gibi hukuki çerçeveler sunar; birçok sektörde (finans, sağlık, kamu) verilerin Türkiye sınırları içinde işlenmesi operasyonel bir zorunluluk haline gelmiştir.
DGX Spark ve on-premise BasePOD/SuperPOD kombinasyonu, veri ikametini fiziksel olarak kontrol etme imkânı sağlar. Bulut tabanlı GPU kiralama alternatifleri hukuki uyumluluk açısından değerlendirilebilir olsa da, denetim izi ve veri lokasyonu garantisi açısından on-premise DGX yığını sık tercih edilir. Air-gap veya sınırlı internet çıkışlı ortamlarda NGC ve model güncellemelerinin offline mirror süreçleri önceden planlanmalıdır; bu operasyonel yük cluster2 içeriğinde detaylandırılmaktadır.
Türkiye'de enerji maliyeti, veri merkezi Tier sertifikasyonu, yerel integrator ve destek kapasitesi de TCO hesabına dahil edilmelidir. Lama Yazılım gibi yerel AI çözüm ortakları, donanım tedarikinden önce iş yükü analizi ve mimari yol haritası çıkarılmasında kritik rol oynar; donanım satın alımı, olgunlaşmış bir iş yükü portföyü olmadan yapıldığında kapasite israfına yol açabilir.
Karar Matrisi: Hangi Senaryoda Hangi Katman?
Aşağıdaki senaryolar, pratik seçim için özet çerçeve sunar. Her kurumun özel kısıtları (bütçe, mevcut veri merkezi, ekip yetkinliği) matrisi güncellemeyi gerektirir.
**Senaryo A — Ar-Ge ve PoC (1-5 kullanıcı):** DGX Spark. Hızlı iterasyon, düşük CAPEX, yerel veri. Production SLA yok.
**Senaryo B — Gelişmiş ML ekibi, orta ölçekli fine-tuning (5-15 kullanıcı):** DGX Station veya tek DGX B200 düğümü. Çoklu GPU denemeleri, henüz tam pod gerekmiyor.
**Senaryo C — Kurumsal production inference, 50-500 eşzamanlı agentic oturum:** BasePOD (B200 düğümleri). NIM/Kubernetes, HA, merkezi izleme.
**Senaryo D — Kurum içi Türkçe/sektörel foundation model eğitimi:** SuperPOD veya SuperPOD slice. Büyük veri seti, haftalarca süren distributed training.
**Senaryo E — Mevcut Hopper yatırımı, yazılım uyumluluğu öncelikli:** DGX H200 düğümleri ile BasePOD genişlemesi. B200'ye nesil geçiş planı ayrı fazda.
**Senaryo F — Regüle sektör, air-gap, KVKK sıkı denetim:** On-premise Spark (geliştirme) + on-premise BasePOD (production). Offline güncelleme süreçleri zorunlu.
Agentic AI İçin Teknik Boyutlandırma Notları
Token üretim hızı (tokens/s) tek başına yeterli metrik değildir. Agentic sistemlerde "time to first token" (TTFT), araç çağrısı sonrası ikinci inference turunun gecikmesi ve vektör arama süresi toplam kullanıcı deneyimini belirler. Kapasite planlamasında şu formülasyon yardımcı olur: eşzamanlı oturum sayısı × ortalama ajan turu sayısı × tur başına token × inference süresi = toplam GPU saniyesi.
Bellek planlamasında KV cache büyüklüğü bağlam uzunluğuyla doğrusal artar. 128K bağlam hedefleyen bir agentic uygulama, 8K bağlamlı chatbot'a kıyasla çarpanlarla daha fazla VRAM ister. Quantizasyon (FP8, INT4) ve speculative decoding bu baskıyı azaltır ancak doğruluk ve tool-calling güvenilirliği test edilmelidir.
Depolama katmanı sık göz ardı edilir. Agentic pipeline'lar model ağırlıkları, LoRA adaptörleri, embedding indeksleri, conversation log'ları ve audit trail üretebilir. BasePOD referans mimarilerinde paralel dosya sistemi seçimi, checkpoint yazma hızını ve eğitim verimliliğini doğrudan etkiler.
Operasyonel Olgunluk ve Organizasyonel Hazırlık
Donanım seçiminden önce sorulması gereken sorular: GPU utilization hedefimiz nedir? Model yaşam döngüsü kimde? Incident response playbook'umuz var mı? FinOps ile birim maliyet takibi yapılıyor mu?
Düşük operasyonel olgunlukta SuperPOD satın almak, yüksek operasyonel olgunlukta Spark ile sınırlı kalmak eşit derecede risklidir. Katman haritası, teknik uygunluk ile organizasyonel hazırlığın kesişiminde anlam kazanır.
NIM ve Mikro-Servis Tabanlı Serving Katmanı
NVIDIA Inference Microservices (NIM), DGX katmanları arasında model serving soyutlaması sağlar. Spark'ta tek konteyner olarak test edilen bir NIM imajı, BasePOD'daki Kubernetes cluster'ında Horizontal Pod Autoscaler ile ölçeklenir. Bu desen, agentic uygulamalarda model başına bağımsız SLA tanımlamayı mümkün kılar: planlayıcı ajan küçük ve hızlı bir modelde, derin analiz ajanı büyük bir modelde çalışabilir.
NIM entegrasyonu ayrıca model güncelleme döngüsünü kısaltır. Yeni model versiyonu registry'ye push edildiğinde rolling update ile trafik kademeli kaydırılır; agentic orchestration kodu değişmeden kalır. Air-gap ortamlarda NIM imajları offline mirror sürecinden geçirilir; bu operasyonel yük cluster2 içeriğinde detaylandırılmıştır.
Ağ Topolojisi ve NVLink/NVSwitch Etkisi
Agentic inference'da çok GPU'lu tensor parallelism, düğümler arası iletişimden daha çok düğüm içi NVLink bant genişliğine bağımlıdır. DGX B200 düğümlerinde NVSwitch tam bağlı topoloji, 70B-405B modellerin düşük gecikmeyle servis edilmesini sağlar. BasePOD ve SuperPOD'da InfiniBand fabric, düğümler arası collective communication için kritiktir; yanlış fat-tree tasarımı distributed inference'da P99 gecikmesini yüzde onlarca artırabilir.
Spark ve Station'da ağ topolojisi basittir; bu nedenle distributed benchmark sonuçları veri merkezine doğrudan ölçeklenmez. Taşıma öncesi en az bir hedef düğümde tekrar benchmark zorunludur. RoCE ve InfiniBand seçimi mevcut veri merkezi switch altyapısına bağlıdır; yeşil saha kurulumlarda InfiniBand referans mimarisi tercih edilir.
Türkçe ve Bölgesel Model Stratejisi
Türkiye'deki kurumlar için Türkçe dil kalitesi, agentic uygulamalarda tool-calling doğruluğu kadar önemlidir. Yerel dilde zayıf performans, ajanların yanlış karar üretmesine ve insan müdahalesi maliyetinin artmasına yol açar. Domain-specific fine-tuning veya continual pre-training gereksinimi doğrudan katman seçimini etkiler: hafif adaptasyon Spark veya tek düğümde yapılabilir; büyük Türkçe corpus ile uzun eğitim BasePOD veya SuperPOD gerektirir.
Açık ağırlıklı modellerin (Llama, Mistral, Qwen vb.) Türkçe performansı değişkendir; kurum içi değerlendirme seti oluşturulmalıdır. Bu set, katman geçişlerinde regresyon testi olarak kullanılır. Lama Yazılım gibi yerel ortaklar, sektöre özel benchmark setleri ve Türkçe agentic senaryo kütüphaneleri geliştirmede deneyim taşır.
FinOps ve Kapasite Yönetimi
DGX yatırımının sürdürülebilirliği GPU utilization ve birim iş maliyeti takibiyle ölçülür. Kurumsal FinOps çerçevesinde şu metrikler tanımlanmalıdır: GPU saat maliyeti, milyon token başına maliyet, agentic oturum başına maliyet, ve model başına aylık compute payı. Spark ortamında bu metrikler proje bazlı başlar; BasePOD'da chargeback modeline entegre edilir.
Kapasite planlama döngüsü üç aylık olmalıdır: utilization trendi, bekleyen iş yükü pipeline'ı, ve donanım tedarik süresi birlikte değerlendirilir. SuperPOD ölçeğinde underutilization bir çeyrekte milyonlarca dolar israf anlamına gelebilir; erken fazda Spark ve BasePOD ile utilization kanıtı toplamak finansal riski düşürür.
Yedekleme, Felaket Kurtarma ve İş Sürekliliği
Agentic AI production ortamında kesinti doğrudan iş süreçlerini durdurur. BasePOD deployment'ında aktif-pasif veya aktif-aktif DR topolojisi planlanmalıdır. Model ağırlıkları ve vektör indeksleri coğrafi olarak ayrılmış ikincil sitede replike edilir; RPO hedefi iş birimiyle birlikte belirlenir.
Spark cihazı DR stratejisinde "cold knowledge" rolü üstlenebilir: güncel ajan kodu ve küçük model kopyası acil durumda minimum servis sağlar. Tam kapasite restore BasePOD DR sitesinden yapılır. DR tatbikatı yılda en az bir kez, agentic regresyon testleri dahil çalıştırılmalıdır.
Gözlemlenebilirlik ve SLO Tanımları
Her DGX katmanında tutarlı observability yığını kullanılmalıdır: Prometheus metrikleri, dağıtık izleme (Jaeger/Tempo), ve merkezi log (Loki/ELK). Agentic AI için özel SLO'lar tanımlanır: oturum tamamlama oranı, tool-calling başarı yüzdesi, P95 tur gecikmesi, ve GPU bellek basıncı.
Spark'ta geliştirilen dashboard'lar BasePOD'a export edilir; eşik değerleri ölçekle yeniden kalibre edilir. Alarm gürültüsünü azaltmak için SLO tabanlı alerting (burn rate) tercih edilir.
Tedarik Zinciri ve Yaşam Döngüsü Yönetimi
DGX donanım tedarikinde sipariş-onay-kurulum döngüsü aylar sürebilir. Kapasite planında tedarik süresi buffer olarak eklenmelidir. Firmware, sürücü ve referans mimari sürüm uyumluluğu yaşam döngüsü boyunca izlenir; NVIDIA duyuruları değişiklik yönetim sürecine bağlanır.
Kurumsal varlık yönetiminde her DGX düğümü seri numarası, garanti bitiş tarihi ve konum bilgisiyle kayıtlıdır. Amortisman ve bakım sözleşmesi yenileme tarihleri FinOps raporuna dahil edilir.
Yedek parça ve firmware güncellemeleri tedarik zinciri riski oluşturur; kritik bileşenler için ikincil tedarikçi veya stok politikası tanımlanmalıdır. Türkiye operasyonlarında gümrük ve lojistik süreleri kapasite planına buffer olarak eklenir.
Kurum içi AI komitesi çeyreklik olarak katman haritasını gözden geçirmeli; yeni iş yükleri ve regülasyon değişiklikleri karar matrisini güncellemeyi gerektirebilir.
Sonuç: Katmanlı Strateji ile Sürdürülebilir AI Altyapısı
NVIDIA DGX ekosistemi, agentic AI çağında tek bir "doğru" cevap sunmaz; Spark'tan SuperPOD'a uzanan sürekli bir yelpaze sunar. Kazanan strateji, bugünün iş yükünü karşılarken yarının ölçeklenebilirliğini kapatan değil, mimari süreklilikle açan stratejidir.
Kurumunuz için somut boyutlandırma, TCO modellemesi ve KVKK uyumlu deployment planı oluşturmak üzere cluster içeriklerimizde Spark vs BasePOD satın alma matrisi, air-gap operasyon kontrol listesi ve agentic mimari playbook'u derinlemesine ele alınmıştır. Donanım kararı, iş yükü portföyü ve operasyonel olgunluk netleşmeden verilmemelidir; platform katmanı, iş değerini taşıyan uygulama katmanının önüne geçmemelidir.

