Aegaeon: Tek GPU’da Yedi LLM’i Koordine Ederek Veri Merkezlerinde Yeni Dönem
yapay zeka yarışında GPU erişimi giderek daha kritik bir durum haline geliyor. Büyük dil modellerinin eğitimi ve çalıştırılması için gereken dev hesaplama gücü, büyük veri merkezlerini ve gelişmiş GPU altyapısını zorunlu kılıyor. Bu noktada Nvidia’nın GPU’ları merkezi rolü üstleniyor; ancak Çin’de erişim giderek sınırlanıyor. ABD-Çin ticaret savaşı, Çin pazarını Nvidia için adeta kapanmaya sürükledi. Bunun sonucunda Çinli şirketler kendi çözümlerini aramaya başladı. Özellikle Huawei başta olmak üzere pek çok firma yerel GPU üretimlerine yönelse de bu durum tek başına yeterli görünmüyor.

Veri merkezlerinin GPU ihtiyacını azaltacak yeni modeller ve sistemler arayışını hızlandırdı. Alibaba, bu alanda önemli bir adım atarak Nvidia’ya bağımlılığı azaltabilecek bir çözümlü ekran ortaya koydu. Aegaeon adını taşıyan bu sistemle, yoğun eş zamanlı sorgu yükleri altında bile kaynakların daha verimli kullanılması hedefleniyor. Aegaeon, Tek Bir GPU’da Yedi Farklı LLM Çalıştırabiliyor ifadesiyle duyurulan teknoloji, beta testlerinde heyecan verici sonuçlar elde etti. Alibaba Cloud’un pazarındaki onlarca dil modeline hizmet verirken kullanılan Nvidia H20 GPU sayısı 1.192’den 213’e düşürüldü; bu süreçte 72 milyar parametreye kadar ölçeklenen modeller eşzamanlı olarak çalıştırılabildi.
Aegaeon tek bir GPU’nun aynı anda yedi farklı LLM’i yönetebilme kapasitesi kazandırırken, model geçiş gecikmesini %97 oranında azaltıyor. Bu yenilik, bulut tabanlı LLM servislerinin temel darboğazlarını hedefliyor. Mevcut mimaride GPU’lar model başına kaynak mantığıyla çalıştığı için her model kendi GPU’sunu kilitliyor ve bu durum kullanım oranını düşürüyor. Alibaba’nın verilerine göre GPU’ların %17,7’si ve sadece %1,35’lik bir sorgu trafiği için boştayken, bu durum çok daha maliyetli bir hal alıyordu. Ekip, bu durumu LLM hizmetlerindeki en büyük gizli maliyet olarak nitelendiriyor.
Aegaeon’un farkı, GPU’yu modele değil üretilen token’a göre paylaştırmasıdır. Sistem, inference sürecini mikro iş parçalarına bölüp GPU çekirdeklerini gerçek zamanlı yeniden planlıyor. Böylece bir modelin token’ını üretirken aynı anda başka bir LLM için de token üretimi mümkün hale geliyor. Alibaba Cloud CTO’su Zhou Jingren, Aegaeon’un sorgu çalışırken bile GPU görevlerini milisaniyeler içinde model değiştirerek yeniden tahsis edebildiğini belirtti. Bu yaklaşım sayesinde tek bir GPU ile aynı anda birkaç farklı model çalıştırılabiliyor ve boştaki GPU döngüleri neredeyse sıfırlanıyor.
Sonuç olarak Aegaeon, GPU’ları çok kiracılı bir sistem gibi kullanarak verimliliği önemli ölçüde artırıyor ve donanım ihtiyacını dramatik biçimde azaltan bir sıçrama sunuyor. Bailian adıyla bilinen platformunda sistemin resmi olarak kullanıma alındığı duyuruldu. Bu platform, farklı yapay zeka modellerini tek bir yerde seçip kullanmaya olanak tanıyor ve bir tür uygulama mağazası işlevi görüyor. Şimdiden devreye alınmış olması, Çin’in GPU’ya olan bağımlılığını hafifletecek önemli bir gelişme olarak öne çıkıyor.