Yazılım

Gemini Embedding 2 ile Çok Modlu İçeriklerde Yeni Dönem

Google, yeni Gemini Embedding 2 modelini duyurarak çok modlu verileri tek bir ortak vektör uzayında birleştirme hedefini güçlendiriyor. Metin, görsel, video, ses ve PDF gibi farklı veri türlerini aynı semantik alanda temsil ederek karşılaştırılabilir hale getiriyor ve bu sayede yapay zeka iş akışlarında sadeleşme sağlıyor.

Embedding kavramı, verinin anlamını sayısal vektörlerle ifade etme sürecidir. Bu yaklaşım, içerikleri anlam düzeyinde konumlandıran dev bir kütüphane sistemi gibi düşünülüyor; benzer içerikler aynı mahiyetler üzerinden bağ kurabilir. Örneğin bir biyografi ile teknik bir kılavuz, anlam oturumunda yakınlaşabilir ve böylece farklı türdeki içerikler arasında da ilişkiler kurulabilir.

Gemini Embedding 2, önceki sürümün metin odaklı yapısını genişleterek artık görseller, videolar, ses kayıtları ve PDF belgelerini de aynı semantik vektör uzayına taşıyabiliyor. Özellikle ses verisini doğrudan işleyebilmesi, geleneksel süreçlerdeki metne dönüştürme adımını atlayarak kayıp olabilecek bağlamsal bilgileri korumayı amaçlıyor. Ayrıca interleaved input adı verilen özellik sayesinde geliştiriciler tek bir taleple çok türlü verileri bir arada gönderebiliyor ve bu, medya türleri arasındaki ilişkilerin daha doğru öğrenilmesini destekliyor.

Teknik kapasite artışı Gemini Embedding 2, önceki modele kıyasla daha yüksek bir veri kapasitesine sahip. Metin için token sınırı 8.192’ye yükselirken, görseller için tek istekte en fazla 6 adet PNG veya JPEG kabul ediliyor; video tarafında 120 saniyeye kadar işleme imkanı bulunuyor ve PDF belgeleri 6 sayfaya kadar analiz ediliyor. Bu sınırlar, modelin çok modlu yeteneklerini verimli biçimde kullanmayı mümkün kılıyor.

Model, Matryoshka Representation Learning (MRL) yaklaşımını kullanmaya devam ediyor; katmanlı yapı sayesinde daha küçük temsil vektörleri, daha büyük vektörlerin içinde yer alabiliyor. Varsayılan vektör boyutu 3.072 olarak belirlenmiş durumda; kullanım senaryosuna göre 1.536 veya 768 boyutlu varyantlar da destekleniyor. 100’den fazla dilde semantik anlamı koruma özelliğini sürdüren Gemini Embedding 2, Gemini API ve Vertex AI üzerinden halka açık ön izleme kapsamında erişilebilir durumda.

Kullanıcılar için fiyatlandırma ise iki katmanda yürütülüyor: ücretsiz katmanda dakikada sınırlı sayıda istek mümkünken veriler Google hizmetlerini geliştirmek amacıyla kullanılabiliyor. Ücretli planda ise 1 milyon token başına metin, görsel ve video için 0,25 dolar; yerel ses verisi için ise 0,50 dolar uygulanıyor. Geliştiriciler için Colab notebook’ları ve LangChain, LlamaIndex gibi araçlarla sorunsuz entegrasyon imkanı sunuluyor.

Etiketler :