2 puan yazan GN⁺ 2024-05-15 | 1 yorum | WhatsApp'ta paylaş
  • Google DeepMind'in Gemini 3.5 Flash modeli, Flash serisinin düşük gecikme süresi ve ölçeklenebilirliğini korurken ajan ve kodlama işleri için gelişmiş akıl yürütme sunan bir Preview modelidir
  • Uzun iş akışları ve yinelemeli kodlamanın yanı sıra metin, ses, görüntü, kod ve videoyu birlikte ele alan multimodal anlama temel yetkinliklerinden biridir
  • Yayınlanan örnekler, hızlı UI üretiminden makale tabanlı oyun geliştirmeye ve sanal şehir tasarımına kadar uzanarak ajan tipi işlerde kullanım kapsamını vurgular
  • Benchmark'larda MCP Atlas %83,6, Toolathlon %56,5, Finance Agent v2 %57,9, MMMU-Pro %83,6 gibi birçok başlıkta tablodaki en yüksek skorları kaydetti
  • Girdi olarak metin, görüntü, video, ses ve PDF desteklenir; çıktı metindir. 1M giriş token'ı ve 64k çıkış token'ı, fonksiyon çağırma, yapılandırılmış çıktı, arama aracı ve kod çalıştırma sunar

Gemini 3.5 Flash'in konumu

  • Gemini 3.5 Flash, “Flash düzeyinde gecikme süresi ve ölçeklenebilirlik” ile gelişmiş akıl yürütme sunan bir modeldir
  • Uygulama alanları ajanlar, kodlama, günlük işler, gelişmiş akıl yürütme, multimodal anlama ve uzun bağlam anlama olarak belirtilir
  • Model durumu Preview'dir

Flash gecikme süresinde hedeflenen işler

  • Temel yönelim, yüksek hız ve zekâyı birlikte sunmaktır
    • Hız ve ölçeklenebilirliği korurken zekâdan ödün vermeyen bir model olarak konumlanmayı hedefler
  • Uzun kapsamlı akıl yürütme ve yinelemeli kodlama işlerini işler
  • Metin, ses, görüntü, kod ve video genelinde multimodal anlama desteği sunar

Ajan kullanım örnekleri

  • Hızlı ajan yeteneklerini gösteren birçok iş örneği sunulmuştur
    • 60 saniyeden kısa sürede 6 ödeme UI seçeneği üretme
    • Yüksek hızda 64 fraktal varyasyon üretme
    • AlphaGo makalesini girdi olarak alıp akıllı bir oyunu otonom biçimde geliştirme
    • Minimum girdiyle bir bağış etkinliği markası oluşturup iyileştiren birden fazla iş akışını koordine etme
    • Metin açıklamasını eksiksiz bir etkileşimli HTML bileşenine dönüştürme
    • Strudel müzik kütüphanesini kullanarak birden fazla ajanın şarkı üretmesi
    • Uzman ajanlardan oluşan bir ekibi koordine ederek sanal şehir tasarlama ve inşa etme
    • Dağınık bir veri kümesini otomatik olarak yeniden adlandırma ve yapılandırma
    • Ajanları devreye alarak bir oyunu gerçek zamanlı olarak sürekli iyileştirme

Müşteri örnekleri ve performans iyileştirmeleri

  • Armadin, Gemini'nin en yeni Flash modelinin uzun mesafeli, çok turlu siber benchmark'ta Flash 3'ten %42 daha yüksek olduğunu ve token verimliliğinin %68 iyileştiğini açıkladı
  • Box'ın kurumsal iş değerlendirme setinde Gemini 3.5 Flash, Gemini 3 Flash'tan %19,6 daha yüksek skor aldı
    • Life Sciences müşterilerinde veri çıkarma ve hesaplama doğruluğu %96,4 arttı
    • Financial Services için yapılandırılmış veriye dayalı finansal rapor oluşturma doğruluğu %46,7 arttı
  • JetBrains'in Junie'si, Gemini 3.5 Flash'in Gemini Pro'ya yakın kodlama ve akıl yürütme kalitesi sunarken Flash'in hız ve maliyet özelliklerini koruduğunu değerlendirdi
    • Önceki Flash nesline kıyasla düşük akıl yürütme seviyesindeki kodlama performansı %10–20 iyileşti

Benchmark sonuçları

  • Gemini 3.5 Flash, ajan iş akışlarına yönelik bir model olarak güçlü biçimde öne çıkıyor
  • Kodlama benchmark'ları
    • Terminal-bench 2.1 Agentic terminal coding: %76,2
    • SWE-Bench Pro Public: %55,1
  • Ajan ve araç kullanımı benchmark'ları
    • MCP Atlas: %83,6 ile tablodaki en yüksek skor
    • Toolathlon: %56,5 ile tablodaki en yüksek skor
  • UI kontrolü ve uzman işler
    • OSWorld-Verified: %78,4
    • Finance Agent v2: %57,9 ile tablodaki en yüksek skor
    • GDPval-AA Elo: 1656
  • Multimodal benchmark'lar
    • CharXiv Reasoning: %84,2 ile tablodaki en yüksek skor
    • MMMU-Pro: %83,6 ile tablodaki en yüksek skor
    • Blueprint-Bench 2: %33,6
  • Uzun bağlam ve akıl yürütme
    • MRCR v2 128k ortalaması: %77,3
    • MRCR v2 1M pointwise: %26,6 ile karşılaştırılabilir Gemini 3 Flash ve Gemini 3.1 Pro'dan daha yüksek
    • Humanity’s Last Exam: %40,2
    • ARC-AGI-2: %72,1
  • Değerlendirme yöntemi ayrıntıları Gemini 3.5 Flash evals methodology sayfasında yer alır

Model bilgileri ve kullanılabilir ortamlar

  • Girdi olarak metin, görüntü, video, ses ve PDF desteklenir
  • Çıktı metindir
  • Bağlam ve bilgi sınırı
    • Giriş token'ları: 1M
    • Çıkış token'ları: 64k
    • Bilgi kesim tarihi: Ocak 2025
  • Araç kullanımı özellikleri
    • Fonksiyon çağırma
    • Yapılandırılmış çıktı
    • Aramayı araç olarak kullanma
    • Kod çalıştırma
  • Kullanılabilir ortamlar Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity ve Android Studio'dur
  • Geliştirici dokümantasyonu Gemini API models documentation sayfasında sunulur
  • Model kartı Gemini 3.5 Flash model card sayfasında sunulur

1 yorum

 
GN⁺ 2024-05-15
Hacker News görüşleri
  • llm-gemini eklentisini yükselterek Gemini Flash CLI erişimi sunar hale getirmiş
    pipx install llm # or brew install llm
    llm install llm-gemini --upgrade
    llm keys set gemini
    # paste API key here
    llm -m gemini-1.5-flash-latest 'a short poem about otters'
    https://github.com/simonw/llm-gemini/releases/tag/0.1a4
  • MMLU gibi benchmark’lara bakınca bu, pratikte Llama 3 70B seviyesinde kalite sunan, ilk token gecikmesi 1 saniyenin altında olan ve GPT-4/Opus seviyesinde olmasa da yerel multimodal ile 1 milyon contexte sahip bir model gibi görünüyor
    Kendi başına kurmaya kıyasla fena değil ama Gemini’nin frontier modeller arasındaki temel farkı yerel multimodal olmasıydı. GPT-4o çıkmışken, GCP’ye bağlı olmayan kuruluşların neden Gemini’yi seçeceğinden emin değilim. Bir kitabın ya da filmin tamamını tek seferde işlemiyorsanız GPT-4o’nun 128k context’i de yeterli; 1 milyondan 100 bine inince yapılamayan işleri gerçek ölçekte yapan yerler var mı merak ediyorum
    • 1 milyon token, sohbete başlamadan önce 2.000 sayfalık belgeyi context penceresine koyabilmek demek
      Gemini’nin gücü mantık bulmacası çözme yeteneğinde değil, context uzunluğunda. Sınava çalışıyorsanız tüm ders kitabını sohbete koyabilirsiniz; internette bilgisi olmayan eski bir test sistemi için artık kullanılmayan bir dili kullanmanız gerekiyorsa da 1.300 sayfalık referans kılavuzunu yükleyip soru sorabilirsiniz
    • Bunun Llama 3 70B kalitesi olduğuna inanmıyorum
      Gemini 1.5 Pro’yu çeşitli iş akışlarına sokmayı denedim ama çok kötüydü. Özellikle video veya ses verdiğinizde halüsinasyonlar inanılmaz derecede fazlaydı. Halüsinasyonu bol küçük bir multimodal modelin çoğu şirkette pratik bir kullanım alanı olup olmadığından emin değilim; güvenilir değilse sadece oyuncaktır
    • GCP’ye bağlı olmayan kurumların Gemini’yi seçmesi için sebep fiyat
      Özellikle GPT-4 kalitesine ihtiyaç duymayan multimodal işler için. OpenAI’nin en ucuz multimodal modeli GPT-4o ile kıyaslasak bile, GPT-3.5-Turbo GPT-4o maliyetinin 1/10’u; 1 milyon input token başına $0.5, 1 milyon output token başına $1.50 ve 16K context penceresi sunuyor. Gemini 1.5 Flash ise 128K ve altındaki prompt’larda 1 milyon input token başına $0.35, 1 milyon output token başına $0.53. GPT-4 düzeyinde zeka gerektirmeyen multimodal işler, özellikle belge işleme için Gemini Flash neredeyse %95 maliyet düşüşü gibi görünüyor
    • Bu, 50MB Yahoo hesabı yeterliyken neden 1GB Gmail gerektiğini sormaya benziyor
      Context eklerken iki kez düşünmek zorunda kalmıyorsunuz ve context taşmasını yönetmek için çözümler üretmeniz gerekmiyor. Kullanım senaryolarının çoğunda multimodal yerine metin işleniyorsa avantaj oldukça açık görünüyor
    • Birkaç ay önce Gemini ile 1 milyon token denemeye çalıştım ama ya çöküyordu ya da çok yavaş yanıt verip sonunda çöküyordu
      Beş altı kez denedikten sonra vazgeçtim; umarım bu sürüm daha hızlı ve daha kararlıdır
  • Buradaki büyük özelliğin varsayılan 1 milyon token context olduğunu düşünüyorum, ama bunun pratikte ne anlama geldiğini ölçmek için daha iyi benchmark’lara ihtiyaç var
    Sezgisel olarak, context uzadıkça tek bir vektör uzayı noktasına ne kadar anlam sığdırılabileceğinin sınırına çarpıyor gibiyiz ve context içinden ilgili bölümleri seçmek için daha iyi mimariler gerekecek gibi geliyor
    • Eğer üretim kullanımından söz ediyorsak, ekonomik olarak sürdürülemez bir demo değil de OpenAI’nin en ucuz multimodal modeline kıyasla token başına maliyeti %4–7 olan bir modelde multimodal önemli bir özellik
    • Tek bir nokta sınırının vektör uzayının hangi boyutunda olduğunu kastettiğinizi anlamadım
      Bunun kamuya açık bilgi olup olmadığını bilmiyorum ama embedding boyutu bir mimari tercihidir. Bence bu ilkesel bir sınırdan çok tasarım ve kaynak kısıtı meselesi
    • Vektörler ve vektör veritabanları hakkında kabaca bilgisi olan birinin de anlayabileceği şekilde, anlamı vektör uzayındaki tek bir noktaya sığdırmaktan ne kastettiğinizi açıklayabilir misiniz merak ediyorum
      İlgili yazılar veya ek okuma önerileri varsa paylaşırsanız sevinirim
    • Burada multi-head attention ile uğraşıyoruz, dolayısıyla token başına birden fazla nokta var
      Head sayısı ya da key vector boyutu istenirse artırılabilir
    • Gerçekte o kadar da iyi değil. “Harry Potter 6.5’i verdim, o da karakterleri açıklamalarla birbirine bağlayan bir SVG haritası çıkardı” gibi kulağa hoş gelen demolar yapılabiliyor
      Ama karakterlerin ancak bir kısmı yer alıyor, açıklamalar zayıf kalıyor ve maliyet yaklaşık $20 tutuyor. Bunu 10 kez denerseniz, sadece birkaçında insanı kandıracak kadar iyi oluyor
  • Yalnızca bulutta kullanılabilen bir hafif model olması ilginç. Bu dev teknoloji şirketleri gerçekten yapay zeka kullanımının tamamını sahiplenmek istiyor
    Ama bunun geleceğe dönüşmesine izin vermemeliyiz
  • OpenAI’nin Google’a kıyasla daha iyi olduğu bir nokta, API fiyatlandırmasını açıkça gerçekten yayınlaması ve isimlendirmeyi de nispeten tutarlı yapması
    Google’da API’nin kendisiyle model listesini çekmeye çalışınca, Google Cloud konsolunda Generative Language API denilen ve belgelerde Gemini API olarak geçen bir yol üzerinden yaklaşık 10 model sunuluyor gibi görünüyor. Model adı sayısı 10’dan fazla ama bazılarının birden çok takma adı var.
    Bunların içinde Gemini API fiyatlandırma sayfasında fiyat bilgisi bulunan yalnızca 3 model var; bunların 2’si preview olduğu için fiyatları gelecekte geçerli olacak. Konsoldaki Generative Language API tarafında da belgelerdeki bu 3 modelden preview olmayan aynı tek model için fiyat gösteriliyor. Cloud SKU listesinde Generative Language API yok, Gemini API var ama yine sadece aynı tek model görünüyor. Konsol sayfasının “en güncel fiyatlar” diye bağladığı Cloud Price list’te ise ne Generative Language API ne de Gemini API hiç yer almıyor. Neden bu kadar çok farklı giriş olduğunu anlayamıyorum
  • Çoğu iş için context uzunluğu artık yeterince geniş görünüyorsa, neden hâlâ subword token kullanıldığını merak ediyorum

Karakter tabanlı LLM’lerin nasıl karşılaştırılacağını gerçekten merak ediyorum. 2 milyon bağlam varsa hesaplama darboğazı önemsizleşiyor. Yine de sözlük boyutunun nasıl bir rol oynadığını pek bilmiyorum. Embedding zaten bilginin büyük bir kısmını taşıdığı için büyük bir sözlük önemli olabilir. Tersine, karakter tabanlı bir sözlük kullanmak glitch token’lar, aritmetik, vezin gibi çeşitli sorunları çözebilir gibi geliyor. Subword tokenizer’ı doğru şekilde uygulayıp eğitmek de epey karmaşık görünüyor; karakter seviyesinde ise çok daha basit olmalı

  • Attention mekanizması, daha büyük ve anlamlı token’lara dikkat edebildiğinde öğrenme verimliliği çok daha iyi oluyor
    Çıkarım sunucularında belleğin önemli bir kısmı KV cache’e gidiyor ve attention ile embedding biriktirmek için çok daha fazla token’ı birbiriyle ilişkilendirmek gerekiyor; üstelik her token’ın “anlamı” daha zayıf. Bir gün bu noktaya ulaşılabilir. Nihayetinde piksel ve frekans seviyesine kadar görüntü ve sesi anlayan multimodal LLM’lere ihtiyaç duyacağız ve muhtemelen metnin de sonunda buna evrilmesi istenecektir
  • Karakterler kelime anlamının yapı taşları değil; bu rolü çoğunlukla heceler üstlenir
    En azından genel olarak böyle olduğunu düşünüyorum. Bunun Latin alfabesine göre daha yüksek kalite verebileceğini sanıyorum. LLM’lerin İngilizce ve Çinceyi nasıl işlediğini karşılaştırarak bunu test etmek mümkün olur mu, merak ediyorum
  • Büyük sorunun iki tane olduğunu düşünüyorum. Birincisi, daha fazla çıktıyı sıralı şekilde üretmek gerektiği için gecikme süresi kötüleşiyor
    İkincisi, bu modeller kabaca token’ları embedding katmanında “ortalama anlam”a dönüştürüyor, attention katmanı anlamları birleştiriyor ve feedforward katmanı da mevcut anlam bileşimini öğrenilmiş arketipler ya da prototiplere uyduruyor. Kelime parçalarından karakterlere indiğinizde bunların hepsi daha da karmaşıklaşıyor. Örneğin “a”nın ortalama anlamının ne olduğu bile muğlak; bu yüzden karakter tabanlı modelleri iyi eğitmeye yönelik tekniklerin hâlâ yeterince gelişmediğini düşünüyorum
  • Yapay zeka müzik üretiminde 10^6 ölçeğinde büyük sözlük boyutu ile çok daha iyi sonuçlar alınıyor
    Emin olmadığım bir tahmin ama bunun nedeni transformer’ların genel amaçlı desen tanıyıcılar değil, yalnızca belirli bir ayrıntı düzeyindeki desenleri yakalayabilmeleri olabilir
  • Google’ın kesinlikle daha iyi bir markalama ekibi var gibi görünüyor. Gemini, Gems gibi isimleri beğeniyorum
    “ChatGPT” oldukça hantal ve karmaşık bir isim, OpenAI ise yüzü olmayan bir organizasyon gibi hissettiriyor. Elbette bu değişebilir ama bu noktada artık oldukça geç görünüyor. Pazara çıkarken daha yaratıcı olmak için yeterince bütçeleri vardı
    • “ChatGPT”, “Google” gibi bir isim. “Gemini”nin onun yerini alabileceğini sanmıyorum
    • OpenAI’ın acilen pazarlama danışmanlığına ihtiyacı var
      “GPT4o” da ne demek? Cidden mi? Hatta “GPT4 Omni” konuşmada daha kolay ve zaten “o”nun anlamı da bu. Ne kadar çok sıradan kullanıcı olduğunu ciddi biçimde hafife alıyorlar
  • NYT Connections benchmark’ında Gemini 1.5 Flash 15.3 puan alıyor
    GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
    • O listede performansı yüksek ama adı berbat olan çok fazla OpenAI modeli var
  • Pek bilgi yok. Hızlı ve ucuz bir seçenek olarak pazarlanıyor ama çıkarım hızı benchmark’ı da yok, Gemini dışı modellerle karşılaştırma da yok
    https://ai.google.dev/pricing sayfasına göre gpt3.5-turbo’dan biraz daha ucuz fiyatlandırılmış gibi, ama pratikte nasıl karşılaştırıldığını anlamak mümkün değil
  • Gemini Flash sadece daha hızlı bir Gemini ise, kötü yanıtlar daha hızlı gelse de daha iyi olmaz
    Pratik kodlama, sistem mimarisi ve ara sıra genel sorular için birkaç ay boyunca Gemini Pro ile ChatGPT 4’ü yan yana kullandım; ChatGPT en az %80 daha faydalıydı. Gemini ya hatalıydı ya da işe yarar bir yanıta ulaşana kadar lafı uzatıp duruyordu, bu yüzden kullanmaya değmiyordu. Benim ihtiyacım daha hızlı olması değildi. Belki artık daha “zeki”, yani daha kullanışlı hale gelmiştir
    • Muhtemelen zekayı daha az kaynakla daha çok iş yapmak olarak tanımlarsanız, bu onun genişletilebilir latent uzay üzerinde bir şeylere sahip olduğuna işaret ediyor olabilir