Gemini 3.5 Flash
(deepmind.google)- Google DeepMind'in Gemini 3.5 Flash modeli, Flash serisinin düşük gecikme süresi ve ölçeklenebilirliğini korurken ajan ve kodlama işleri için gelişmiş akıl yürütme sunan bir Preview modelidir
- Uzun iş akışları ve yinelemeli kodlamanın yanı sıra metin, ses, görüntü, kod ve videoyu birlikte ele alan multimodal anlama temel yetkinliklerinden biridir
- Yayınlanan örnekler, hızlı UI üretiminden makale tabanlı oyun geliştirmeye ve sanal şehir tasarımına kadar uzanarak ajan tipi işlerde kullanım kapsamını vurgular
- Benchmark'larda MCP Atlas %83,6, Toolathlon %56,5, Finance Agent v2 %57,9, MMMU-Pro %83,6 gibi birçok başlıkta tablodaki en yüksek skorları kaydetti
- Girdi olarak metin, görüntü, video, ses ve PDF desteklenir; çıktı metindir. 1M giriş token'ı ve 64k çıkış token'ı, fonksiyon çağırma, yapılandırılmış çıktı, arama aracı ve kod çalıştırma sunar
Gemini 3.5 Flash'in konumu
- Gemini 3.5 Flash, “Flash düzeyinde gecikme süresi ve ölçeklenebilirlik” ile gelişmiş akıl yürütme sunan bir modeldir
- Uygulama alanları ajanlar, kodlama, günlük işler, gelişmiş akıl yürütme, multimodal anlama ve uzun bağlam anlama olarak belirtilir
- Model durumu Preview'dir
Flash gecikme süresinde hedeflenen işler
- Temel yönelim, yüksek hız ve zekâyı birlikte sunmaktır
- Hız ve ölçeklenebilirliği korurken zekâdan ödün vermeyen bir model olarak konumlanmayı hedefler
- Uzun kapsamlı akıl yürütme ve yinelemeli kodlama işlerini işler
- Metin, ses, görüntü, kod ve video genelinde multimodal anlama desteği sunar
Ajan kullanım örnekleri
- Hızlı ajan yeteneklerini gösteren birçok iş örneği sunulmuştur
- 60 saniyeden kısa sürede 6 ödeme UI seçeneği üretme
- Yüksek hızda 64 fraktal varyasyon üretme
- AlphaGo makalesini girdi olarak alıp akıllı bir oyunu otonom biçimde geliştirme
- Minimum girdiyle bir bağış etkinliği markası oluşturup iyileştiren birden fazla iş akışını koordine etme
- Metin açıklamasını eksiksiz bir etkileşimli HTML bileşenine dönüştürme
- Strudel müzik kütüphanesini kullanarak birden fazla ajanın şarkı üretmesi
- Uzman ajanlardan oluşan bir ekibi koordine ederek sanal şehir tasarlama ve inşa etme
- Dağınık bir veri kümesini otomatik olarak yeniden adlandırma ve yapılandırma
- Ajanları devreye alarak bir oyunu gerçek zamanlı olarak sürekli iyileştirme
Müşteri örnekleri ve performans iyileştirmeleri
- Armadin, Gemini'nin en yeni Flash modelinin uzun mesafeli, çok turlu siber benchmark'ta Flash 3'ten %42 daha yüksek olduğunu ve token verimliliğinin %68 iyileştiğini açıkladı
- Box'ın kurumsal iş değerlendirme setinde Gemini 3.5 Flash, Gemini 3 Flash'tan %19,6 daha yüksek skor aldı
- Life Sciences müşterilerinde veri çıkarma ve hesaplama doğruluğu %96,4 arttı
- Financial Services için yapılandırılmış veriye dayalı finansal rapor oluşturma doğruluğu %46,7 arttı
- JetBrains'in Junie'si, Gemini 3.5 Flash'in Gemini Pro'ya yakın kodlama ve akıl yürütme kalitesi sunarken Flash'in hız ve maliyet özelliklerini koruduğunu değerlendirdi
- Önceki Flash nesline kıyasla düşük akıl yürütme seviyesindeki kodlama performansı %10–20 iyileşti
Benchmark sonuçları
- Gemini 3.5 Flash, ajan iş akışlarına yönelik bir model olarak güçlü biçimde öne çıkıyor
- Kodlama benchmark'ları
- Terminal-bench 2.1 Agentic terminal coding: %76,2
- SWE-Bench Pro Public: %55,1
- Ajan ve araç kullanımı benchmark'ları
- MCP Atlas: %83,6 ile tablodaki en yüksek skor
- Toolathlon: %56,5 ile tablodaki en yüksek skor
- UI kontrolü ve uzman işler
- OSWorld-Verified: %78,4
- Finance Agent v2: %57,9 ile tablodaki en yüksek skor
- GDPval-AA Elo: 1656
- Multimodal benchmark'lar
- CharXiv Reasoning: %84,2 ile tablodaki en yüksek skor
- MMMU-Pro: %83,6 ile tablodaki en yüksek skor
- Blueprint-Bench 2: %33,6
- Uzun bağlam ve akıl yürütme
- MRCR v2 128k ortalaması: %77,3
- MRCR v2 1M pointwise: %26,6 ile karşılaştırılabilir Gemini 3 Flash ve Gemini 3.1 Pro'dan daha yüksek
- Humanity’s Last Exam: %40,2
- ARC-AGI-2: %72,1
- Değerlendirme yöntemi ayrıntıları Gemini 3.5 Flash evals methodology sayfasında yer alır
Model bilgileri ve kullanılabilir ortamlar
- Girdi olarak metin, görüntü, video, ses ve PDF desteklenir
- Çıktı metindir
- Bağlam ve bilgi sınırı
- Giriş token'ları: 1M
- Çıkış token'ları: 64k
- Bilgi kesim tarihi: Ocak 2025
- Araç kullanımı özellikleri
- Fonksiyon çağırma
- Yapılandırılmış çıktı
- Aramayı araç olarak kullanma
- Kod çalıştırma
- Kullanılabilir ortamlar Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity ve Android Studio'dur
- Geliştirici dokümantasyonu Gemini API models documentation sayfasında sunulur
- Model kartı Gemini 3.5 Flash model card sayfasında sunulur
1 yorum
Hacker News görüşleri
pipx install llm # or brew install llmllm install llm-gemini --upgradellm keys set gemini# paste API key herellm -m gemini-1.5-flash-latest 'a short poem about otters'https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Kendi başına kurmaya kıyasla fena değil ama Gemini’nin frontier modeller arasındaki temel farkı yerel multimodal olmasıydı. GPT-4o çıkmışken, GCP’ye bağlı olmayan kuruluşların neden Gemini’yi seçeceğinden emin değilim. Bir kitabın ya da filmin tamamını tek seferde işlemiyorsanız GPT-4o’nun 128k context’i de yeterli; 1 milyondan 100 bine inince yapılamayan işleri gerçek ölçekte yapan yerler var mı merak ediyorum
Gemini’nin gücü mantık bulmacası çözme yeteneğinde değil, context uzunluğunda. Sınava çalışıyorsanız tüm ders kitabını sohbete koyabilirsiniz; internette bilgisi olmayan eski bir test sistemi için artık kullanılmayan bir dili kullanmanız gerekiyorsa da 1.300 sayfalık referans kılavuzunu yükleyip soru sorabilirsiniz
Gemini 1.5 Pro’yu çeşitli iş akışlarına sokmayı denedim ama çok kötüydü. Özellikle video veya ses verdiğinizde halüsinasyonlar inanılmaz derecede fazlaydı. Halüsinasyonu bol küçük bir multimodal modelin çoğu şirkette pratik bir kullanım alanı olup olmadığından emin değilim; güvenilir değilse sadece oyuncaktır
Özellikle GPT-4 kalitesine ihtiyaç duymayan multimodal işler için. OpenAI’nin en ucuz multimodal modeli GPT-4o ile kıyaslasak bile, GPT-3.5-Turbo GPT-4o maliyetinin 1/10’u; 1 milyon input token başına $0.5, 1 milyon output token başına $1.50 ve 16K context penceresi sunuyor. Gemini 1.5 Flash ise 128K ve altındaki prompt’larda 1 milyon input token başına $0.35, 1 milyon output token başına $0.53. GPT-4 düzeyinde zeka gerektirmeyen multimodal işler, özellikle belge işleme için Gemini Flash neredeyse %95 maliyet düşüşü gibi görünüyor
Context eklerken iki kez düşünmek zorunda kalmıyorsunuz ve context taşmasını yönetmek için çözümler üretmeniz gerekmiyor. Kullanım senaryolarının çoğunda multimodal yerine metin işleniyorsa avantaj oldukça açık görünüyor
Beş altı kez denedikten sonra vazgeçtim; umarım bu sürüm daha hızlı ve daha kararlıdır
Sezgisel olarak, context uzadıkça tek bir vektör uzayı noktasına ne kadar anlam sığdırılabileceğinin sınırına çarpıyor gibiyiz ve context içinden ilgili bölümleri seçmek için daha iyi mimariler gerekecek gibi geliyor
Bunun kamuya açık bilgi olup olmadığını bilmiyorum ama embedding boyutu bir mimari tercihidir. Bence bu ilkesel bir sınırdan çok tasarım ve kaynak kısıtı meselesi
İlgili yazılar veya ek okuma önerileri varsa paylaşırsanız sevinirim
Head sayısı ya da key vector boyutu istenirse artırılabilir
Ama karakterlerin ancak bir kısmı yer alıyor, açıklamalar zayıf kalıyor ve maliyet yaklaşık $20 tutuyor. Bunu 10 kez denerseniz, sadece birkaçında insanı kandıracak kadar iyi oluyor
Ama bunun geleceğe dönüşmesine izin vermemeliyiz
Google’da API’nin kendisiyle model listesini çekmeye çalışınca, Google Cloud konsolunda Generative Language API denilen ve belgelerde Gemini API olarak geçen bir yol üzerinden yaklaşık 10 model sunuluyor gibi görünüyor. Model adı sayısı 10’dan fazla ama bazılarının birden çok takma adı var.
Bunların içinde Gemini API fiyatlandırma sayfasında fiyat bilgisi bulunan yalnızca 3 model var; bunların 2’si preview olduğu için fiyatları gelecekte geçerli olacak. Konsoldaki Generative Language API tarafında da belgelerdeki bu 3 modelden preview olmayan aynı tek model için fiyat gösteriliyor. Cloud SKU listesinde Generative Language API yok, Gemini API var ama yine sadece aynı tek model görünüyor. Konsol sayfasının “en güncel fiyatlar” diye bağladığı Cloud Price list’te ise ne Generative Language API ne de Gemini API hiç yer almıyor. Neden bu kadar çok farklı giriş olduğunu anlayamıyorum
Karakter tabanlı LLM’lerin nasıl karşılaştırılacağını gerçekten merak ediyorum. 2 milyon bağlam varsa hesaplama darboğazı önemsizleşiyor. Yine de sözlük boyutunun nasıl bir rol oynadığını pek bilmiyorum. Embedding zaten bilginin büyük bir kısmını taşıdığı için büyük bir sözlük önemli olabilir. Tersine, karakter tabanlı bir sözlük kullanmak glitch token’lar, aritmetik, vezin gibi çeşitli sorunları çözebilir gibi geliyor. Subword tokenizer’ı doğru şekilde uygulayıp eğitmek de epey karmaşık görünüyor; karakter seviyesinde ise çok daha basit olmalı
Çıkarım sunucularında belleğin önemli bir kısmı KV cache’e gidiyor ve attention ile embedding biriktirmek için çok daha fazla token’ı birbiriyle ilişkilendirmek gerekiyor; üstelik her token’ın “anlamı” daha zayıf. Bir gün bu noktaya ulaşılabilir. Nihayetinde piksel ve frekans seviyesine kadar görüntü ve sesi anlayan multimodal LLM’lere ihtiyaç duyacağız ve muhtemelen metnin de sonunda buna evrilmesi istenecektir
En azından genel olarak böyle olduğunu düşünüyorum. Bunun Latin alfabesine göre daha yüksek kalite verebileceğini sanıyorum. LLM’lerin İngilizce ve Çinceyi nasıl işlediğini karşılaştırarak bunu test etmek mümkün olur mu, merak ediyorum
İkincisi, bu modeller kabaca token’ları embedding katmanında “ortalama anlam”a dönüştürüyor, attention katmanı anlamları birleştiriyor ve feedforward katmanı da mevcut anlam bileşimini öğrenilmiş arketipler ya da prototiplere uyduruyor. Kelime parçalarından karakterlere indiğinizde bunların hepsi daha da karmaşıklaşıyor. Örneğin “a”nın ortalama anlamının ne olduğu bile muğlak; bu yüzden karakter tabanlı modelleri iyi eğitmeye yönelik tekniklerin hâlâ yeterince gelişmediğini düşünüyorum
Emin olmadığım bir tahmin ama bunun nedeni transformer’ların genel amaçlı desen tanıyıcılar değil, yalnızca belirli bir ayrıntı düzeyindeki desenleri yakalayabilmeleri olabilir
“ChatGPT” oldukça hantal ve karmaşık bir isim, OpenAI ise yüzü olmayan bir organizasyon gibi hissettiriyor. Elbette bu değişebilir ama bu noktada artık oldukça geç görünüyor. Pazara çıkarken daha yaratıcı olmak için yeterince bütçeleri vardı
“GPT4o” da ne demek? Cidden mi? Hatta “GPT4 Omni” konuşmada daha kolay ve zaten “o”nun anlamı da bu. Ne kadar çok sıradan kullanıcı olduğunu ciddi biçimde hafife alıyorlar
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
https://ai.google.dev/pricing sayfasına göre gpt3.5-turbo’dan biraz daha ucuz fiyatlandırılmış gibi, ama pratikte nasıl karşılaştırıldığını anlamak mümkün değil
Pratik kodlama, sistem mimarisi ve ara sıra genel sorular için birkaç ay boyunca Gemini Pro ile ChatGPT 4’ü yan yana kullandım; ChatGPT en az %80 daha faydalıydı. Gemini ya hatalıydı ya da işe yarar bir yanıta ulaşana kadar lafı uzatıp duruyordu, bu yüzden kullanmaya değmiyordu. Benim ihtiyacım daha hızlı olması değildi. Belki artık daha “zeki”, yani daha kullanışlı hale gelmiştir