2 puan yazan GN⁺ 2024-12-12 | 1 yorum | WhatsApp'ta paylaş
  • Gemini 1.0, metin, video, görsel, ses ve kod genelinde bilgiyi işleyebilen çok modlu bir model olarak yenilik yaratmıştı
  • Gemini 2.0, bu vizyonu daha da ileri taşıyarak dünyayı anlayabilen, birden çok adımı planlayabilen ve görevleri yerine getirebilen agentik bir modele evrildi
  • Gemini 2.0, Google Search gibi temel ürünlere entegre edilerek daha karmaşık konular ve çok adımlı soruları da işleyebilme yeteneği sunuyor

Gemini 2.0 Flash'in başlıca özellikleri

  • 1.5 Flash'in başarısını temel alarak daha da geliştirilmiş performans ve hızlı yanıt süreleri sunuyor
  • 1.5 Pro'dan 2 kat daha hızlı; önemli benchmark'larda daha üstün performans gösteriyor
  • Görsel, video ve ses gibi multimodal girdilerin yanı sıra metinle karışık görsel üretimi ve çok dilli konuşma sentezini de destekliyor
  • Google Search, kod çalıştırma, özel fonksiyonlar gibi araçları native olarak çağırabiliyor
  • Önce geliştiriciler ve güvenilir test kullanıcılarına sunulacak, gelecek yılın başında daha geniş ölçekte yayımlanması planlanıyor

Araştırma projelerine giriş

  • Project Astra : gelişmiş bellek yeteneklerine sahip genel amaçlı bir yapay zeka asistanı
    • Çok dilli sohbet, Google Search/Lens/Maps kullanımı, yaklaşık 10 dakikalık oturum belleği gibi alanlarda iyileştirmeler içeriyor
    • Android cihazlar üzerinden güvenilir test kullanıcılarından geri bildirim toplayarak geliştiriliyor
  • Project Mariner : tarayıcıyla etkileşime girerek karmaşık görevlerde yardımcı olabilen bir araştırma prototipi
    • WebVoyager benchmark'ında %83.5 gibi yüksek bir sonuç elde etti
    • Kullanıcı son görevi onaylamadan önce doğrulama isteyen güvenlik önlemleri yerleşik olarak bulunuyor
  • Jules : GitHub workflow'larına entegre edilmiş yapay zeka tabanlı bir kodlama ajanı
    • Geliştiricilerin sorunları çözmesine ve planları yürütmesine destek oluyor

Yapay zeka ajanlarının uygulama alanları

  • Oyun geliştiricisi Supercell ile iş birliği içinde oyun içi yapay zeka ajanlarının kullanımını araştırıyor
  • Robotik alanında Gemini 2.0'ın uzamsal akıl yürütme yeteneklerini uygulayan deneyler yürütülüyor

Güvenlik ve sorumlu geliştirme

  • Yeni teknolojilerin geliştirilmesinde aşamalı ve keşif odaklı bir yaklaşım benimsiyor
  • Yapay zeka destekli red team yaklaşımıyla risk tespiti ve azaltma yöntemlerini otomatik olarak üretiyor
  • Project Mariner'da kullanıcıları kötü niyetli prompt injection girişimlerinden koruyan özellikler uygulanıyor
  • Kullanıcı gizliliği için kontrol seçenekleri ve oturum silme işlevi sunuluyor

Gelecek planları

  • Gemini 2.0'ın yeteneklerini Gemini uygulamasına ve diğer Google ürünlerine genişletmeyi planlıyor
  • AGI'ye giden yolda güvenlik ve sorumluluğu en yüksek öncelik olarak ele alacak

1 yorum

 
GN⁺ 2024-12-12
Hacker News görüşleri
  • Yeni llm-gemini eklentisi Gemini 2.0 Flash modelini destekliyor. Terminalde nasıl kullanıldığını paylaşıyor

    • Gemini modelleri, Python kodu yazıp çalıştırabilme yeteneğine sahip
    • Ağ çağrıları mümkün değil, ancak çeşitli yaklaşımlar deneniyor
    • Görsel açıklamalarda üstün performans gösteriyor
  • Büyük şirketler yön değiştirmekte yavaş olur, ama bir kez yön belirlediklerinde küçük şirketlerin yapamayacağını başarabilirler

    • Google bu alanda çok sayıda yeteneğe sahip ve iyi sonuçlar alıyor
    • LLM modellerini ürünleştirme ve pazarlama becerisi hâlâ belirsiz, ancak performansı etkileyici
  • Çoğu benchmark'ta Gemini 1.5 Pro'yu geride bırakıyor

    • Google DeepMind, LLM çağına uyum sağlıyor
    • TPU sayesinde donanımı doğrudan kontrol ediyor
  • Yeni SDK duyuruldu. Modern en iyi uygulamaları izliyor gibi görünüyor

    • OpenAI uyumlu endpoint sunuyordu, ancak uzun vadeli destek verip vermeyeceği belirsizdi
    • Kubernetes kümesi ve GCP bucket yapılandırması öneriliyor
  • Google'ın yeni sürümünün hemen kullanılabilir olmasına sevindim

    • Gemini Flash 2.0, Advent of Code problemlerinde Gemini Pro 1.5'i geride bırakıyor
    • Flash 2.0 derleme hatalarını düzeltiyor
  • "agentic" kelimesi rahatsız edici geliyor

    • "versatile", "multifaceted", "autonomous" gibi kelimeler daha uygun
  • Gemini 2 modelleri ses ve görsel üretim özelliklerini destekliyor

    • Görsel üretimi ocakta genel kullanıma sunulacak
    • Bilgisayarlı görü görevleri LLM üzerinden mümkün hâle gelecek
  • Gemini 2, Chatbot Arena'da 4o'nun önünde

  • "agentic" kelimesinin uygun olmadığını düşünüyorum

    • Bu, çoğunlukla sistem prompt'ları ve araçlardan oluşan bir pipeline
  • iPhone'daki Safari tarayıcısında Google AI Studio üzerinden Gemini 2.0 Flash'a eriştim

    • Kamerayla gördüklerini doğru şekilde tanımlıyor
    • İngilizce ve Japonca metni okuyabiliyor
    • Piyano notalarını görsel olarak tanımladı, ancak yalnızca sesten bunu yapamadı