22 puan yazan GN⁺ 2025-01-01 | 1 yorum | WhatsApp'ta paylaş

Simon Willison’ın 2024’te LLM alanındaki tüm değişimlere dair özeti

  • GPT-4 sınırları tamamen aşıldı
  • Bazı GPT-4 modelleri dizüstü bilgisayarımda çalışıyor
  • LLM fiyatları çakıldı; rekabet ve verimlilik bu değişimi getirdi
  • Çok modlu görme yaygınlaştı, ses ve video da yeni katıldı
  • Ses ve canlı kamera modu, bilim kurgunun gerçeğe dönüşmesi
  • Prompt tabanlı uygulama üretimi artık gündelik bir teknoloji
  • En iyi modellere ücretsiz erişim, birkaç ay içinde sona erdi
  • "Ajanlar", hâlâ gerçeğe dönüşmemiş bir kavram
  • Değerlendirmelerin (Evals) önemi
  • Apple Intelligence hayal kırıklığı yaratıyor ama MLX kütüphanesi etkileyici
  • Ölçeklenen çıkarım ve "Reasoning" modellerinin yükselişi
  • Şu anki en iyi LLM, Çin’de 6 milyon doların altında bir maliyetle mi eğitildi?
  • Çevresel etki iyileşti
  • Çevresel etki daha da kötüleşti
  • 2024, "Slop" yılı oldu
  • Sentetik eğitim verisinin şaşırtıcı etkileri
  • 2024, LLM kullanmanın daha zorlaştığı bir yıl oldu
  • Bilginin dengesiz dağılımı
  • LLM’ler için daha iyi eleştirilere ihtiyaç var

# GPT-4 sınırları tamamen aşıldı

  • 2023’te durum: GPT-4 en iyi dil modeli olarak görülüyordu ve diğer yapay zeka laboratuvarları bunu aşamamıştı. OpenAI’nin sahip olduğu teknik sırlar dikkat çekiyordu.
  • 2024’te değişenler: 18 kuruluş GPT-4’ü geride bırakan modeller açıkladı. Şu anda Chatbot Arena liderlik tablosunda GPT-4-0314’ü (Mart 2023 çıkışlı) geçen 70 model bulunuyor.
  • Başlıca modeller ve teknik ilerlemeler
    • Google Gemini 1.5 Pro: Şubat 2024’te yayınlandı
      • GPT-4 seviyesinde çıktı ve yeni özellikler sundu
      • 1 milyon (daha sonra 2 milyon) token giriş bağlam uzunluğunu destekledi
      • Video girişi özelliğini getirdi
      • Uzun girdi işleme sayesinde kodlama problemlerini çözebiliyor ve kitapların tamamını analiz edebiliyordu
      • Google I/O 2024 açılış konuşmasında önemli bir duyuru olarak ele alındı
    • Anthropic Claude 3 serisi:
      • Claude 3 Opus: Mart 2024’te çıktı, yüksek performansıyla dikkat çekti
      • Claude 3.5 Sonnet: Haziran’da çıktı, 22 Ekim’de yükseltilmiş sürümü duyuruldu
      • Yükseltmeden sonra da sürüm numarası 3.5 olarak kaldı; hayranları arasında Claude 3.6 diye anıldı
  • Bağlam uzunluğunun genişlemesi
    • 2023: Modellerin çoğu 4.096~8.192 token destekliyordu. Claude 2.1 ise 200 bin token ile istisnaydı
    • 2024: Önde gelen modeller 100 binin üzerinde token desteklemeye başladı, Google Gemini serisi ise 2 milyon tokene kadar çıktı
    • Uzun girdi verilerini işleyerek çeşitli problemleri çözmek mümkün hâle geldi
    • Bir kitabın tamamını analiz etmek veya örnek koda dayanarak sorun çözmek için avantaj sağladı
  • GPT-4’ü geride bırakan modeller ve kuruluşlar
    • Chatbot Arena liderlik tablosuna göre GPT-4-0314’ten daha yüksek performanslı modellere sahip kuruluşlar:
      • Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI dahil 18 kuruluş
    • Liderlik tablosunda GPT-4-0314 şu anda ilk 70 içinde yer alıyor

# Bazı GPT-4 modelleri dizüstü bilgisayarımda çalışıyor

  • Kullanılan cihaz: 2023’te çıkan, 64 GB RAM’li bir M2 MacBook Pro. Yaklaşık iki yıllık bu cihaz, Mart 2023’te ilk kez LLM çalıştırdığım aynı dizüstü bilgisayar.
  • Performans değişimi: Başta GPT-3 seviyesindeki modelleri ancak çalıştırabilirken, artık GPT-4 seviyesindeki modeller de çalışabiliyor.
    • Qwen2.5-Coder-32B: Kasım 2024’te çıkan, Apache 2.0 lisanslı ve kodlama odaklı bir model.
    • Meta Llama 3.3 70B: Aralık 2024’te çıkan GPT-4 sınıfı bir model.
  • Önemi: GPT-4 seviyesindeki modellerin artık 40.000 doların üzerinde GPU’lara sahip veri merkezi sunucularında değil, bir dizüstü bilgisayarda da çalışabilmesi şaşırtıcı.
    • 64 GB RAM’in neredeyse tamamını kullandığı için başka işler yapmak zorlaşıyor.
    • Bu, model verimliliğindeki artış sayesinde mümkün oldu. Son bir yıldaki optimizasyonların sonucu olarak görülüyor.
    • Yine de verimlilik tarafında daha fazla gelişme alanı olduğu düşünülüyor.
  • Meta Llama 3.2 modelleri: GPT-4 seviyesinde olmasalar da 1B ve 3B boyutlarındaki modeller, küçük boyutlarına rağmen etkileyici performans gösteriyor.
    • Llama 3.2 3B: Ücretsiz MLC Chat iOS uygulamasıyla çalıştırılabiliyor.
    • 2 GB’tan küçük boyutuyla iPhone’da çalışabiliyor ve saniyede 20 token üretebiliyor.
    • Örnek: "Bir veri gazetecisinin yerel bir çömlek ustasına aşık olduğu bir Netflix Noel filmi konusu" istendiğinde, basit ama uygun bir yanıt üretiyor.
      • Başlık: "Love in the Clay"
      • Konu: Baş karakter Jessica’nın memleketi Willow Creek’e dönerek yerel tarihi ve soylulaştırmanın etkilerini araştırması etrafında gelişiyor.
    • Sonuç sıradan olsa da bunun iPhone’da yapılabilmesi ilgi çekici.

# LLM fiyatları çakıldı; rekabet ve verimlilik bu değişimi getirdi

  • 2023 sonundaki fiyatlar: OpenAI’nin başlıca modellerinin fiyatları şöyleydi.
    • GPT-4: $30/million input tokens
    • GPT-4 Turbo: $10/mTok
    • GPT-3.5 Turbo: $1/mTok
  • 2024’te fiyat değişimi:
    • OpenAI o1: $30/mTok ile en pahalı model
    • GPT-4o: $2.50/mTok (GPT-4’e göre 12 kat daha ucuz)
    • GPT-4o Mini: $0.15/mTok (GPT-3.5’e göre yaklaşık 7 kat daha ucuz ve daha iyi performanslı)
    • Anthropic Claude 3 Haiku: $0.25/mTok (Mart’ta çıktı, Anthropic’in en ucuz modeli)
    • Google Gemini 1.5 Flash: $0.075/mTok
    • Google Gemini 1.5 Flash 8B: $0.0375/mTok (GPT-3.5 Turbo’ya göre 27 kat daha ucuz)
  • Fiyat düşüşünün nedenleri:
    • Rekabetin artması: Çok sayıda model sağlayıcısının pazara girmesiyle fiyat rekabeti kızıştı.
    • Verimliliğin artması: Model eğitimi ve çıkarım süreçlerinin optimize edilmesi enerji tüketimini azalttı.
      • Tek tek prompt’ların çalıştırılmasının enerji maliyetine dair kaygılar azaldı.
  • Verimlilik ve çevresel maliyet:
    • Enerji verimliliğindeki artış çevresel kaygıları azalttı.
    • Ancak veri merkezi inşasının çevresel etkisi hâlâ sorun olmaya devam ediyor.
  • Gerçek kullanım maliyeti hesabı:
    • Google Gemini 1.5 Flash 8B kullanılarak kişisel fotoğraf arşivinin (68.000 fotoğraf) açıklamalarını üretmenin maliyeti hesaplandı.
      • Fotoğraf başına 260 input token ve 100 output token gerekiyor.
      • Toplam 17.680.000 input token * $0.0375/million = $0.66
      • Toplam 6.800.000 output token * $0.15/million = $1.02
      • Toplam maliyet: 68.000 fotoğrafı işlemek için $1.68.
  • Açıklama örneği:
    • Fotoğraf: California Academy of Sciences’ta iki kelebek kırmızı bir tepsiden besleniyor.
    • Üretilen açıklama:
      • Kırmızı bir tepside meyve yiyen iki kelebeğin fotoğrafı.
      • Kelebeklerin renkleri ve desenleri bile ayrıntılı biçimde tarif ediliyor.
    • Maliyet: Yaklaşık 0.0024 sent, yani sentin 400’de 1’inden daha az.
  • 2024’ün en büyük değişimlerinden biri:
    • Fiyatların düşmesi ve enerji maliyetlerinin azalmasıyla LLM’lerin kullanışlılığı en üst seviyeye çıkıyor.

# Çok modlu görme yaygınlaştı, ses ve video da yeni katıldı

  • 2024’ün başlıca trendleri: Multimodal LLM’ler (metnin yanı sıra görsel, ses, video gibi çeşitli girdileri işleme) yaygınlaştı.
    • 2023 örnekleri:
      • OpenAI GPT-4 Vision: Kasım 2023’te DevDay’de yayınlandı.
      • Google Gemini 1.0: 7 Aralık 2023’te duyuruldu.
    • 2024’teki başlıca yayınlar:
      • Anthropic Claude 3 serisi: Martta yayınlandı.
      • Google Gemini 1.5 Pro: Nisanda yayınlandı (görsel, ses ve video işleme desteği).
      • Qwen2-VL: Eylülde yayınlandı.
      • Mistral Pixtral 12B: Eylülde yayınlandı.
      • Meta Llama 3.2: Eylülde yayınlandı (11B ve 90B vision modelleri).
      • OpenAI ses giriş/çıkış özellikleri: Ekimde eklendi.
      • Hugging Face SmolVLM: Kasımda yayınlandı.
      • Amazon Nova görsel ve video modelleri: Aralıkta yayınlandı.
  • Araçlar ve multimodal destek:
    • Ekim 2024’te, kişisel olarak kullanılan LLM CLI aracı multimodal model desteğiyle yükseltildi.
    • Görsel, ses ve video gibi ekleri işleyebilen eklentiler eklendi.
  • Multimodal modellerin önemi:
    • LLM’lerdeki iyileşmenin yavaşladığı yönündeki eleştiriler, multimodal modellerdeki ilerlemeyi gözden kaçırıyor gibi görünüyor.
    • Görsel, ses ve videoyla prompt çalıştırmak, yeni kullanım olanakları açan heyecan verici bir gelişme.

# Ses ve canlı kamera modu, gerçeğe dönüşen bilim kurgu

  • İlk ses modunun ortaya çıkışı:
    • Eylül 2023’te ChatGPT mobil uygulamasına sesli sohbet özelliği eklendi.
    • Whisper (Speech-to-Text) ve tts-1 (Text-to-Speech) modelleri kullanıldı, ancak model gerçekte yalnızca metin işliyordu.
  • GPT-4o ses modu:
    • 13 Mayıs 2024’te duyurulan yeni ses modunda GPT-4o modeli, ses girdisini ve doğal ses çıktısını destekleyen gerçek bir multimodal yapı sundu.
    • Demoda Scarlett Johansson’a benzeyen bir ses kullanıldı, ancak tartışmaların ardından bu ses ticari ürüne dahil edilmedi.
    • Ses modunun yayınındaki gecikme kafa karışıklığı yarattı, ancak Ağustos-Eylül döneminde ChatGPT Advanced Voice modu olarak kademeli şekilde kullanıma sunuldu.
      • Kullanım deneyimi: Yürüyüş sırasında ses moduyla sohbet etmek, içeriğin kalitesini büyük ölçüde artırdı.
      • OpenAI Audio API ile yapılan denemelerde çeşitli ses özellikleri görüldü.
  • Ses modunun özellikleri:
    • Advanced Voice modu çeşitli aksanları uygulayabiliyor.
    • Örnek: Kaliforniya kahverengi pelikanı hakkında kalın bir Rus aksanıyla İspanyolca konuşması istendi.
  • Diğer şirketlerin multimodal ses modelleri:
    • Google Gemini: Ses girdisini destekliyor ve ChatGPT’ye benzer sesli konuşmalar yapabiliyor.
    • Amazon Nova: Ses modu önceden duyuruldu (2025’in 1. çeyreğinde yayınlanması planlanıyor).
    • Google NotebookLM (Eylül 2024’te yayınlandı): Girdi içeriğine dayanarak iki "podcast sunucusu" arasında diyalog üretiyor. Özel komutlar da mümkün.
  • Canlı video modunun ortaya çıkışı:
    • Aralık 2024’te ChatGPT ses moduna kamera akışını paylaşma özelliği eklendi.
    • Kamera akışı hakkında gerçek zamanlı konuşma yapılabiliyor.
    • Google Gemini de benzer bir özelliği aynı dönemde önizleme olarak sundu.
  • API erişilebilirliği:
    • Hem OpenAI hem Google bu özellikler için API sağlıyor.
    • OpenAI, Aralıkta ses tabanlı web uygulaması geliştirmeyi kolaylaştıran WebRTC API’yi duyurdu.

# Prompt tabanlı uygulama üretimi, artık gündelik bir teknoloji

  • 2023’te GPT-4’ün potansiyeli:
    • GPT-4 kullanılarak HTML, CSS ve JavaScript ile tamamen etkileşimli uygulamalar üretilebiliyordu.
    • React gibi araçlar da ek build mekanizmaları aracılığıyla entegre edilebiliyordu.
  • 2024’te Claude Artifacts’ın kullanıma sunulması:
    • Anthropic’in Claude 3.5 Sonnet duyurusunun ortalarında tanıtılan yeni bir özellik.
    • Kullanıcılar, Claude arayüzü içinde doğrudan çalıştırılabilen isteğe bağlı uygulamalar üretebiliyor.
    • Örnek: Claude ile oluşturulan bir URL çıkarma aracı.
      • URL girildiğinde çıkarılan listeyi hemen gösteriyor.
    • Claude Artifacts ile bir haftada 14 küçük araç üretme deneyimi paylaşıldı.
  • Rakiplerin benzer özellikleri devreye alması:
    • GitHub Spark: Ekim 2024’te duyuruldu.
    • Mistral Chat Canvas: Kasım 2024’te eklendi.
    • Val Town’dan Steve Krause: Cerebras modellerini kullanarak saniyede 2.000 token işleme hızıyla gerçek zamanlı uygulama düzenleme gerçekleştirdi.
    • Chatbot Arena ekibi: Aralıkta, iki modelle aynı uygulamayı üretip oylama yapılan yeni bir lider tablosu sundu.
  • Kendi projelerim:
    • Datasette projesinde prompt kullanarak özel widget’lar ve veri görselleştirmeleri üretip bunları yinelemeli hâle getirmek için çalışılıyor.
    • uv kullanarak tek bir Python programı yazmaya yönelik benzer bir desen uygulanıyor.
  • 2025 öngörüsü:
    • Tarayıcı sandboxing sorunları çözüldükten sonra, bu özelliğin çeşitli ürünlerde varsayılan olarak yer alma ihtimali yüksek.

# En iyi modellere ücretsiz erişim, birkaç ay içinde sona erdi

  • 2024’ün başındaki ücretsiz sunum:
    • GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro — o dönemin en iyi üç modeli — çoğu kullanıcıya ücretsiz sunuldu.
    • OpenAI, Mayıs 2024’te GPT-4o’yu ücretsiz olarak açtı.
    • Claude 3.5 Sonnet, Hazirandaki çıkışıyla birlikte ücretsiz kullanılabildi.
    • Daha önce ücretsiz kullanıcılar çoğunlukla GPT-3.5 düzeyindeki modellere erişebiliyordu, ancak bu dönemde yüksek performanslı LLM’lerin gerçek yeteneklerini deneyimleme fırsatı doğdu.
  • Ücretsiz erişimin sona ermesi:
    • OpenAI, ChatGPT Pro’yu piyasaya sürerek ücretsiz erişimi sonlandırdı.
    • ChatGPT Pro, aylık 200 $ abonelik ücreti talep ediyor ve en güçlü model olan o1 Pro’ya erişim sağlıyor.
  • Gelecek görünümü:
    • o1 serisinin temel özelliği, daha fazla hesaplama kaynağı kullanarak daha iyi sonuç vermesi.
    • Bu maliyet yapısı nedeniyle en iyi modellere ücretsiz erişim döneminin yeniden gelmesi pek olası görünmüyor.

# "Ajan", hâlâ gerçeğe dönüşmemiş bir kavram

  • Terimin belirsizliği:
    • "Ajan" terimi tek ve net bir tanımdan yoksun; herkes için farklı bir anlam taşıyor.
    • Genel olarak iki kategoriye ayrılıyor:
      • Kullanıcı adına iş yapan, seyahat acentesi modeli benzeri ajanlar.
      • Araçlara erişip yinelemeli işler yaparak sorun çözen LLM tabanlı ajanlar.
    • "Özerklik (autonomy)" terimi de sık kullanılıyor, ancak açık bir tanımı olmadan kafa karışıklığını artırıyor.
  • Kavramsal sınırlamalar:
    • "Ajan", hâlâ "yakında gelecek" gibi görünen bir kavram olarak kalıyor.
    • 211 tanım toplandı (Twitter’da araştırılarak) ve Gemini-exp-1206 modeliyle özetlendi, ancak yine de net bir uzlaşmaya varılamadı.
  • Faydasına dair şüpheler:
    • Ajanların pratik faydası, LLM’lerin "kolayca kandırılabilme (gullibility)" eğiliminden kaynaklanan sorunlarla sınırlı kalıyor.
    • Gerçekle kurmacayı ayırt edemeyen sistemlerin seyahat acentesi, dijital asistan ya da araştırma aracı olarak anlamlı kararlar alması zor.
    • Örnek: Google aramanın, hayali bir fan fiction wikisi üzerinden var olmayan "Encanto 2" filmini yanlış özetlemesi.
  • Prompt injection:
    • Kolayca kandırılabilme eğiliminden doğan bu sorun Eylül 2022’den beri tartışılıyor, ancak 2024’te de büyük bir ilerleme olmadı.
  • Sonuç:
    • Ajanlara dair popüler fikir, fiilen AGI’nin (yapay genel zekanın) kendisine dayanıyor gibi görünüyor.
    • Güvenilirliği sağlanmış modeller geliştirmek son derece zor bir görev olarak kalıyor.

# Değerlendirmelerin (Evals) önemi

  • Değerlendirme temel bir beceri olarak öne çıkıyor:
    • 2024'te, LLM tabanlı sistemlerde iyi otomatik değerlendirmeler (Evals) yazmak en önemli beceri olarak öne çıktı.
    • Güçlü değerlendirme araçlarına sahip olmak, yeni modelleri hızla devreye almayı, daha iyi yinelemeli çalışmayı ve güvenilir özellikler geliştirmeyi mümkün kılıyor.
  • Anthropic'in yaklaşımı:
    • Amanda Askell: iyi bir sistem prompt'unun sırrı test odaklı geliştirme.
      • "Mesele bir sistem prompt'u yazıp ona uygun testler bulmak değil; testleri yazıp onları geçecek sistem prompt'unu bulmak."
    • Bu yaklaşım, Claude'un geliştirilmesinde kilit rol oynadı.
  • Vercel örneği:
    • Malte Ubl: başlangıçta prompt'u korumak için karmaşık ön işleme ve son işleme yöntemleri kullandılar.
      • Daha sonra prompt'un sadeliğinin yanı sıra değerlendirme, model ve UX'in daha önemli olduğunu fark edip yön değiştirdiler.
      • "Değerlendirme olmadan prompt, kullanım kılavuzu olmayan bozuk bir makine gibidir."
  • Kişisel araştırma:
    • Etkili değerlendirmeleri uygulamak için en iyi kalıpları bulmaya yönelik araştırmalar sürüyor.
    • Şu ana kadar değerlendirmelerin önemi vurgulansa da, bunların nasıl uygulanacağına dair gerçekten iyi rehberler hâlâ eksik.
    • Kişisel olarak "bisiklete binen SVG pelikan" benchmark'ını kullandım, ama bu gerçek bir değerlendirme aracının yerini tutmuyor.

# Apple Intelligence hayal kırıklığı yaratıyor, ama MLX kütüphanesi mükemmel

  • Mac'te ML deneyiminin iyileşmesi:
    • 64 GB RAM'e sahip bir Mac'te CPU ve GPU belleği paylaşabildiği için, teorik olarak model çalıştırmak için uygun bir ortam sunuyor.
    • Ancak NVIDIA CUDA'yı önceleyen model ve kütüphaneler nedeniyle Mac kullanıcıları uzun süre ciddi kısıtlarla karşılaştı.
  • MLX kütüphanesinin yeniliği:
    • Apple'ın MLX'i (Apple Silicon için bir dizi framework'ü), Mac'te etkileyici performansla çeşitli MLX uyumlu modelleri çalıştırmayı mümkün kılıyor.
    • mlx-lm Python paketi: MLX uyumlu modelleri destekliyor ve performansı oldukça iyi.
    • Hugging Face'in mlx-community projesi: gerekli biçime dönüştürülmüş 1.000'den fazla model sunuyor.
    • Prince Canuma'nın mlx-vlm projesi: vision LLM'leri Apple Silicon üzerinde çalıştırabiliyor.
      • Yakın zamanda Qwen'in QvQ'sunu çalıştırmak için kullanıldı.
  • Apple Intelligence'a duyulan hayal kırıklığı:
    • Haziran 2024'te duyurulduğunda, kullanıcı gizliliğini öne çıkaran LLM uygulamalarına odaklanması nedeniyle büyük beklenti yaratmıştı.
    • Gerçekte sunulan özellikler zayıf kaldı ve güncel en ileri LLM'lerin yetenekleriyle karşılaştırıldığında yetersiz görünüyor.
      • Örnekler:
        • Haber başlıklarını yanlış özetleyen bildirim özetleri.
        • Pek işe yaramayan yazma yardımcıları.
      • Yine de Genmoji, en azından biraz eğlenceli bir özellik olarak değerlendiriliyor.
  • Mac kullanıcıları için değişen tablo:
    • MLX gibi araçlar sayesinde Mac platformunu tercih etme konusundaki memnuniyet büyük ölçüde arttı.
    • Özellikle Apple Silicon üzerinde LLM çalıştırma ortamı belirgin biçimde iyileşti.

# Çıkarım ölçeklendirmesi ve "Reasoning" modellerinin yükselişi

  • Yeni bir LLM türünün ortaya çıkışı:
    • 2024'ün son çeyreğinde, OpenAI'nin o1 modelleri (o1-preview, o1-mini) ilk kez 12 Eylül'de duyuruldu.
    • Bunlar, modelin bir problemi "düşünerek" çözmesini amaçlayan chain-of-thought yaklaşımını daha da ileri taşıyan bir yapı sunuyor.
  • o1 modellerinin özellikleri:
    • Problem çözmek için "reasoning tokens" kullanıyorlar; kullanıcı bu süreci doğrudan görmese de ChatGPT arayüzünde özetlenmiş bir biçimde görebiliyor.
    • Sadece eğitim sırasında daha fazla hesaplama kullanmakla kalmayıp, çıkarım anında da daha fazla hesaplama harcayarak performans artışı sağlayabiliyorlar.
  • Modellerin ölçeklenebilirliği:
    • Daha zor problemleri çözmek için çıkarım sırasında ek hesaplama kaynağı kullanıyorlar.
    • Bu, mevcut LLM mimarisini ölçeklendirmenin yeni bir yolu.
  • Devam modeli o3:
    • 20 Aralık 2024'te duyuruldu ve ARC-AGI benchmark'ında etkileyici sonuçlar elde etti.
    • Bunun için $1,000,000'dan fazla hesaplama maliyeti gerekmiş olabilir.
    • Ocak 2025'te yayımlanması planlanıyor. Son derece yüksek hesaplama maliyeti nedeniyle pratik kullanımı muhtemelen sınırlı olacak.
  • Diğer önemli model duyuruları:
    • Google: 19 Aralık'ta gemini-2.0-flash-thinking-exp yayımlandı.
    • Alibaba: 28 Kasım'da QwQ modeli (Apache 2.0 lisanslı) duyuruldu; yerelde çalıştırılabiliyor.
      • 24 Aralık'ta görsel muhakeme modeli QvQ duyuruldu; o da yerelde çalışıyor.
    • DeepSeek: 20 Kasım'da DeepSeek-R1-Lite-Preview modelini sohbet arayüzü üzerinden sundu.
  • İlgili araştırmalar ve beklentiler:
    • Anthropic ve Meta henüz resmi bir model yayımlamadı, ancak benzer çıkarım ölçeklendirme modelleri geliştiriyor olmaları çok muhtemel.
    • Meta, Aralık ayında "Training Large Language Models to Reason in a Continuous Latent Space" başlıklı ilgili bir makale yayımladı.
    • Ek okuma: Arvind Narayanan ve Sayash Kapoor'un Is AI progress slowing down? yazısı öneriliyor.

# Şu anki en iyi LLM, Çin'de 6 milyon doların altında bir maliyetle mi eğitildi?

  • Öne çıkan haber:
    • 2024 Noel'inde DeepSeek v3, Hugging Face'e yüklendi (README dosyası olmadan yayımlandı; ertesi gün belgeler ve makale eklendi).
    • 685B parametreli dev bir model; Meta'nın Llama 3.1 405B modelinden çok daha büyük.
    • Açık lisansla sunulan modeller arasında şimdiye kadarki en büyük model.
  • Performans:
    • Benchmark performansı Claude 3.5 Sonnet ile benzer düzeyde.
    • Chatbot Arena'da 7. sırada yer alıyor; Gemini 2.0 ile OpenAI'nin 4o/o1 modellerinin hemen arkasında.
    • Açık lisanslı modeller arasında en yüksek sırada.
  • Eğitim maliyeti:
    • DeepSeek v3: 2.788.000 H800 GPU saatiyle yaklaşık $5,576,000.
    • Meta Llama 3.1 405B: 30.840.000 GPU saatiyle DeepSeek v3'ten 11 kat daha pahalıya mal oldu, ancak benchmark performansı biraz daha düşük kaldı.
  • Çin'e yönelik GPU ihracat kısıtlamalarının etkisi:
    • ABD'nin GPU ihracat kısıtlamaları, eğitim optimizasyonunu ciddi biçimde teşvik etmiş görünüyor.
    • DeepSeek v3'ün düşük maliyetli eğitimi de bu optimizasyonların bir sonucu olarak değerlendiriliyor.

# Çevresel etkinin iyileşmesi

  • Verimlilik artışıyla enerji tüketiminin azalması:
    • Modellerin verimliliği büyük ölçüde arttıkça, prompt çalıştırmanın enerji kullanımı ve çevresel etkisi son birkaç yılda keskin biçimde düştü.
    • OpenAI, GPT-3 dönemine kıyasla prompt maliyetini 100 kat azalttı.
    • Google Gemini ve Amazon Nova gibi düşük maliyetli model sağlayıcıları da zarar etmeden prompt çalıştırabiliyor.
  • Bireysel kullanıcı açısından:
    • Çoğu prompt çalıştırmanın enerji tüketimi gerçekte oldukça düşük seviyede.
    • Kısa bir araba yolculuğundan ya da bir YouTube videosu izlemekten daha az çevresel etkiye sahip olması muhtemel.
  • Eğitim maliyetlerindeki düşüş:
    • DeepSeek v3'ün 6 milyon doların altındaki eğitim maliyeti, eğitim maliyetlerinin düşmeye devam edebileceğini gösteriyor.
    • Daha az kaynakla daha verimli eğitim mümkün hâle geliyor.
  • Verimsiz modellerle karşılaştırma:
    • Llama 3'ün en büyük modelini eğitmenin maliyeti, New York'tan Londra'ya tam dolu birkaç ticari uçuşun enerji maliyetine benziyor.
    • Ancak eğitim tamamlandıktan sonra milyonlarca kişi tarafından ek eğitim maliyeti olmadan kullanılabildiği için, uzun vadede verimli sayılabilir.

# Çevresel etki daha da kötüleşiyor

  • Büyük ölçekli veri merkezi kurma yarışı:
    • Google, Meta, Microsoft ve Amazon gibi büyük şirketler, gelecekteki model talebini karşılamak için milyarlarca dolar yatırım yaparak veri merkezleri inşa ediyor.
    • Bu altyapı genişlemesi elektrik şebekesi ve çevre üzerinde büyük etki yaratıyor.
    • Yeni nükleer enerji santralleri inşa etme yönünde tartışmalar da var, ancak bunun on yıllar sürebileceği belirtiliyor.
  • Altyapı gerekliliği tartışması:
    • DeepSeek v3’ün 6 milyon dolarlık eğitim maliyeti ve LLM fiyatlarındaki düşüş, bu genişlemenin mutlaka gerekli olmayabileceğine işaret ediyor.
    • Ancak “altyapıyı kurmamanın sonradan yanlış bir karar olduğunun ortaya çıkması” riskini üstlenecek yönetici neredeyse yok.
  • Tarihsel benzerlik:
    • 1800’lerde dünya çapında demiryolu ağlarının kurulduğu dönemle karşılaştırılabilir.
    • Devasa yatırımlar ve çevresel etkiler söz konusuydu; birçok hat birbiriyle örtüşüyor ve gereksiz sonuçlar doğuruyordu.
    • Sonuç olarak birden fazla finansal krize yol açtı:
      • 1873 Paniki, 1893 Paniki, 1901 Paniki, Britanya’daki Railway Mania.
    • Altyapı kaldı, ancak beraberinde büyük iflaslar ve çevresel zararlar da geldi.
  • Bugüne dair dersler:
    • Veri merkezi yarışı faydalı altyapı bırakabilir, ancak gereksiz genişleme ve çevresel zarar riski de taşıyor.

# 2024, "Slop" yılı

  • "Slop" tanımı:
    • Yapay zekanın ürettiği istenmeyen ve incelenmemiş içerik için kullanılan bir terim haline geldi.
    • Nasıl ki "spam" istenmeyen e-postaları ifade eder olduysa, "slop" da sözlüklere girecek kadar yaygınlaştı.
  • Terimin kökeni:
    • @deepfates’in tweet’iyle başlayan tartışma:
      • “Gerçek zamanlı olarak ‘slop’un bir terim haline gelişini izliyoruz.”
    • Mayıs 2024’te bu kavram genişletilerek “istenmemiş ve incelenmemiş yapay zeka üretimi içerik” şeklinde tanımlandı.
  • Medyanın tepkisi:
    • NY Times ve Guardian’daki "slop" röportaj alıntıları:
      • “Modern yapay zeka hakkında konuşmak için kısa bir terime ihtiyacımız var. ‘O e-postayı görmezden gel, spam o.’ ve ‘O makaleyi görmezden gel, slop o.’ ikisi de faydalı dersler.”
  • Slop’un önemi:
    • Üretken yapay zekanın yanlış kullanım biçimlerini kısa ve öz şekilde ifade etmek için yararlı.
    • Yapay zekanın verimli ve sorumlu kullanılmasına yardımcı oluyor.
  • 2024’teki kültürel etkisi:
    • "Slop", Oxford’un yılın kelimesi adayları arasına girdi ancak "brain rot" karşısında seçilemedi.

# Sentetik eğitim verisinin şaşırtıcı etkisi

  • "Model çöküşü" kavramı:
    • İlk kez Mayıs 2023 tarihli The Curse of Recursion makalesinde anıldı, Temmuz 2024’te Nature ile daha fazla dikkat çekti.
    • İddia şuydu: İnternet yapay zeka üretimi içerikle dolarsa, modeller kendi çıktıları üzerinde tekrar tekrar eğitilerek performans kaybedecekti.
    • Gerçekte: Böyle bir çöküş yaşanmadı; bunun yerine sentetik veriyle model eğitimi giderek yaygınlaşıyor.
  • Sentetik verinin avantajları:
    • Phi-4 technical report’ta açıklandığı üzere:
      • Sentetik veri, organik verinin yerine geçen bir ikame değil; bunun yerine şu doğrudan faydaları sağlıyor:
        • Yapılandırılmış ve kademeli öğrenme:
          • Organik veride token’lar arasındaki ilişkiler karmaşık ve dolaylı olduğu için öğrenme zorlaşıyor.
          • Buna karşılık sentetik veri, dil modeli tarafından önceki token’lara dayanarak üretildiği için akıl yürütme kalıplarının daha kolay öğrenilmesini sağlıyor.
        • Eğitim süreci daha sistematik ve öngörülebilir hale geliyor.
  • Büyük modellerin küçük modellere yardım etmesi:
    • Büyük modeller daha küçük modeller için sentetik veri üretiyor:
      • DeepSeek v3: DeepSeek-R1’in ürettiği "reasoning" verisini kullandı.
      • Meta Llama 3.3 70B: 25 milyondan fazla sentetik örnekle fine-tune edildi.
  • Veri tasarımının önemi:
    • LLM eğitiminde veri tasarımı en kritik unsur olarak öne çıkıyor.
    • Eskisi gibi internetin tüm verisini ayrım yapmadan kazıyıp eğitmek artık kullanılan bir yöntem değil.

# 2024’te LLM kullanmak daha zor hale geldi

  • LLM’ler karmaşık araçlardır:
    • Dışarıdan basit görünseler de, gerçekte derin anlayış ve deneyim gerektiren birer "power user" aracı.
    • Bu durum, “mutfak bıçağı gibi görünen ama aslında motorlu testere kadar karmaşık bir araç” benzetmesiyle açıklanıyor.
  • Sorunların 2024’te ağırlaşması:
    • Modeller daha güçlü hale geldi, ancak hâlâ mevcut sınırlarını ve kısıtlarını taşıyor.
    • Python, JavaScript, web arama, görsel üretimi gibi farklı araçları destekleyen çeşitli sistemler devreye girdi.
    • Kullanıcıların bunları etkili kullanabilmesi için her aracın imkânlarını ve sınırlarını anlaması gerekiyor.
  • Sistemler arası karmaşıklığın artması:
    • Örneğin ChatGPT’de Python iki farklı şekilde çalıştırılabiliyor.
    • Harici API’lerle iletişim kuran bir Claude Artifact oluşturmak için CSP ve CORS HTTP başlıklarını anlamak gerekiyor.
    • OpenAI’ın o1 modeli sınırlı özelliklerle çalışırken, GPT-4o web arama ve code interpreter desteği sunuyor.
      • Aynı ChatGPT arayüzü içinde bu iki modelin yetenek farkını anlamak gerekiyor.
  • Kullanıcı deneyiminin sınırları:
    • LLM’lerin temel sohbet arayüzü, yeni başlayan birini Linux terminaline bırakmaya benzer bir kullanıcı deneyimi sunuyor.
    • Birçok kullanıcı, LLM’lerin nasıl çalıştığı ve neler yapabildiği hakkında yanlış zihinsel modeller geliştiriyor.
      • Örneğin, ChatGPT ekran görüntülerinin tartışmalarda kanıt olarak kullanıldığı akıldışı örnekler artıyor.
  • İkili sorun:
    • Kötü kullanım: LLM’lerin kusurlu yapısına rağmen onları her işe yarayan araçlar sanan kullanıcılar.
    • Kaçınma: Konuyu iyi bilen kişilerin bile, kusurları nedeniyle LLM kullanmaktan tamamen vazgeçmesi.
    • LLM’lerden etkili biçimde yararlanmak, kusurlu ama güçlü bir teknolojiyle birlikte çalışabilme becerisini gerektiriyor.
  • Eğitim içeriği ihtiyacı:
    • Kullanıcı eğitimi önemli, ancak şu anda yetersiz.
    • Yapay zeka hakkında abartılı Twitter flood’larına bel bağlamak yerine, daha güvenilir eğitim materyalleri geliştirmek gerekiyor.

# Bilginin dengesiz dağılımı

  • Bilinenle bilinmeyen arasındaki fark:
    • İnsanların çoğu ChatGPT’yi biliyor, ancak Claude’u duymuş olanların sayısı son derece az.
    • Bu alanı aktif biçimde takip edenlerle geri kalan yüzde 99 arasındaki bilgi farkı çok büyük.
  • Hızlı değişim temposu:
    • Teknolojik değişimin hızı bu bilgi farkını daha da derinleştiriyor.
    • Son bir ay içinde canlı arayüzler kullanıma sunuldu:
      • Telefon kamerasıyla bir şeyi gösterip sesli olarak konuşmak mümkün.
      • Noel Baba rolü yapmasını sağlayan bir özellik bile seçilebiliyor.
    • Kendisini teknoloji meraklısı olarak tanımlayanların bile çoğu zaman bu özellikleri denememiş olduğu görülüyor.
  • Toplumsal etki ve ihtiyaç:
    • Bu teknolojilerin bugünkü ve gelecekteki toplum üzerindeki etkisi düşünüldüğünde, bilgi farkının bu kadar büyük olması sağlıklı değil.
    • Bunu iyileştirmek için daha fazla çabaya ihtiyaç var.

# LLM’lere yönelik daha iyi eleştirilere ihtiyaç var

  • Teknolojiye yönelik tepki:
    • Mastodon, Bluesky, Lobste.rs, Hacker News gibi bazı topluluklarda sadece "LLM faydalıdır" demek bile tartışma çıkarıyor.
    • Teknolojiye tepki duyulmasının nedenleri:
      • Çevresel etkisi.
      • Eğitim verilerinin etik sorunları.
      • Güvenilirlik eksikliği.
      • Olumsuz kullanım örnekleri.
      • İşler üzerindeki potansiyel etkisi.
  • Eleştirinin gerekliliği:
    • LLM'ler eleştiriyi hak ediyor; sorunları tartışmak, çözümler bulmak ve sorumlu kullanım biçimlerini öğretmek önemli.
    • Amaç, olumlu kullanımların olumsuz etkilerden daha ağır basmasına yardımcı olmak.
  • Şüpheci bakış açısının değeri:
    • Aşırı hype son iki yılda sorunları daha da kötüleştirdi:
      • Yanlış bilgiler ve abartılı beklentiler yaygınlaştı.
      • Sık sık yanlış kararlar alındı.
    • Eleştirel düşünme, bu teknolojiyi doğru anlamak ve kullanmak için vazgeçilmez.
  • Karar vericilerle diyalog:
    • Aracın iyi kullanım örneklerini kabul ederken, sezgisel olmayan tuzaklardan nasıl kaçınılacağını da açıklamak gerekiyor.
    • İyi kullanım örnekleri olmadığını iddia etmek, teknolojinin potansiyel değerini göz ardı etmek anlamına geliyor.
  • Doğru mesajı vermek:
    • "Çevreyi yıkan, sürekli yalan söyleyen bir intihal makinesi" gibi parçalı eleştiriler sorunları çözmeye yardımcı olmuyor.
    • LLM'lerin gerçek değerini keşfetmek ve hayata geçirmek için sezgisel olmayan rehberlik ve eğitim gerekiyor.
  • Sorumlu rol:
    • Bu teknolojiyi anlayan kişiler, başkalarının onu doğru şekilde kullanmasına yardımcı olma sorumluluğunu taşıyor.

1 yorum

 
GN⁺ 2025-01-01
Hacker News görüşü
  • Birçok kişi ChatGPT 4'ü kullandıktan sonra LLMs'in işe yaramaz olduğunu düşünme eğiliminde. Ancak Claude Sonnet 3.5 hâlâ faydalı olabilir

    • LLMs'in faydası büyük ölçüde kullanıcının iletişim becerisine bağlıdır
    • Doğru sorular ve arka plan açıklamalarıyla LLMs'in performansı en üst düzeye çıkarılabilir
    • Sıkıcı işleri hızlıca halletmekte kullanışlıdır
  • "Ajan" teriminin net bir anlamı yok ve bu da kafa karışıklığına yol açıyor

    • "Agentic" gibi moda sözcükler rahatsız edici gelebilir
  • LLM fiyatlarının düşmesiyle ilgili endişeler var

    • Gemini'nin ücretsiz katmanı hâlâ cazip, ancak güvenmek zor
    • 2025'in ilk yarısında fiyatların yeniden yükselebileceği konusunda kaygı var
  • "Ajan" kavramı hâlâ net biçimde tanımlanmış değil

    • Gerçek bir "ajan"ın özerklik içermesi gerektiği düşünülüyor
  • LLMs kullanımının daha zorlaştığı iddiasına katılınmıyor

    • Seçenekler arttı ama kullanımın kendisi zorlaşmış değil
    • Yeni başlayanlara hâlâ aynı yönergeler veriliyor
  • Neyin "iyi" olduğunu değerlendirmek zorlaştı

    • Benchmark manipülasyonu arttığı için kafa karıştırıcı
    • Kişisel olarak bir test çerçevesi kurmaya çalışılıyor
  • Bazı insanlar LLMs'in kusurları nedeniyle kullanmayı bıraktı

    • LLMs'ten en yüksek verimi almak için istikrarsız ama güçlü bir teknolojiyle nasıl çalışılacağını öğrenmek gerekiyor
  • Bazı GPT-4 modelleri dizüstü bilgisayarlarda da çalıştırılabiliyor

    • Bu, büyük veri merkezlerinin zorunlu olmadığı anlamına geliyor
    • OpenAI'nin değeri abartılmış olabilir
  • Apple'ın 64GB DRAM kullanımının neden özel olduğu anlaşılmıyor

    • Veri merkezleri RAM üretim kapasitesinin çoğunu kullanırken Apple'ın DRAM tedarikini nasıl sağladığı merak ediliyor
  • Google Gemini ve Amazon Nova'nın maliyet yapısı konusunda kafa karışıklığı var

    • Enerji maliyetinin altında fiyat sundukları yönündeki iddialarla bunun doğru olmadığını söyleyen iddialar çelişiyor
  • LLMs'in günlük işlerde faydalı olmadığı yönünde görüşler var

    • Yeni LLM modellerinin sadece abartılmış iyileştirmeler olduğu ileri sürülüyor
  • Bu endüstride ahlak ve mükemmeliyet standardının düşük olduğu görülmüş

  • "Muhakeme"nin gizil/sinirsel uzaya itilmiş mevcut durumu hakkında sorular var

    • Modelin kendi kendine konuşmasının nihai çıktıyla ilgisi az ve verimsiz olduğu düşünülüyor