2024’te LLM’ler Hakkında Öğrendiklerimiz

(simonwillison.net)

22 puan yazan GN⁺ 2025-01-01 | 1 yorum | WhatsApp'ta paylaş

Simon Willison’ın 2024’te LLM alanındaki tüm değişimlere dair özeti

GPT-4 sınırları tamamen aşıldı
Bazı GPT-4 modelleri dizüstü bilgisayarımda çalışıyor
LLM fiyatları çakıldı; rekabet ve verimlilik bu değişimi getirdi
Çok modlu görme yaygınlaştı, ses ve video da yeni katıldı
Ses ve canlı kamera modu, bilim kurgunun gerçeğe dönüşmesi
Prompt tabanlı uygulama üretimi artık gündelik bir teknoloji
En iyi modellere ücretsiz erişim, birkaç ay içinde sona erdi
"Ajanlar", hâlâ gerçeğe dönüşmemiş bir kavram
Değerlendirmelerin (Evals) önemi
Apple Intelligence hayal kırıklığı yaratıyor ama MLX kütüphanesi etkileyici
Ölçeklenen çıkarım ve "Reasoning" modellerinin yükselişi
Şu anki en iyi LLM, Çin’de 6 milyon doların altında bir maliyetle mi eğitildi?
Çevresel etki iyileşti
Çevresel etki daha da kötüleşti
2024, "Slop" yılı oldu
Sentetik eğitim verisinin şaşırtıcı etkileri
2024, LLM kullanmanın daha zorlaştığı bir yıl oldu
Bilginin dengesiz dağılımı
LLM’ler için daha iyi eleştirilere ihtiyaç var

# GPT-4 sınırları tamamen aşıldı

2023’te durum: GPT-4 en iyi dil modeli olarak görülüyordu ve diğer yapay zeka laboratuvarları bunu aşamamıştı. OpenAI’nin sahip olduğu teknik sırlar dikkat çekiyordu.
2024’te değişenler: 18 kuruluş GPT-4’ü geride bırakan modeller açıkladı. Şu anda Chatbot Arena liderlik tablosunda GPT-4-0314’ü (Mart 2023 çıkışlı) geçen 70 model bulunuyor.
Başlıca modeller ve teknik ilerlemeler
- Google Gemini 1.5 Pro: Şubat 2024’te yayınlandı
  - GPT-4 seviyesinde çıktı ve yeni özellikler sundu
  - 1 milyon (daha sonra 2 milyon) token giriş bağlam uzunluğunu destekledi
  - Video girişi özelliğini getirdi
  - Uzun girdi işleme sayesinde kodlama problemlerini çözebiliyor ve kitapların tamamını analiz edebiliyordu
  - Google I/O 2024 açılış konuşmasında önemli bir duyuru olarak ele alındı
- Anthropic Claude 3 serisi:
  - Claude 3 Opus: Mart 2024’te çıktı, yüksek performansıyla dikkat çekti
  - Claude 3.5 Sonnet: Haziran’da çıktı, 22 Ekim’de yükseltilmiş sürümü duyuruldu
  - Yükseltmeden sonra da sürüm numarası 3.5 olarak kaldı; hayranları arasında Claude 3.6 diye anıldı
Bağlam uzunluğunun genişlemesi
- 2023: Modellerin çoğu 4.096~8.192 token destekliyordu. Claude 2.1 ise 200 bin token ile istisnaydı
- 2024: Önde gelen modeller 100 binin üzerinde token desteklemeye başladı, Google Gemini serisi ise 2 milyon tokene kadar çıktı
- Uzun girdi verilerini işleyerek çeşitli problemleri çözmek mümkün hâle geldi
- Bir kitabın tamamını analiz etmek veya örnek koda dayanarak sorun çözmek için avantaj sağladı
GPT-4’ü geride bırakan modeller ve kuruluşlar
- Chatbot Arena liderlik tablosuna göre GPT-4-0314’ten daha yüksek performanslı modellere sahip kuruluşlar:
  - Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI dahil 18 kuruluş
- Liderlik tablosunda GPT-4-0314 şu anda ilk 70 içinde yer alıyor

# Bazı GPT-4 modelleri dizüstü bilgisayarımda çalışıyor

Kullanılan cihaz: 2023’te çıkan, 64 GB RAM’li bir M2 MacBook Pro. Yaklaşık iki yıllık bu cihaz, Mart 2023’te ilk kez LLM çalıştırdığım aynı dizüstü bilgisayar.
Performans değişimi: Başta GPT-3 seviyesindeki modelleri ancak çalıştırabilirken, artık GPT-4 seviyesindeki modeller de çalışabiliyor.
- Qwen2.5-Coder-32B: Kasım 2024’te çıkan, Apache 2.0 lisanslı ve kodlama odaklı bir model.
- Meta Llama 3.3 70B: Aralık 2024’te çıkan GPT-4 sınıfı bir model.
Önemi: GPT-4 seviyesindeki modellerin artık 40.000 doların üzerinde GPU’lara sahip veri merkezi sunucularında değil, bir dizüstü bilgisayarda da çalışabilmesi şaşırtıcı.
- 64 GB RAM’in neredeyse tamamını kullandığı için başka işler yapmak zorlaşıyor.
- Bu, model verimliliğindeki artış sayesinde mümkün oldu. Son bir yıldaki optimizasyonların sonucu olarak görülüyor.
- Yine de verimlilik tarafında daha fazla gelişme alanı olduğu düşünülüyor.
Meta Llama 3.2 modelleri: GPT-4 seviyesinde olmasalar da 1B ve 3B boyutlarındaki modeller, küçük boyutlarına rağmen etkileyici performans gösteriyor.
- Llama 3.2 3B: Ücretsiz MLC Chat iOS uygulamasıyla çalıştırılabiliyor.
- 2 GB’tan küçük boyutuyla iPhone’da çalışabiliyor ve saniyede 20 token üretebiliyor.
- Örnek: "Bir veri gazetecisinin yerel bir çömlek ustasına aşık olduğu bir Netflix Noel filmi konusu" istendiğinde, basit ama uygun bir yanıt üretiyor.
  - Başlık: "Love in the Clay"
  - Konu: Baş karakter Jessica’nın memleketi Willow Creek’e dönerek yerel tarihi ve soylulaştırmanın etkilerini araştırması etrafında gelişiyor.
- Sonuç sıradan olsa da bunun iPhone’da yapılabilmesi ilgi çekici.

# LLM fiyatları çakıldı; rekabet ve verimlilik bu değişimi getirdi

2023 sonundaki fiyatlar: OpenAI’nin başlıca modellerinin fiyatları şöyleydi.
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
2024’te fiyat değişimi:
- OpenAI o1: $30/mTok ile en pahalı model
- GPT-4o: $2.50/mTok (GPT-4’e göre 12 kat daha ucuz)
- GPT-4o Mini: $0.15/mTok (GPT-3.5’e göre yaklaşık 7 kat daha ucuz ve daha iyi performanslı)
- Anthropic Claude 3 Haiku: $0.25/mTok (Mart’ta çıktı, Anthropic’in en ucuz modeli)
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok (GPT-3.5 Turbo’ya göre 27 kat daha ucuz)
Fiyat düşüşünün nedenleri:
- Rekabetin artması: Çok sayıda model sağlayıcısının pazara girmesiyle fiyat rekabeti kızıştı.
- Verimliliğin artması: Model eğitimi ve çıkarım süreçlerinin optimize edilmesi enerji tüketimini azalttı.
  - Tek tek prompt’ların çalıştırılmasının enerji maliyetine dair kaygılar azaldı.
Verimlilik ve çevresel maliyet:
- Enerji verimliliğindeki artış çevresel kaygıları azalttı.
- Ancak veri merkezi inşasının çevresel etkisi hâlâ sorun olmaya devam ediyor.
Gerçek kullanım maliyeti hesabı:
- Google Gemini 1.5 Flash 8B kullanılarak kişisel fotoğraf arşivinin (68.000 fotoğraf) açıklamalarını üretmenin maliyeti hesaplandı.
  - Fotoğraf başına 260 input token ve 100 output token gerekiyor.
  - Toplam 17.680.000 input token * $0.0375/million = $0.66
  - Toplam 6.800.000 output token * $0.15/million = $1.02
  - Toplam maliyet: 68.000 fotoğrafı işlemek için $1.68.
Açıklama örneği:
- Fotoğraf: California Academy of Sciences’ta iki kelebek kırmızı bir tepsiden besleniyor.
- Üretilen açıklama:
  - Kırmızı bir tepside meyve yiyen iki kelebeğin fotoğrafı.
  - Kelebeklerin renkleri ve desenleri bile ayrıntılı biçimde tarif ediliyor.
- Maliyet: Yaklaşık 0.0024 sent, yani sentin 400’de 1’inden daha az.
2024’ün en büyük değişimlerinden biri:
- Fiyatların düşmesi ve enerji maliyetlerinin azalmasıyla LLM’lerin kullanışlılığı en üst seviyeye çıkıyor.

# Çok modlu görme yaygınlaştı, ses ve video da yeni katıldı

2024’ün başlıca trendleri: Multimodal LLM’ler (metnin yanı sıra görsel, ses, video gibi çeşitli girdileri işleme) yaygınlaştı.
- 2023 örnekleri:
  - OpenAI GPT-4 Vision: Kasım 2023’te DevDay’de yayınlandı.
  - Google Gemini 1.0: 7 Aralık 2023’te duyuruldu.
- 2024’teki başlıca yayınlar:
  - Anthropic Claude 3 serisi: Martta yayınlandı.
  - Google Gemini 1.5 Pro: Nisanda yayınlandı (görsel, ses ve video işleme desteği).
  - Qwen2-VL: Eylülde yayınlandı.
  - Mistral Pixtral 12B: Eylülde yayınlandı.
  - Meta Llama 3.2: Eylülde yayınlandı (11B ve 90B vision modelleri).
  - OpenAI ses giriş/çıkış özellikleri: Ekimde eklendi.
  - Hugging Face SmolVLM: Kasımda yayınlandı.
  - Amazon Nova görsel ve video modelleri: Aralıkta yayınlandı.
Araçlar ve multimodal destek:
- Ekim 2024’te, kişisel olarak kullanılan LLM CLI aracı multimodal model desteğiyle yükseltildi.
- Görsel, ses ve video gibi ekleri işleyebilen eklentiler eklendi.
Multimodal modellerin önemi:
- LLM’lerdeki iyileşmenin yavaşladığı yönündeki eleştiriler, multimodal modellerdeki ilerlemeyi gözden kaçırıyor gibi görünüyor.
- Görsel, ses ve videoyla prompt çalıştırmak, yeni kullanım olanakları açan heyecan verici bir gelişme.

# Ses ve canlı kamera modu, gerçeğe dönüşen bilim kurgu

İlk ses modunun ortaya çıkışı:
- Eylül 2023’te ChatGPT mobil uygulamasına sesli sohbet özelliği eklendi.
- Whisper (Speech-to-Text) ve tts-1 (Text-to-Speech) modelleri kullanıldı, ancak model gerçekte yalnızca metin işliyordu.
GPT-4o ses modu:
- 13 Mayıs 2024’te duyurulan yeni ses modunda GPT-4o modeli, ses girdisini ve doğal ses çıktısını destekleyen gerçek bir multimodal yapı sundu.
- Demoda Scarlett Johansson’a benzeyen bir ses kullanıldı, ancak tartışmaların ardından bu ses ticari ürüne dahil edilmedi.
- Ses modunun yayınındaki gecikme kafa karışıklığı yarattı, ancak Ağustos-Eylül döneminde ChatGPT Advanced Voice modu olarak kademeli şekilde kullanıma sunuldu.
  - Kullanım deneyimi: Yürüyüş sırasında ses moduyla sohbet etmek, içeriğin kalitesini büyük ölçüde artırdı.
  - OpenAI Audio API ile yapılan denemelerde çeşitli ses özellikleri görüldü.
Ses modunun özellikleri:
- Advanced Voice modu çeşitli aksanları uygulayabiliyor.
- Örnek: Kaliforniya kahverengi pelikanı hakkında kalın bir Rus aksanıyla İspanyolca konuşması istendi.
Diğer şirketlerin multimodal ses modelleri:
- Google Gemini: Ses girdisini destekliyor ve ChatGPT’ye benzer sesli konuşmalar yapabiliyor.
- Amazon Nova: Ses modu önceden duyuruldu (2025’in 1. çeyreğinde yayınlanması planlanıyor).
- Google NotebookLM (Eylül 2024’te yayınlandı): Girdi içeriğine dayanarak iki "podcast sunucusu" arasında diyalog üretiyor. Özel komutlar da mümkün.
Canlı video modunun ortaya çıkışı:
- Aralık 2024’te ChatGPT ses moduna kamera akışını paylaşma özelliği eklendi.
- Kamera akışı hakkında gerçek zamanlı konuşma yapılabiliyor.
- Google Gemini de benzer bir özelliği aynı dönemde önizleme olarak sundu.
API erişilebilirliği:
- Hem OpenAI hem Google bu özellikler için API sağlıyor.
- OpenAI, Aralıkta ses tabanlı web uygulaması geliştirmeyi kolaylaştıran WebRTC API’yi duyurdu.

# Prompt tabanlı uygulama üretimi, artık gündelik bir teknoloji

2023’te GPT-4’ün potansiyeli:
- GPT-4 kullanılarak HTML, CSS ve JavaScript ile tamamen etkileşimli uygulamalar üretilebiliyordu.
- React gibi araçlar da ek build mekanizmaları aracılığıyla entegre edilebiliyordu.
2024’te Claude Artifacts’ın kullanıma sunulması:
- Anthropic’in Claude 3.5 Sonnet duyurusunun ortalarında tanıtılan yeni bir özellik.
- Kullanıcılar, Claude arayüzü içinde doğrudan çalıştırılabilen isteğe bağlı uygulamalar üretebiliyor.
- Örnek: Claude ile oluşturulan bir URL çıkarma aracı.
  - URL girildiğinde çıkarılan listeyi hemen gösteriyor.
- Claude Artifacts ile bir haftada 14 küçük araç üretme deneyimi paylaşıldı.
Rakiplerin benzer özellikleri devreye alması:
- GitHub Spark: Ekim 2024’te duyuruldu.
- Mistral Chat Canvas: Kasım 2024’te eklendi.
- Val Town’dan Steve Krause: Cerebras modellerini kullanarak saniyede 2.000 token işleme hızıyla gerçek zamanlı uygulama düzenleme gerçekleştirdi.
- Chatbot Arena ekibi: Aralıkta, iki modelle aynı uygulamayı üretip oylama yapılan yeni bir lider tablosu sundu.
Kendi projelerim:
- Datasette projesinde prompt kullanarak özel widget’lar ve veri görselleştirmeleri üretip bunları yinelemeli hâle getirmek için çalışılıyor.
- uv kullanarak tek bir Python programı yazmaya yönelik benzer bir desen uygulanıyor.
2025 öngörüsü:
- Tarayıcı sandboxing sorunları çözüldükten sonra, bu özelliğin çeşitli ürünlerde varsayılan olarak yer alma ihtimali yüksek.

# En iyi modellere ücretsiz erişim, birkaç ay içinde sona erdi

2024’ün başındaki ücretsiz sunum:
- GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro — o dönemin en iyi üç modeli — çoğu kullanıcıya ücretsiz sunuldu.
- OpenAI, Mayıs 2024’te GPT-4o’yu ücretsiz olarak açtı.
- Claude 3.5 Sonnet, Hazirandaki çıkışıyla birlikte ücretsiz kullanılabildi.
- Daha önce ücretsiz kullanıcılar çoğunlukla GPT-3.5 düzeyindeki modellere erişebiliyordu, ancak bu dönemde yüksek performanslı LLM’lerin gerçek yeteneklerini deneyimleme fırsatı doğdu.
Ücretsiz erişimin sona ermesi:
- OpenAI, ChatGPT Pro’yu piyasaya sürerek ücretsiz erişimi sonlandırdı.
- ChatGPT Pro, aylık 200 $ abonelik ücreti talep ediyor ve en güçlü model olan o1 Pro’ya erişim sağlıyor.
Gelecek görünümü:
- o1 serisinin temel özelliği, daha fazla hesaplama kaynağı kullanarak daha iyi sonuç vermesi.
- Bu maliyet yapısı nedeniyle en iyi modellere ücretsiz erişim döneminin yeniden gelmesi pek olası görünmüyor.

# "Ajan", hâlâ gerçeğe dönüşmemiş bir kavram

Terimin belirsizliği:
- "Ajan" terimi tek ve net bir tanımdan yoksun; herkes için farklı bir anlam taşıyor.
- Genel olarak iki kategoriye ayrılıyor:
  - Kullanıcı adına iş yapan, seyahat acentesi modeli benzeri ajanlar.
  - Araçlara erişip yinelemeli işler yaparak sorun çözen LLM tabanlı ajanlar.
- "Özerklik (autonomy)" terimi de sık kullanılıyor, ancak açık bir tanımı olmadan kafa karışıklığını artırıyor.
Kavramsal sınırlamalar:
- "Ajan", hâlâ "yakında gelecek" gibi görünen bir kavram olarak kalıyor.
- 211 tanım toplandı (Twitter’da araştırılarak) ve Gemini-exp-1206 modeliyle özetlendi, ancak yine de net bir uzlaşmaya varılamadı.
Faydasına dair şüpheler:
- Ajanların pratik faydası, LLM’lerin "kolayca kandırılabilme (gullibility)" eğiliminden kaynaklanan sorunlarla sınırlı kalıyor.
- Gerçekle kurmacayı ayırt edemeyen sistemlerin seyahat acentesi, dijital asistan ya da araştırma aracı olarak anlamlı kararlar alması zor.
- Örnek: Google aramanın, hayali bir fan fiction wikisi üzerinden var olmayan "Encanto 2" filmini yanlış özetlemesi.
Prompt injection:
- Kolayca kandırılabilme eğiliminden doğan bu sorun Eylül 2022’den beri tartışılıyor, ancak 2024’te de büyük bir ilerleme olmadı.
Sonuç:
- Ajanlara dair popüler fikir, fiilen AGI’nin (yapay genel zekanın) kendisine dayanıyor gibi görünüyor.
- Güvenilirliği sağlanmış modeller geliştirmek son derece zor bir görev olarak kalıyor.

# Değerlendirmelerin (Evals) önemi

Değerlendirme temel bir beceri olarak öne çıkıyor:
- 2024'te, LLM tabanlı sistemlerde iyi otomatik değerlendirmeler (Evals) yazmak en önemli beceri olarak öne çıktı.
- Güçlü değerlendirme araçlarına sahip olmak, yeni modelleri hızla devreye almayı, daha iyi yinelemeli çalışmayı ve güvenilir özellikler geliştirmeyi mümkün kılıyor.
Anthropic'in yaklaşımı:
- Amanda Askell: iyi bir sistem prompt'unun sırrı test odaklı geliştirme.
  - "Mesele bir sistem prompt'u yazıp ona uygun testler bulmak değil; testleri yazıp onları geçecek sistem prompt'unu bulmak."
- Bu yaklaşım, Claude'un geliştirilmesinde kilit rol oynadı.
Vercel örneği:
- Malte Ubl: başlangıçta prompt'u korumak için karmaşık ön işleme ve son işleme yöntemleri kullandılar.
  - Daha sonra prompt'un sadeliğinin yanı sıra değerlendirme, model ve UX'in daha önemli olduğunu fark edip yön değiştirdiler.
  - "Değerlendirme olmadan prompt, kullanım kılavuzu olmayan bozuk bir makine gibidir."
Kişisel araştırma:
- Etkili değerlendirmeleri uygulamak için en iyi kalıpları bulmaya yönelik araştırmalar sürüyor.
- Şu ana kadar değerlendirmelerin önemi vurgulansa da, bunların nasıl uygulanacağına dair gerçekten iyi rehberler hâlâ eksik.
- Kişisel olarak "bisiklete binen SVG pelikan" benchmark'ını kullandım, ama bu gerçek bir değerlendirme aracının yerini tutmuyor.

# Apple Intelligence hayal kırıklığı yaratıyor, ama MLX kütüphanesi mükemmel

Mac'te ML deneyiminin iyileşmesi:
- 64 GB RAM'e sahip bir Mac'te CPU ve GPU belleği paylaşabildiği için, teorik olarak model çalıştırmak için uygun bir ortam sunuyor.
- Ancak NVIDIA CUDA'yı önceleyen model ve kütüphaneler nedeniyle Mac kullanıcıları uzun süre ciddi kısıtlarla karşılaştı.
MLX kütüphanesinin yeniliği:
- Apple'ın MLX'i (Apple Silicon için bir dizi framework'ü), Mac'te etkileyici performansla çeşitli MLX uyumlu modelleri çalıştırmayı mümkün kılıyor.
- mlx-lm Python paketi: MLX uyumlu modelleri destekliyor ve performansı oldukça iyi.
- Hugging Face'in mlx-community projesi: gerekli biçime dönüştürülmüş 1.000'den fazla model sunuyor.
- Prince Canuma'nın mlx-vlm projesi: vision LLM'leri Apple Silicon üzerinde çalıştırabiliyor.
  - Yakın zamanda Qwen'in QvQ'sunu çalıştırmak için kullanıldı.
Apple Intelligence'a duyulan hayal kırıklığı:
- Haziran 2024'te duyurulduğunda, kullanıcı gizliliğini öne çıkaran LLM uygulamalarına odaklanması nedeniyle büyük beklenti yaratmıştı.
- Gerçekte sunulan özellikler zayıf kaldı ve güncel en ileri LLM'lerin yetenekleriyle karşılaştırıldığında yetersiz görünüyor.
  - Örnekler:
    - Haber başlıklarını yanlış özetleyen bildirim özetleri.
    - Pek işe yaramayan yazma yardımcıları.
  - Yine de Genmoji, en azından biraz eğlenceli bir özellik olarak değerlendiriliyor.
Mac kullanıcıları için değişen tablo:
- MLX gibi araçlar sayesinde Mac platformunu tercih etme konusundaki memnuniyet büyük ölçüde arttı.
- Özellikle Apple Silicon üzerinde LLM çalıştırma ortamı belirgin biçimde iyileşti.

# Çıkarım ölçeklendirmesi ve "Reasoning" modellerinin yükselişi

Yeni bir LLM türünün ortaya çıkışı:
- 2024'ün son çeyreğinde, OpenAI'nin o1 modelleri (o1-preview, o1-mini) ilk kez 12 Eylül'de duyuruldu.
- Bunlar, modelin bir problemi "düşünerek" çözmesini amaçlayan chain-of-thought yaklaşımını daha da ileri taşıyan bir yapı sunuyor.
o1 modellerinin özellikleri:
- Problem çözmek için "reasoning tokens" kullanıyorlar; kullanıcı bu süreci doğrudan görmese de ChatGPT arayüzünde özetlenmiş bir biçimde görebiliyor.
- Sadece eğitim sırasında daha fazla hesaplama kullanmakla kalmayıp, çıkarım anında da daha fazla hesaplama harcayarak performans artışı sağlayabiliyorlar.
Modellerin ölçeklenebilirliği:
- Daha zor problemleri çözmek için çıkarım sırasında ek hesaplama kaynağı kullanıyorlar.
- Bu, mevcut LLM mimarisini ölçeklendirmenin yeni bir yolu.
Devam modeli o3:
- 20 Aralık 2024'te duyuruldu ve ARC-AGI benchmark'ında etkileyici sonuçlar elde etti.
- Bunun için $1,000,000'dan fazla hesaplama maliyeti gerekmiş olabilir.
- Ocak 2025'te yayımlanması planlanıyor. Son derece yüksek hesaplama maliyeti nedeniyle pratik kullanımı muhtemelen sınırlı olacak.
Diğer önemli model duyuruları:
- Google: 19 Aralık'ta gemini-2.0-flash-thinking-exp yayımlandı.
- Alibaba: 28 Kasım'da QwQ modeli (Apache 2.0 lisanslı) duyuruldu; yerelde çalıştırılabiliyor.
  - 24 Aralık'ta görsel muhakeme modeli QvQ duyuruldu; o da yerelde çalışıyor.
- DeepSeek: 20 Kasım'da DeepSeek-R1-Lite-Preview modelini sohbet arayüzü üzerinden sundu.
İlgili araştırmalar ve beklentiler:
- Anthropic ve Meta henüz resmi bir model yayımlamadı, ancak benzer çıkarım ölçeklendirme modelleri geliştiriyor olmaları çok muhtemel.
- Meta, Aralık ayında "Training Large Language Models to Reason in a Continuous Latent Space" başlıklı ilgili bir makale yayımladı.
- Ek okuma: Arvind Narayanan ve Sayash Kapoor'un Is AI progress slowing down? yazısı öneriliyor.

# Şu anki en iyi LLM, Çin'de 6 milyon doların altında bir maliyetle mi eğitildi?

Öne çıkan haber:
- 2024 Noel'inde DeepSeek v3, Hugging Face'e yüklendi (README dosyası olmadan yayımlandı; ertesi gün belgeler ve makale eklendi).
- 685B parametreli dev bir model; Meta'nın Llama 3.1 405B modelinden çok daha büyük.
- Açık lisansla sunulan modeller arasında şimdiye kadarki en büyük model.
Performans:
- Benchmark performansı Claude 3.5 Sonnet ile benzer düzeyde.
- Chatbot Arena'da 7. sırada yer alıyor; Gemini 2.0 ile OpenAI'nin 4o/o1 modellerinin hemen arkasında.
- Açık lisanslı modeller arasında en yüksek sırada.
Eğitim maliyeti:
- DeepSeek v3: 2.788.000 H800 GPU saatiyle yaklaşık $5,576,000.
- Meta Llama 3.1 405B: 30.840.000 GPU saatiyle DeepSeek v3'ten 11 kat daha pahalıya mal oldu, ancak benchmark performansı biraz daha düşük kaldı.
Çin'e yönelik GPU ihracat kısıtlamalarının etkisi:
- ABD'nin GPU ihracat kısıtlamaları, eğitim optimizasyonunu ciddi biçimde teşvik etmiş görünüyor.
- DeepSeek v3'ün düşük maliyetli eğitimi de bu optimizasyonların bir sonucu olarak değerlendiriliyor.

# Çevresel etkinin iyileşmesi

Verimlilik artışıyla enerji tüketiminin azalması:
- Modellerin verimliliği büyük ölçüde arttıkça, prompt çalıştırmanın enerji kullanımı ve çevresel etkisi son birkaç yılda keskin biçimde düştü.
- OpenAI, GPT-3 dönemine kıyasla prompt maliyetini 100 kat azalttı.
- Google Gemini ve Amazon Nova gibi düşük maliyetli model sağlayıcıları da zarar etmeden prompt çalıştırabiliyor.
Bireysel kullanıcı açısından:
- Çoğu prompt çalıştırmanın enerji tüketimi gerçekte oldukça düşük seviyede.
- Kısa bir araba yolculuğundan ya da bir YouTube videosu izlemekten daha az çevresel etkiye sahip olması muhtemel.
Eğitim maliyetlerindeki düşüş:
- DeepSeek v3'ün 6 milyon doların altındaki eğitim maliyeti, eğitim maliyetlerinin düşmeye devam edebileceğini gösteriyor.
- Daha az kaynakla daha verimli eğitim mümkün hâle geliyor.
Verimsiz modellerle karşılaştırma:
- Llama 3'ün en büyük modelini eğitmenin maliyeti, New York'tan Londra'ya tam dolu birkaç ticari uçuşun enerji maliyetine benziyor.
- Ancak eğitim tamamlandıktan sonra milyonlarca kişi tarafından ek eğitim maliyeti olmadan kullanılabildiği için, uzun vadede verimli sayılabilir.

# Çevresel etki daha da kötüleşiyor

Büyük ölçekli veri merkezi kurma yarışı:
- Google, Meta, Microsoft ve Amazon gibi büyük şirketler, gelecekteki model talebini karşılamak için milyarlarca dolar yatırım yaparak veri merkezleri inşa ediyor.
- Bu altyapı genişlemesi elektrik şebekesi ve çevre üzerinde büyük etki yaratıyor.
- Yeni nükleer enerji santralleri inşa etme yönünde tartışmalar da var, ancak bunun on yıllar sürebileceği belirtiliyor.
Altyapı gerekliliği tartışması:
- DeepSeek v3’ün 6 milyon dolarlık eğitim maliyeti ve LLM fiyatlarındaki düşüş, bu genişlemenin mutlaka gerekli olmayabileceğine işaret ediyor.
- Ancak “altyapıyı kurmamanın sonradan yanlış bir karar olduğunun ortaya çıkması” riskini üstlenecek yönetici neredeyse yok.
Tarihsel benzerlik:
- 1800’lerde dünya çapında demiryolu ağlarının kurulduğu dönemle karşılaştırılabilir.
- Devasa yatırımlar ve çevresel etkiler söz konusuydu; birçok hat birbiriyle örtüşüyor ve gereksiz sonuçlar doğuruyordu.
- Sonuç olarak birden fazla finansal krize yol açtı:
  - 1873 Paniki, 1893 Paniki, 1901 Paniki, Britanya’daki Railway Mania.
- Altyapı kaldı, ancak beraberinde büyük iflaslar ve çevresel zararlar da geldi.
Bugüne dair dersler:
- Veri merkezi yarışı faydalı altyapı bırakabilir, ancak gereksiz genişleme ve çevresel zarar riski de taşıyor.

# 2024, "Slop" yılı

"Slop" tanımı:
- Yapay zekanın ürettiği istenmeyen ve incelenmemiş içerik için kullanılan bir terim haline geldi.
- Nasıl ki "spam" istenmeyen e-postaları ifade eder olduysa, "slop" da sözlüklere girecek kadar yaygınlaştı.
Terimin kökeni:
- @deepfates’in tweet’iyle başlayan tartışma:
  - “Gerçek zamanlı olarak ‘slop’un bir terim haline gelişini izliyoruz.”
- Mayıs 2024’te bu kavram genişletilerek “istenmemiş ve incelenmemiş yapay zeka üretimi içerik” şeklinde tanımlandı.
Medyanın tepkisi:
- NY Times ve Guardian’daki "slop" röportaj alıntıları:
  - “Modern yapay zeka hakkında konuşmak için kısa bir terime ihtiyacımız var. ‘O e-postayı görmezden gel, spam o.’ ve ‘O makaleyi görmezden gel, slop o.’ ikisi de faydalı dersler.”
Slop’un önemi:
- Üretken yapay zekanın yanlış kullanım biçimlerini kısa ve öz şekilde ifade etmek için yararlı.
- Yapay zekanın verimli ve sorumlu kullanılmasına yardımcı oluyor.
2024’teki kültürel etkisi:
- "Slop", Oxford’un yılın kelimesi adayları arasına girdi ancak "brain rot" karşısında seçilemedi.

# Sentetik eğitim verisinin şaşırtıcı etkisi

"Model çöküşü" kavramı:
- İlk kez Mayıs 2023 tarihli The Curse of Recursion makalesinde anıldı, Temmuz 2024’te Nature ile daha fazla dikkat çekti.
- İddia şuydu: İnternet yapay zeka üretimi içerikle dolarsa, modeller kendi çıktıları üzerinde tekrar tekrar eğitilerek performans kaybedecekti.
- Gerçekte: Böyle bir çöküş yaşanmadı; bunun yerine sentetik veriyle model eğitimi giderek yaygınlaşıyor.
Sentetik verinin avantajları:
- Phi-4 technical report’ta açıklandığı üzere:
  - Sentetik veri, organik verinin yerine geçen bir ikame değil; bunun yerine şu doğrudan faydaları sağlıyor:
    - Yapılandırılmış ve kademeli öğrenme:
      - Organik veride token’lar arasındaki ilişkiler karmaşık ve dolaylı olduğu için öğrenme zorlaşıyor.
      - Buna karşılık sentetik veri, dil modeli tarafından önceki token’lara dayanarak üretildiği için akıl yürütme kalıplarının daha kolay öğrenilmesini sağlıyor.
    - Eğitim süreci daha sistematik ve öngörülebilir hale geliyor.
Büyük modellerin küçük modellere yardım etmesi:
- Büyük modeller daha küçük modeller için sentetik veri üretiyor:
  - DeepSeek v3: DeepSeek-R1’in ürettiği "reasoning" verisini kullandı.
  - Meta Llama 3.3 70B: 25 milyondan fazla sentetik örnekle fine-tune edildi.
Veri tasarımının önemi:
- LLM eğitiminde veri tasarımı en kritik unsur olarak öne çıkıyor.
- Eskisi gibi internetin tüm verisini ayrım yapmadan kazıyıp eğitmek artık kullanılan bir yöntem değil.

# 2024’te LLM kullanmak daha zor hale geldi

LLM’ler karmaşık araçlardır:
- Dışarıdan basit görünseler de, gerçekte derin anlayış ve deneyim gerektiren birer "power user" aracı.
- Bu durum, “mutfak bıçağı gibi görünen ama aslında motorlu testere kadar karmaşık bir araç” benzetmesiyle açıklanıyor.
Sorunların 2024’te ağırlaşması:
- Modeller daha güçlü hale geldi, ancak hâlâ mevcut sınırlarını ve kısıtlarını taşıyor.
- Python, JavaScript, web arama, görsel üretimi gibi farklı araçları destekleyen çeşitli sistemler devreye girdi.
- Kullanıcıların bunları etkili kullanabilmesi için her aracın imkânlarını ve sınırlarını anlaması gerekiyor.
Sistemler arası karmaşıklığın artması:
- Örneğin ChatGPT’de Python iki farklı şekilde çalıştırılabiliyor.
- Harici API’lerle iletişim kuran bir Claude Artifact oluşturmak için CSP ve CORS HTTP başlıklarını anlamak gerekiyor.
- OpenAI’ın o1 modeli sınırlı özelliklerle çalışırken, GPT-4o web arama ve code interpreter desteği sunuyor.
  - Aynı ChatGPT arayüzü içinde bu iki modelin yetenek farkını anlamak gerekiyor.
Kullanıcı deneyiminin sınırları:
- LLM’lerin temel sohbet arayüzü, yeni başlayan birini Linux terminaline bırakmaya benzer bir kullanıcı deneyimi sunuyor.
- Birçok kullanıcı, LLM’lerin nasıl çalıştığı ve neler yapabildiği hakkında yanlış zihinsel modeller geliştiriyor.
  - Örneğin, ChatGPT ekran görüntülerinin tartışmalarda kanıt olarak kullanıldığı akıldışı örnekler artıyor.
İkili sorun:
- Kötü kullanım: LLM’lerin kusurlu yapısına rağmen onları her işe yarayan araçlar sanan kullanıcılar.
- Kaçınma: Konuyu iyi bilen kişilerin bile, kusurları nedeniyle LLM kullanmaktan tamamen vazgeçmesi.
- LLM’lerden etkili biçimde yararlanmak, kusurlu ama güçlü bir teknolojiyle birlikte çalışabilme becerisini gerektiriyor.
Eğitim içeriği ihtiyacı:
- Kullanıcı eğitimi önemli, ancak şu anda yetersiz.
- Yapay zeka hakkında abartılı Twitter flood’larına bel bağlamak yerine, daha güvenilir eğitim materyalleri geliştirmek gerekiyor.

# Bilginin dengesiz dağılımı

Bilinenle bilinmeyen arasındaki fark:
- İnsanların çoğu ChatGPT’yi biliyor, ancak Claude’u duymuş olanların sayısı son derece az.
- Bu alanı aktif biçimde takip edenlerle geri kalan yüzde 99 arasındaki bilgi farkı çok büyük.
Hızlı değişim temposu:
- Teknolojik değişimin hızı bu bilgi farkını daha da derinleştiriyor.
- Son bir ay içinde canlı arayüzler kullanıma sunuldu:
  - Telefon kamerasıyla bir şeyi gösterip sesli olarak konuşmak mümkün.
  - Noel Baba rolü yapmasını sağlayan bir özellik bile seçilebiliyor.
- Kendisini teknoloji meraklısı olarak tanımlayanların bile çoğu zaman bu özellikleri denememiş olduğu görülüyor.
Toplumsal etki ve ihtiyaç:
- Bu teknolojilerin bugünkü ve gelecekteki toplum üzerindeki etkisi düşünüldüğünde, bilgi farkının bu kadar büyük olması sağlıklı değil.
- Bunu iyileştirmek için daha fazla çabaya ihtiyaç var.

# LLM’lere yönelik daha iyi eleştirilere ihtiyaç var

Teknolojiye yönelik tepki:
- Mastodon, Bluesky, Lobste.rs, Hacker News gibi bazı topluluklarda sadece "LLM faydalıdır" demek bile tartışma çıkarıyor.
- Teknolojiye tepki duyulmasının nedenleri:
  - Çevresel etkisi.
  - Eğitim verilerinin etik sorunları.
  - Güvenilirlik eksikliği.
  - Olumsuz kullanım örnekleri.
  - İşler üzerindeki potansiyel etkisi.
Eleştirinin gerekliliği:
- LLM'ler eleştiriyi hak ediyor; sorunları tartışmak, çözümler bulmak ve sorumlu kullanım biçimlerini öğretmek önemli.
- Amaç, olumlu kullanımların olumsuz etkilerden daha ağır basmasına yardımcı olmak.
Şüpheci bakış açısının değeri:
- Aşırı hype son iki yılda sorunları daha da kötüleştirdi:
  - Yanlış bilgiler ve abartılı beklentiler yaygınlaştı.
  - Sık sık yanlış kararlar alındı.
- Eleştirel düşünme, bu teknolojiyi doğru anlamak ve kullanmak için vazgeçilmez.
Karar vericilerle diyalog:
- Aracın iyi kullanım örneklerini kabul ederken, sezgisel olmayan tuzaklardan nasıl kaçınılacağını da açıklamak gerekiyor.
- İyi kullanım örnekleri olmadığını iddia etmek, teknolojinin potansiyel değerini göz ardı etmek anlamına geliyor.
Doğru mesajı vermek:
- "Çevreyi yıkan, sürekli yalan söyleyen bir intihal makinesi" gibi parçalı eleştiriler sorunları çözmeye yardımcı olmuyor.
- LLM'lerin gerçek değerini keşfetmek ve hayata geçirmek için sezgisel olmayan rehberlik ve eğitim gerekiyor.
Sorumlu rol:
- Bu teknolojiyi anlayan kişiler, başkalarının onu doğru şekilde kullanmasına yardımcı olma sorumluluğunu taşıyor.

1 yorum

GN⁺ 2025-01-01

Hacker News görüşü

Birçok kişi ChatGPT 4'ü kullandıktan sonra LLMs'in işe yaramaz olduğunu düşünme eğiliminde. Ancak Claude Sonnet 3.5 hâlâ faydalı olabilir
- LLMs'in faydası büyük ölçüde kullanıcının iletişim becerisine bağlıdır
- Doğru sorular ve arka plan açıklamalarıyla LLMs'in performansı en üst düzeye çıkarılabilir
- Sıkıcı işleri hızlıca halletmekte kullanışlıdır
"Ajan" teriminin net bir anlamı yok ve bu da kafa karışıklığına yol açıyor
- "Agentic" gibi moda sözcükler rahatsız edici gelebilir
LLM fiyatlarının düşmesiyle ilgili endişeler var
- Gemini'nin ücretsiz katmanı hâlâ cazip, ancak güvenmek zor
- 2025'in ilk yarısında fiyatların yeniden yükselebileceği konusunda kaygı var
"Ajan" kavramı hâlâ net biçimde tanımlanmış değil
- Gerçek bir "ajan"ın özerklik içermesi gerektiği düşünülüyor
LLMs kullanımının daha zorlaştığı iddiasına katılınmıyor
- Seçenekler arttı ama kullanımın kendisi zorlaşmış değil
- Yeni başlayanlara hâlâ aynı yönergeler veriliyor
Neyin "iyi" olduğunu değerlendirmek zorlaştı
- Benchmark manipülasyonu arttığı için kafa karıştırıcı
- Kişisel olarak bir test çerçevesi kurmaya çalışılıyor
Bazı insanlar LLMs'in kusurları nedeniyle kullanmayı bıraktı
- LLMs'ten en yüksek verimi almak için istikrarsız ama güçlü bir teknolojiyle nasıl çalışılacağını öğrenmek gerekiyor
Bazı GPT-4 modelleri dizüstü bilgisayarlarda da çalıştırılabiliyor
- Bu, büyük veri merkezlerinin zorunlu olmadığı anlamına geliyor
- OpenAI'nin değeri abartılmış olabilir
Apple'ın 64GB DRAM kullanımının neden özel olduğu anlaşılmıyor
- Veri merkezleri RAM üretim kapasitesinin çoğunu kullanırken Apple'ın DRAM tedarikini nasıl sağladığı merak ediliyor
Google Gemini ve Amazon Nova'nın maliyet yapısı konusunda kafa karışıklığı var
- Enerji maliyetinin altında fiyat sundukları yönündeki iddialarla bunun doğru olmadığını söyleyen iddialar çelişiyor
LLMs'in günlük işlerde faydalı olmadığı yönünde görüşler var
- Yeni LLM modellerinin sadece abartılmış iyileştirmeler olduğu ileri sürülüyor
Bu endüstride ahlak ve mükemmeliyet standardının düşük olduğu görülmüş
"Muhakeme"nin gizil/sinirsel uzaya itilmiş mevcut durumu hakkında sorular var
- Modelin kendi kendine konuşmasının nihai çıktıyla ilgisi az ve verimsiz olduğu düşünülüyor

2024’te LLM’ler Hakkında Öğrendiklerimiz

# GPT-4 sınırları tamamen aşıldı

# Bazı GPT-4 modelleri dizüstü bilgisayarımda çalışıyor

# LLM fiyatları çakıldı; rekabet ve verimlilik bu değişimi getirdi

# Çok modlu görme yaygınlaştı, ses ve video da yeni katıldı

# Ses ve canlı kamera modu, gerçeğe dönüşen bilim kurgu

# Prompt tabanlı uygulama üretimi, artık gündelik bir teknoloji

# En iyi modellere ücretsiz erişim, birkaç ay içinde sona erdi

# "Ajan", hâlâ gerçeğe dönüşmemiş bir kavram

# Değerlendirmelerin (Evals) önemi

# Apple Intelligence hayal kırıklığı yaratıyor, ama MLX kütüphanesi mükemmel

# Çıkarım ölçeklendirmesi ve "Reasoning" modellerinin yükselişi

# Şu anki en iyi LLM, Çin'de 6 milyon doların altında bir maliyetle mi eğitildi?

# Çevresel etkinin iyileşmesi

# Çevresel etki daha da kötüleşiyor

# 2024, "Slop" yılı

# Sentetik eğitim verisinin şaşırtıcı etkisi

# 2024’te LLM kullanmak daha zor hale geldi

# Bilginin dengesiz dağılımı

# LLM’lere yönelik daha iyi eleştirilere ihtiyaç var

İlgili okumalar

1 yorum

Hacker News görüşü