GPT-5 "Orion" geliştirmesinde gecikme

(wsj.com)

12 puan yazan GN⁺ 2024-12-23 | 7 yorum | WhatsApp'ta paylaş

OpenAI'nin yeni nesil yapay zeka projesi GPT-5 (kod adı Orion) takvimin gerisinde kalmış durumda ve çok büyük maliyetler yaratıyor
GPT-5, ChatGPT'yi mümkün kılan teknolojide büyük bir ilerleme sağlamayı hedefliyor, ancak başarı olasılığı ve takvim belirsiz
Başlıca yatırımcı Microsoft, 2024 ortasında tanıtılmasını bekliyordu, ancak OpenAI'nin iç testlerinde çeşitli sorunlar ortaya çıktı

Projenin durumu ve maliyetler

GPT-5 şimdiden iki kez büyük ölçekli eğitimden geçti ve her bir eğitim yüz milyonlarca dolara mal oldu
Beklenen performansı karşılamıyor; mevcut performansı mevcut GPT-4'ten yalnızca biraz daha iyi seviyede
OpenAI CEO'su Sam Altman, GPT-5'in çığır açan bir ilerleme sunacağını vurguladı

Eğitim verisi ve teknik sorunlar

LLM eğitimi devasa miktarda veri gerektiriyor, ancak şu anda internette yeterli yüksek kaliteli veri bulunmuyor
OpenAI, matematik problemleri çözme ve yazılım kodu yazma gibi yollarla veriyi doğrudan üretme yöntemini benimsedi
Sentetik veri (AI tarafından üretilen veri) de kullanılıyor, ancak şirketin kendi veri üretim sürecinde hata ve mantıksız sonuç riski bulunuyor

İç sorunlar ve rekabet baskısı

OpenAI içinde çatışmalar var ve rakiplerin yetenekli çalışanları transfer etme girişimleri artıyor
Kurucu ortak Ilya Sutskever ve CTO Mira Murati dahil 24'ten fazla önemli çalışan ayrıldı
Rakipler Anthropic ve Google daha iyi LLM'ler piyasaya sürerek rekabeti kızıştırdı

Yeni yaklaşım: akıl yürütme modelleri

OpenAI, LLM performansını artırmak için yeni akıl yürütme modelleri geliştiriyor
- Yalnızca veri ölçeğini büyütmeye dayanan mevcut yaklaşımın sınırları kabul ediliyor
- o1 modeli, tek bir soru için birden fazla yanıt üretiyor, bunları analiz ediyor ve en iyi yanıtı seçiyor
- Karmaşık problemleri çözebiliyor, yanıt sürecini açıklayabiliyor ve öğrenebiliyor

Maliyet ve performans arasındaki ödünleşim

Akıl yürütme tabanlı modeller, mevcut yöntemlere göre performansı artırdı; ancak yüksek maliyet yükü getiriyor
- Tek bir soru için birden fazla yanıt üretilmesi gerektiğinden hesaplama maliyeti artıyor
Araştırmacılar, akıl yürütme modelleri ile mevcut veri merkezli yaklaşımı birleştirerek GPT-5'in temelini hazırlamaya çalışıyor

Sektörel zorluklar ve veri kıtlığı

Yapay zeka sektörü giderek daha fazla veri kıtlığı ve ölçek sınırlarıyla karşı karşıya kalıyor
Verinin "AI'ın fosil yakıtı" olduğu benzetmesinde olduğu gibi, ek yüksek kaliteli veri bulmak zorlaşıyor
GPT-5 geliştirmesi durursa, yapay zeka iyileştirmelerinin de duraklayabileceği öne sürülüyor

Sonuç

OpenAI, Orion projesinde teknik, finansal ve insan kaynağına ilişkin sorunlar nedeniyle zorluk yaşıyor
Yeni akıl yürütme modellerinin yapay zeka gelişiminde yeni bir atılım olma ihtimali araştırılıyor
Ancak GPT-5 olarak kabul edilebilecek bir modelin yayımlanması hâlâ belirsiz

7 yorum

aer0700 2024-12-24

Petrokimya şirketleri petrolü benzin, motorin vb. ürünlere rafine ettiği gibi,
ham veriyi güzelce arıtıp düzenleyen veri rafinasyonu şirketleri diye bir iş modeli de olabilir gibi görünüyor.
Şirket içinde sayısız birikmiş standart operasyon prosedürü Excel ve PPT dosyalarını temizleyip GPT fine-tuning için kullanmak gibi?

softer 2024-12-23

Bunun beklenen bir duvar olduğunu düşünüyorum
bir yandan da kendi farkındalığına sahip olup düşünebilen bir yöne kırılması ilginç olur diye de düşünüyorum

windrod 2024-12-23

Belirlenmiş bir yol haritası ya da net bir ölçüt ortada yokken, geliştirme gecikmesi var mı yok mu diye konuşmak da büyük olasılıkla bunun da sadece pazarlama amaçlı bilgi sızdırma olması demektir.

mammal 2024-12-23

o1 modeli, tek bir soru için birden fazla yanıt üretip bunları analiz ederek en iyi yanıtı seçer

o1, MCTS ya da arama tabanlı değil; RL ile CoT'u genişleten bir modeldir.

curiousotter 2024-12-23

Birden fazla yanıt üretiyor -> buradaki kısım, paralel olarak birden fazla yanıt üretip bunlardan birini seçmesi değil,

dediğiniz gibi CoT ile yanıtın verildiğine kanaat getirene kadar yanıtları sıralı biçimde üretip en iyi yanıtı ortaya koyuyor..

Bunun çeviri sürecinde yapılmış bir yanlış çeviri olabileceğini de düşünüyorum, asıl metni doğrulamak zor olduğu için emin değilim..

mammal 2024-12-23

Perde arkasında, OpenAI’nin o1’i her soru için birkaç yanıt sunuyor ve en iyisini bulmak için bunları analiz ediyor. İş planı yazmak veya bulmaca hazırlamak gibi daha karmaşık görevleri yerine getirebiliyor; bunu yaparken akıl yürütmesini de açıklıyor — bu da modelin her yanıttan biraz olsun öğrenmesine yardımcı oluyor.

Bunca ek işlem gücü pahalıya mal oluyor. OpenAI artık tek bir sorgu için yalnızca bir yanıt üretmek yerine, birden fazla yanıt üretmenin maliyetini ödüyor.

Görünüşe göre muhabir, bunu birden fazla yanıt üretip içlerinden birini seçen bir yöntem olarak anlamış.

GN⁺ 2024-12-23

Hacker News görüşleri

Model eğitimi maliyeti arttıkça, eğitim için gereken sürenin de uzaması gibi bir sorun var. Küçük modellerin daha hızlı yenilik üretebilmesinin nedeni, geri bildirim döngülerinin daha kısa olması
OpenAI'nin GPT-4 geliştirme sürecine dair açıklamaları, habere güven verecek düzeyde değil
LLM'lerin artık yalnızca veri ve hesaplama gücünü artırarak gelişemeyeceği bir sınıra ulaştığından söz ediliyor. Yeni fikirlere ihtiyaç var ve bunun için yeterli finansman hazır
LLM'lerin mevcut seviyesi, muhafazakâr güvenilirlik göstergeleri sunabilse çok daha faydalı olurdu. Bilmiyorum ya da Emin değilim ama... gibi çıktılar verebilmesi gerekiyor
OpenAI'nin bir sonraki sürümünden daha önemli olan şey, yazılım sektörünün bu teknolojiyi entegre ederek değerini ortaya çıkarması
İçeriden gelen yorumlardan çıkarılabilecek tahmin şu: ölçeklendirme, veri ve algoritma değişiklikleriyle 10 kat iyileşme isteniyor. Açık veri kaynakları neredeyse tükendi ve algoritmik değişimler araştırmalar yoluyla sürekli iyileşme sağlıyor
- Veri sınırlıysa ölçeklendirme duraklıyor
- Hesaplama gücünü daha iyi veriye dönüştürmenin yolunu bulmak mantıksal bir sonraki adım
- o3 yayımlandıkça, OpenAI'nin bir sonraki savunma hattı muhtemelen en iyi sentetik eğitim seti olacak
GPT-5'in takvimi gecikmedi; aslında yarım yıl önce GPT-4o olarak zaten yayımlandı. Yeterince devrimsel olmadığı için 5 adı verilmedi ve son anda yeniden markalanmış olabilir
Teknoloji gazeteciliğinin abartılı olduğundan bahsediliyor; o3 yayımlanmış olmasına rağmen hâlâ eleştirel yazılar çıkıyor
o1-Pro, öznel olarak GPT-4'ten çok daha iyi ve o3'ün de ondan daha iyi olduğu değerlendiriliyor. Bu, teknolojinin hızla ilerlediğine işaret ediyor
Dünya bu teknolojinin nasıl uygun şekilde çalışacağını öğreniyor ve takvimin gecikmiş olması neredeyse komedi gibi