18 puan yazan princox 10 일 전 | 7 yorum | WhatsApp'ta paylaş
  • Claude Mythos'un yapısını varsayarak onu “tekrarlı düşünen transformer” biçiminde uygulayan açık kaynak bir proje
  • OpenMythos, Anthropic'in yeni nesil modeli olarak bilinen Claude Mythos'u temel alarak, kamuya açık bilgiler ve araştırma fikirlerini birleştirip mimariyi yeniden üretiyor
  • Gerçek modelin kendisi değil; “böyle çalışıyor olabilir” şeklindeki bir hipotezin koda dökülmüş hali olan bir proje

Temel fikir

Bu projenin özü, mevcut LLM'lerden farklı olarak
modeli daha büyük yapmak yerine aynı yapıyı birden çok kez tekrar çalıştırmasıdır.

Tek bir katmanı birçok kez döndürerek iç durumu kademeli olarak güncelliyor
ve bu süreçte daha derin muhakeme gerçekleştiriyor.

Başlıca yapı

  • Aynı transformer bloğunu tekrarlı çalıştıran yapı
  • Tekrar sürecinde farklı uzmanların (MoE) seçici olarak etkinleşmesi
  • Ara sonuçların dış token olarak üretilmeyip iç durumda işlenmesi
  • Bellek verimliliğini artırmak için attention yapısının uygulanması

Mevcut yaklaşımdan farkı

Genel LLM'ler token üretirken muhakeme sürecini açığa çıkaran bir yaklaşım izlerken,
bu yapı içerde birden çok kez hesaplama yapıp yalnızca nihai sonucu veren bir yaklaşıma daha yakındır.

Yani “konuşurken düşünmek” yerine
“içinden yeterince düşünüp sonra konuşan bir yapı”yı hedefler.

Anlamı

Bu yaklaşım, token kullanımındaki artışın doğurduğu maliyet sorunuyla da bağlantılıdır.
Çünkü muhakemeyi iç tekrarlarla yürütmek, dışarı üretilen token sayısını azaltabilir.

Ayrıca model performansını parametre sayısını artırarak değil,
muhakeme aşamasındaki hesaplama miktarını artırarak yükseltmeyi hedeflemesi bakımından yeni bir akım olarak görülebilir.

Sınırlar

Gerçek Claude Mythos mimarisiyle birebir aynı olduğunun garantisi yoktur
ve doğrulanmış performans ya da büyük ölçekli deney sonuçları henüz yetersizdir.

Tek cümlelik içgörü

  • Modeli daha da büyütmek yerine, aynı modeli tekrar tekrar çalıştırarak daha derin düşünmesini sağlamak, yeni nesil LLM tasarımının yönü olabilir

7 yorum

 
aliveornot 9 일 전

Eksileme olsa iyi olur GeekNews'te

 
skageektp 8 일 전

> Gerçek Claude Mythos'un yapısıyla aynı olduğunun garantisi yok,

O zaman buna hiç tersine mühendislik denmez ki;;

 
rtyu1120 9 일 전

Daha hiç kamuya açıklanmadıysa, buna nasıl tersine mühendislik yapacaklar ki...??

 
akapwhd 8 일 전

Gerçek modelin kendisi değil; bunun yerine, “böyle bir şekilde çalışıyor olabilir” şeklindeki bir hipotezi kodla hayata geçiren bir proje..

Neden GPT 6 yapıp da böyle çalışıyor olabilir falan demiyorlar ki haha

 
pmc7777 9 일 전

Bu kişi gündem olan bir şey çıktığında her seferinde open* isim kalıbıyla seri üretim yapıyor gibi; o yüzden algısı pek iyi değil sanırım..

 
twiddlingguidable 9 일 전

Birinin yaptığını görünce, coin projesinin başındaki kişi olduğunu fark edip başımı salladım..

 
princox 9 일 전

Aa, doğruymuş. Repo listesine bakınca Open ile başlayan birkaç proje daha var gibi görünüyor..