10 puan yazan GN⁺ 2024-02-01 | 1 yorum | WhatsApp'ta paylaş
  • 28 Ocak civarında "Miqu Dev" adlı bir kullanıcı, açık kaynaklı yapay zeka modelleri ve kod paylaşım platformu HuggingFace’e "miqu-1-70b" adlı yeni bir açık kaynaklı büyük dil modeli (LLM) dosya seti yükledi
  • Bu model, şu anda performansı en yüksek açık kaynaklı yapay zeka şirketlerinden biri olarak değerlendirilen Mistral’ın geliştirdiği Mixtral 8x7b ile aynı "Prompt format"ı kullanıyor
  • Aynı gün anonim bir kullanıcı, 4chan’e miqu-1-70b dosyalarının bağlantısını paylaştı
  • Bazı kullanıcılar, bu modelin genel LLM görevlerinde üstün performans gösterdiğini ve OpenAI’nin GPT-4’üne yaklaştığını belirtti

Mistral kuantizasyonu mu?

  • Makine öğrenimi (ML) araştırmacıları, LinkedIn’de "miqu"nun "MIstral QUantized" anlamına gelip gelmediğine ilgi gösterdi
  • Kuantizasyon, yapay zeka model mimarisindeki uzun sayı dizilerini daha kısa olanlarla değiştirerek modelin daha az güçlü bilgisayarlar ve çiplerde çalışmasını sağlayan bir teknik
  • Mistral’ın kurucu ortağı ve CEO’su Arthur Mensch, "Miqu" modelinin Mistral’ın erken erişim müşterilerinden birindeki aşırı hevesli bir çalışan tarafından sızdırıldığını açıkladı
    • Mistral, bu modeli Llama 2 üzerinde yeniden eğitti ve Mistral 7B’nin yayımlandığı gün pretraining sürecini tamamladı; o tarihten beri de iyi ilerleme kaydediyor
  • İlginç olan şu ki Mensch, izinsiz HuggingFace paylaşımının kaldırılmasını istemek yerine, "atıf yapmayı düşünebiliriz" şeklinde bir yorum bıraktı

Açık kaynaklı yapay zeka ve ötesi için önemli bir an mı?

  • GPT-4 düzeyinde performansa sahip bir açık kaynaklı modelin yayımlanması, yalnızca açık kaynaklı üretken yapay zeka için değil, tüm yapay zeka ve bilgisayar bilimi alanı için de önemli bir an olabilir
  • OpenAI, GPT-4 Turbo ve GPT-4V (vision) ile rekabet avantajını koruyabilir; ancak açık kaynaklı yapay zeka topluluğu hızla arayı kapatıyor

GN⁺ görüşü

  • "Miqu" modelinin ortaya çıkışı, açık kaynaklı yapay zeka alanında ticari yapay zeka ürünleriyle rekabet edebilecek yeni olanaklar gösteriyor
  • Bu olay, açık kaynak topluluğunun yenilikçi kapasitesini ve teknolojinin hızlı gelişimini vurguluyor
  • Açık kaynaklı modellerdeki ilerleme, şirketlerin yapay zekayı kullanma biçimini değiştirebilir ve bunun teknoloji sektörü genelinde önemli etkileri olabilir

1 yorum

 
GN⁺ 2024-02-01
Hacker News görüşleri
  • Bir kullanıcı, TheBloke’un sayfasını takip ediyor ve kendi MacBook’unda Miqu Q5 kuantize modelini çalıştırabilmeyi bekliyor. Mixtral’ı her gün kullandığını, eğer bu modelin (veya yeni resmi sürümün) GPT-4’e yaklaştığı görülürse OpenAI aboneliğini iptal edeceğini söylüyor. Mistral’ın küçük ekibinin rakiplerini geride bıraktığını ve bunun “Open”AI’ın olması gereken şey olduğunu düşünüyor.

    Mistral CEO’sunun tweet’i: Erken erişim müşterilerinden birindeki aşırı hevesli bir çalışan, eski bir modelin kuantize edilmiş (ve filigranlı) sürümünü sızdırdı. Mistral 7B’nin çıktığı gün tüm kümeye erişim sağlanır sağlanmaz bu modeli Llama 2 üzerinde yeniden eğittiklerini ve o zamandan beri iyi ilerleme kaydettiklerini belirtiyor.

  • Bir kullanıcı, GPT-4’ün çıkışının üzerinden 1 yıl geçmiş olmasına rağmen, hâlâ GPT-4’ü yakalamaya yönelik kolektif çabanın özel bir sihirli formül olmadan oldukça yorucu olacağını söylüyor. Üstelik OpenAI’ın istediği anda çok daha iyisini çıkarabileceği bilinirken.

  • Başka bir kullanıcı, GPT-4’e yaklaşıldığı iddiasına karşılık, liderlik tablosunun GPT4-0314 ile GPT4-Turbo arasında büyük bir fark gösterdiğini; eğer ancak GPT4-0314’e yaklaşılabildiyse bunun hâlâ güncel teknolojinin 1 yıl gerisinde olmak anlamına geldiğini belirtiyor.

  • Bir başka kullanıcı, sızdırılan modelin birkaç ay içinde önemsiz hâle geleceğini söylüyor. Resmî model çıktıktan sonra daha iyi modellerin geleceğini ve asıl heyecan verici olanın modelin kendisi değil, gelişimin hızı olduğunu ifade ediyor.

  • Bir kullanıcı, bu modele neden açık kaynak model dendiğini sorguluyor. Bunun internete sızmış tescilli bir model olduğunu ve Mistral resmî olarak yayımlayana kadar da böyle kalacağını söylüyor. Kişisel kullanım açısından Llama 1’de olduğu gibi bunu çok dert etmeyeceğini, ancak hiçbir şirketin bu modeli kullanmayacağını belirtiyor.

  • Başka bir kullanıcı, Mistral’ın ona 2015 öncesinin o güzel eski teknoloji şirketlerini hatırlattığını söylüyor.

  • Bir kullanıcı, GPT’nin Apache ya da MySQL’in en güncel sürümü gibi sıradanlaştığı bir dünyada, her yerde milyonlarca web host’unun (özür dilerim, AI host’unun) çalıştığı bir düzene geri dönüşü nasıl hayal edebileceğimizi merak ediyor.

  • Son olarak bir kullanıcı, GPT-4’ün neredeyse 1 yıl önce çıktığını ve OpenAI’ın her ay yeni, çığır açıcı teknoloji çıkaran yüksek temposunun durmuş gibi göründüğünü söylüyor. OpenAI’da neler olup bittiğini, son dönemdeki karmaşanın şirkette gecikmelere yol açıp açmadığını ya da bir tür “süper silah” geliştirip geliştirmediklerini merak ediyor.