Bu teknoloji demosu çok etkileyici ve hesap açmadan herkesin deneyebileceği gerçekten açık bir demo olması güzel.
Daha önce gördüklerimizden çok daha yüksek hızda token üretilmesini görmek gerçeküstü.
Microsoft, Apple, Google gibi büyük şirketlerce devralınmamış olması şaşırtıcı.
İkinci yorum özeti:
Groq LPUs'ın en büyük sorunlarından biri, HBM'in hiç olmaması ve yalnızca çok küçük miktarda (230 MiB) yüksek hızlı SRAM içermesi.
Tek bir modeli çalıştırmak için 256 LPU (yaklaşık 4 sunucu rafı) gerekiyor.
Tek bir modele ait çok sayıda müşteri varsa faydalı olur, ancak birden fazla model ve ince ayar gerektiğinde kullanımı zorlaşır.
Üçüncü yorum özeti:
Demo etkileyici olsa da, benchmark olmadan şüpheci kalmak gerekiyor.
Model kalitesinden ödün vererek modeli hızlandırmanın yolları var; örneğin model quantizasyonu.
LLM token/saniye alanında, yıllar önce CPU komut/saniye alanında yaşanan gelişime benzer bir ilerleme olmasını umuyoruz.
Dördüncü yorum özeti:
Groq'ta çalışıyorum; sorunuz varsa her zaman sorabilirsiniz.
Groq'un derleme pipeline'ının bir kısmının Haskell ile yazıldığını belirtti.
Beşinci yorum özeti:
Demo etkileyici olsa da donanım gereksinimleri ve maliyeti nedeniyle yalnızca büyük şirketlerin erişebildiği söylenebilir.
Hobi yapanlara da fiyatın uygun bir seviyeye düşeceği bir dönemin gelip gelmeyeceği soruluyor.
CNN Vapi demosu da etkileyiciydi ama diğer servislerin düşük ses gecikmesiyle daha doğal bir diyalog sağlayabildiği de not edildi.
Gerçek zamanlı etkileşim için kritik bir token/saniye eşiği ve bunun üzerindeki hızların yapay zekâlar arası iletişim için faydalı olabileceğine dair düşüncelerini paylaştı.
Altıncı yorum özeti:
Bu teknolojinin neden bu kadar etkileyici olduğuna ve neden daha fazla hesaplama gücüyle tepki süresini artırılamayacağına dair bir soru ortaya atıyor.
NVIDIA'nın grafiğine atıfta bulunarak H100'ün 70B modelini 500 token/saniye'nin üzerinde çalıştırdığını belirtti.
Yedinci yorum özeti:
Belirli bir yazı tipine erişim yoksa sayfa çalışmıyor ve istekleri tekrar tekrar denemenin gerekliliğine dikkat çekiyor.
Tarayıcıların varsayılan olarak bu tür izleyicileri engellediğini gördüğü için bu sorunu fark etmiş.
Sekizinci yorum özeti:
Bu teknolojinin x.ai'daki Grok modeliyle ilişkisi olup olmadığını soruyor.
Kullandıktan sonra hızından çok etkilendiğini belirtti.
Dokuzuncu yorum özeti:
Groq ve mixtral için hayranlık duydu.
Belirli bir prompt kullanarak GitLab CI YAML dosyası oluşturan bir demo yaşadı.
Onuncu yorum özeti:
Groq'un API performansının da bu seviyeye yakın olduğunu söyledi.
Zaman içindeki performans benchmark'larında 500 token/saniye'ye yakın 400 token/saniye'nin üzerinde sürekli sürdürülen sonuçları paylaştı.
1 yorum
Hacker News yorumları
İlk yorum özeti:
İkinci yorum özeti:
Üçüncü yorum özeti:
Dördüncü yorum özeti:
Beşinci yorum özeti:
Altıncı yorum özeti:
Yedinci yorum özeti:
Sekizinci yorum özeti:
Grokmodeliyle ilişkisi olup olmadığını soruyor.Dokuzuncu yorum özeti:
Onuncu yorum özeti: