1 yorum

 
GN⁺ 2024-02-21
Hacker News yorumları
  • İlk yorum özeti:

      • Bu teknoloji demosu çok etkileyici ve hesap açmadan herkesin deneyebileceği gerçekten açık bir demo olması güzel.
      • Daha önce gördüklerimizden çok daha yüksek hızda token üretilmesini görmek gerçeküstü.
      • Microsoft, Apple, Google gibi büyük şirketlerce devralınmamış olması şaşırtıcı.
  • İkinci yorum özeti:

      • Groq LPUs'ın en büyük sorunlarından biri, HBM'in hiç olmaması ve yalnızca çok küçük miktarda (230 MiB) yüksek hızlı SRAM içermesi.
      • Tek bir modeli çalıştırmak için 256 LPU (yaklaşık 4 sunucu rafı) gerekiyor.
      • Tek bir modele ait çok sayıda müşteri varsa faydalı olur, ancak birden fazla model ve ince ayar gerektiğinde kullanımı zorlaşır.
  • Üçüncü yorum özeti:

      • Demo etkileyici olsa da, benchmark olmadan şüpheci kalmak gerekiyor.
      • Model kalitesinden ödün vererek modeli hızlandırmanın yolları var; örneğin model quantizasyonu.
      • LLM token/saniye alanında, yıllar önce CPU komut/saniye alanında yaşanan gelişime benzer bir ilerleme olmasını umuyoruz.
  • Dördüncü yorum özeti:

      • Groq'ta çalışıyorum; sorunuz varsa her zaman sorabilirsiniz.
      • Groq'un derleme pipeline'ının bir kısmının Haskell ile yazıldığını belirtti.
  • Beşinci yorum özeti:

      • Demo etkileyici olsa da donanım gereksinimleri ve maliyeti nedeniyle yalnızca büyük şirketlerin erişebildiği söylenebilir.
      • Hobi yapanlara da fiyatın uygun bir seviyeye düşeceği bir dönemin gelip gelmeyeceği soruluyor.
      • CNN Vapi demosu da etkileyiciydi ama diğer servislerin düşük ses gecikmesiyle daha doğal bir diyalog sağlayabildiği de not edildi.
      • Gerçek zamanlı etkileşim için kritik bir token/saniye eşiği ve bunun üzerindeki hızların yapay zekâlar arası iletişim için faydalı olabileceğine dair düşüncelerini paylaştı.
  • Altıncı yorum özeti:

      • Bu teknolojinin neden bu kadar etkileyici olduğuna ve neden daha fazla hesaplama gücüyle tepki süresini artırılamayacağına dair bir soru ortaya atıyor.
      • NVIDIA'nın grafiğine atıfta bulunarak H100'ün 70B modelini 500 token/saniye'nin üzerinde çalıştırdığını belirtti.
  • Yedinci yorum özeti:

      • Belirli bir yazı tipine erişim yoksa sayfa çalışmıyor ve istekleri tekrar tekrar denemenin gerekliliğine dikkat çekiyor.
      • Tarayıcıların varsayılan olarak bu tür izleyicileri engellediğini gördüğü için bu sorunu fark etmiş.
  • Sekizinci yorum özeti:

      • Bu teknolojinin x.ai'daki Grok modeliyle ilişkisi olup olmadığını soruyor.
      • Kullandıktan sonra hızından çok etkilendiğini belirtti.
  • Dokuzuncu yorum özeti:

      • Groq ve mixtral için hayranlık duydu.
      • Belirli bir prompt kullanarak GitLab CI YAML dosyası oluşturan bir demo yaşadı.
  • Onuncu yorum özeti:

      • Groq'un API performansının da bu seviyeye yakın olduğunu söyledi.
      • Zaman içindeki performans benchmark'larında 500 token/saniye'ye yakın 400 token/saniye'nin üzerinde sürekli sürdürülen sonuçları paylaştı.