Groq, Mixtral 8x7B-32k’yi 500 T/s hızında çalıştırıyor

(groq.com)

1 puan yazan GN⁺ 2024-02-21 | 1 yorum | WhatsApp'ta paylaş

Yapay zeka hizmetlerinde yanıt hızı ve çıkarım maliyetinin darboğaz haline geldiği bir ortamda Groq, hızlı ve düşük maliyetli çıkarım altyapısını öne çıkarıyor
Farkı, GPU merkezli bir yaklaşım yerine 2016’dan beri çıkarıma özel olarak geliştirilen LPU tabanlı bir stack kullanması
GroqCloud, dünya genelindeki veri merkezlerinde LPU stack’ini çalıştırarak düşük gecikme sunuyor ve 3 milyon geliştirici ile ekip tarafından kullanıldığını belirtiyor
Geliştiriciler, OpenAI uyumlu istemcilerde yalnızca base_url ve GROQ_API_KEY değerlerini değiştirerek nispeten kolay biçimde entegrasyon yapabiliyor
Fintool, GroqCloud’u devreye aldıktan sonra sohbet hızının 7,41 kat arttığını ve maliyetlerin %89 azaldığını; McLaren Formula 1 Team’in de Groq’yu çıkarım ortağı olarak seçtiğini aktarıyor

Hızlı ve düşük maliyetli çıkarım platformu

Groq, yapay zekada çıkarımı (inference) temel yakıt olarak görüyor ve gerçek iş yüklerinde de kararlı çalışan hızlı, düşük maliyetli bir çıkarım platformunu öne çıkarıyor
Ana sayfadaki temel mesaj, “gerçek koşullarda da sarsılmayan hızlı ve düşük maliyetli çıkarım”a yakın
2016’da kuruldu ve kuruluş amacını yalnızca çıkarıma odaklanmak olarak tanıtıyor

LPU ile oluşturulmuş çıkarıma özel stack

Groq, diğer şirketlerin GPU’lara dayanmasından farklı olarak kendi silikonunu temel güçlü yanı olarak konumlandırıyor
2016’da LPU’yu öncülük ederek geliştirdiğini ve bunu çıkarıma özel üretilmiş ilk çip olarak açıklıyor
LPU’daki tasarım tercihleri, akıllı model yanıtlarını hızlı ve düşük maliyetli tutmaya odaklanıyor
“Benchmark’lar değil, iş yükleri gerçekten dağıtıma alınır” mesajıyla gerçek dağıtım ortamını vurguluyor

Dünya genelindeki veri merkezleri ve GroqCloud

LPU tabanlı stack, dünya genelindeki veri merkezlerinde çalışıyor ve düşük gecikmeli yanıtlar sunmaya odaklanıyor
Çıkarımın yerelde çalıştığında en iyi sonucu verdiği varsayımından hareketle, model yanıtlarını kullanıcılara daha yakın konumlardan sunan yapıyı vurguluyor
GroqCloud, geliştiricilerin hızlı ve düşük maliyetli çıkarımı kullanabildiği bir bulut hizmeti
Groq, 3 milyon geliştirici ve ekibin Groq kullandığını belirtiyor

OpenAI uyumlu geliştirici entegrasyonu

Groq, OpenAI uyumlu entegrasyonu vurguluyor ve “iki satırla” geçiş yapılabileceğini söylüyor
Python örneği, openai.OpenAI istemcisinde şu değerleri ayarlıyor
- base_url="https://api.groq.com/openai/v1";
- api_key=os.environ.get("GROQ_API_KEY")
Geliştiriciler Groq konsolundan başlayabilir veya ücretsiz API anahtarı alarak kullanabilir

Müşteri örnekleri ve ortaklıklar

McLaren Formula 1 Team, dünya genelinde çıkarım için Groq’yu seçen bir iş ortağı örneği olarak tanıtılıyor
McLaren F1 Team, karar alma, analiz, geliştirme ve gerçek zamanlı içgörüler için Groq’yu seçti
PGA of America CTO’su Kevin Scott, performansın daha önemli olduğu işlerde Groq kullandıklarını söylüyor
Fintool CEO’su Nicolas Bustamante, GroqCloud’u devreye aldıktan sonra şu değişimleri yaşadıklarını belirtiyor
- Sohbet hızında 7,41 kat artış
- Maliyette %89 düşüş
- Token tüketiminde 3 kat artış
Opennote CTO’su Abhigyan Arya, Groq’nun maliyet tasarrufu ve operasyon yükünde azalma sağladığını, öğrenciler için premium plan fiyatını makul seviyede tutmaya yardımcı olduğunu belirtiyor

Birlikte yayımlanan haber öğeleri

Groq Raises $750 Million as Inference Demand Surges: 17 Eylül 2025 öğesi
Day Zero Support for OpenAI Open Models: 5 Ağustos 2025 öğesi
From Speed to Scale: How Groq Is Optimized for MoE & Other Large Models: 27 Mayıs 2025 öğesi

1 yorum

GN⁺ 2024-02-21

Hacker News yorumları

Bu, hayatımda gördüğüm teknoloji demoları arasında en etkileyicilerden biri ve herkesin kayıt olmadan hemen deneyebildiği gerçekten açık bir demo olması hoşuma gidiyor.
Token’ların çılgın bir hızla aktığını görmek neredeyse gerçek dışı; normalde bunun 1/5’inden bile düşük hızlara alışık olduğum için daha da şaşırtıcı. Microsoft, Apple, Google gibi şirketlerden biri tarafından hâlâ büyük bir primle satın alınmamış olması şaşırtıcı.
- Doğru anladıysam, çip başına RAM 200MB olduğu için tek bir LLM çalıştırmak için birden fazla rack gerekiyor; bu da bana ilerleme gibi gelmiyor.
  İhtiyacımız olan şey, onlarca-yüzlerce GB RAM ve bunu iyi yöneten bir işlemciye sahip tek bir PCIe kartı.
- Perplexity Labs’te de Mixtral 8x7b için açık bir demo var, ama bu kadar hızlı değil.
  https://labs.perplexity.ai/
- Bunun neden bu kadar büyük bir olay olduğunu gerçekten anlamıyorum ve merak ediyorum.
  Asıl mesele TFLOPS/$ ve TFLOPS/W değerlerinin ne olduğu ve Nvidia, AMD, TPU ile nasıl karşılaştırıldığı. Üstünkörü baktığımda Groq’un 2020’den beri benzer iddialarda bulunduğu görülüyor; ama insanlar hâlâ Nvidia’ya büyük prim ödüyor ve Groq bu pazarı ciddi biçimde sarsıyor gibi görünmüyor. ChatGPT’den çok daha küçük bir modeli benzer ya da daha güçlü donanımda çalıştırırsanız hızlı olabilir; ancak gecikmenin temel metrik olmadığı çoğu model veya kullanım senaryosu için bu bir atılım anlamına gelmez.
- Neden satsınlar ki? Onları kendi oyunlarında yenmek çok daha eğlenceli olurdu.
Groq LPU’nun temel sorunu hiç HBM olmaması ve yalnızca çok küçük, aşırı hızlı 230MiB SRAM bulunması.
HBM3’ten 20 kat hızlı olduğu doğru, ama bu yüzden tek bir modeli servis etmek için yaklaşık 256 LPU, yani 4 sunucu rack’i ölçeğinde donanım gerekiyor. Buna karşılık tek bir H200 bile bu modelleri oldukça makul şekilde servis edebilir. Çok müşterisi olan tek bir model için uygun olabilir; ancak birden fazla model ve çok sayıda fine-tuning ile yüksek rank’li LoRA gerektiği anda kullanması zorlaşıyor. On-premise dağıtımlara da uygun değil, çünkü temel avantajı birçok kullanıcıyı aynı modelde toplamakta yatıyor.
https://wow.groq.com/groqcard-accelerator/
https://twitter.com/tomjaguarpaw/status/1759615563586744334
- Bir Groq mühendisi açısından bakınca, tek bir kartın ya da tek bir node’un ötesine hesaplamayı ölçekleyebilmenin neden sorun olduğunu pek anlamıyorum.
  Otomobil fabrikası benzetmesini seviyorum: Bir ya da iki matkapla da araba yapabilirsiniz, ama modern otomasyonlu bir fabrikada yüzlerce matkap vardır. Tek bir matkapla farklı türde birçok araba yapabilirsiniz; fabrika montaj hattı ise yalnızca belirli konfigürasyondaki arabaları üretebilir. Bu, fabrikanın verimsiz olduğu anlamına gelmez. H200’ün oldukça iyi çalıştığı iddiası, senkron insan etkileşimi kullanımı için makul olabilir ama tartışmaya açık. Nvidia üzerinde 30B+ parametreli bir modelin konuşma sırasında RAG yapıp sesli yanıtı da 1 saniyenin altında verdiği bir örnek görmek isterim.
- Groq, makalede bu sonuç için 576 çip kullandığını belirtiyor.
  Ayrıca her kullanıcı için ayrı bir KV cache gerektiğini ve bunun kullanıcı başına birkaç GB daha ekleyebileceğini de hesaba katmak gerekir. Bağımsız bir gözlemci olarak mesleki kanaatim, bu performans rakamlarını elde etmenin satış maliyetinin muhtemelen birkaç milyon doları aşacağı ve bunu beklenen kullanıma yayarak açıklanan teorik fiyatlara uydurmanın gerçekçi olmadığı yönünde. Dolar başına gerçek performans açısından pek uygulanabilir görünmüyor; ama maliyeti yok sayarsanız çılgın düzeyde performans gösteren çok havalı bir demo olduğu kesin.
  https://www.nextplatform.com/2023/11/27/groq-says-it-can-dep...
- Hedef düşük gecikmeyse HBM konusunda çok dikkatli olmak gerekir. Sorun yalnızca gecikmenin kendisi değil, belirlenimci olmaması da.
  LPU mimarisinin büyük avantajı, hızlı interconnect ile yüzlerce çipten oluşan sistemler kurarken bile tüm sistemin kesin zamanlamasını ppm düzeyine kadar bilebilmenizdir. Belirlenimci olmayan bileşenler eklemeye başladığınızda gecikme garantileri çok hızlı ortadan kalkar.
- Groq cihazı, SRAM sayesinde küçük batch çıkarım için çok uygun.
  Ancak token/saniye/dolar avantajı olup olmadığından emin değilim; özellikle de çok miktarda silikon satın alabilen orta ve büyük ölçekli batch kullanıcıları için. Mimari olarak Groq’un batch boyutu 1’in üstüne çıkınca hızlanmayacağını düşünüyorum; Nvidia kartlarında ise batch boyutu 100’ler seviyesine çıktığında throughput anlamlı biçimde artacaktır.
- Tek bir temel modeli ve birden çok LoRA’yı yükleyip yine de temel modelin RAM’inden neredeyse fazlasını kullanmayan bir yöntem mümkün olabilir.
  Fine-tuning’i ağırlıkların yalnızca yaklaşık %0,1’ini değiştirecek şekilde yapmak ve her hesaplamada ağırlık farkını değil, çıktı katmanı aktivasyonlarındaki farkı hesaplamak gibi bir yaklaşım olabilir.
Dışarıdan bakınca çok etkileyici. Ancak benchmark olmadan biraz şüpheyle yaklaşmak iyi olur
Çünkü hızı artırmak için kaliteden ödün veren agresif niceleme gibi pek çok dolambaçlı yöntem var. Öyle değilse, LLM token/saniye gelişiminin onlarca yıl önceki CPU komut/saniye gelişimi gibi sürdüğünü görmeyi isterim
- Temelde şüpheyle yaklaşmak gerektiğini söyleyen bilim insanı tutumuna katılıyorum
  Sohbet uygulaması ve API, herkesin deneyebilmesi ve çıktı kalitesini diğer sağlayıcılarla karşılaştırabilmesi için açık durumda
- tome’un daha önce söylediği gibi niceleme yapmıyoruz; tüm aktivasyon değerleri FP16
  Bağımsız benchmark da var: https://artificialanalysis.ai/models/llama-2-chat-70b
- Önceki Llama 70B demosunda niceleme olmadan çalıştırdıklarını iddia etmişlerdi
  https://twitter.com/lifebypixels/status/1757619926360096852
  Ancak bu yorumda “bazı verilerin depolama sırasında FP8 olarak saklandığı” söyleniyor; bunun tam olarak ne anlama geldiğini bilmiyorum: https://news.ycombinator.com/item?id=39432025
- Groq’u benchmark ederken niceleme olup olmadığını sordum ve modeli tam FP-16 olarak çalıştırdıklarını teyit ettirdim
  Kontrol edilmesi iyi bir nokta ve önemli bir ayrıntı. Benchmark bağlantısı: https://artificialanalysis.ai/
  Soru sohbet demosu için değil, API için sorulmuştu
- Benzetmeyi fazla zorluyor olabilirim ama LLM’ler şimdiden transistör çağına girmiş olabilir mi?
  70 milyar parametreli canavara bakınca hâlâ vakum tüpleriyle ENIAC inşa ediyormuşuz gibi de geliyor. Başka bir deyişle, artık LLM token/saniye değerini her yıl düzenli olarak iyileştirmeye hazır mıyız, yoksa ondan önce bir iki büyük atılıma daha ihtiyaç duyulan aşamada mıyız merak ediyorum
Groq’ta çalışıyorum. İstediğinizi sorabilirsiniz
HN gönderi geçmişime bakarsanız Haskell hakkında çok konuştuğumu görürsünüz; doğru. Groq derleyici hattının bir kısmı Haskell ile yazıldı
- Web arayüzü hatası olabilir ama Mixtral modeliyle bir prompt girip yanıt aldıktan sonra açılır menüyü Llama’ya değiştirip aynı prompt’u girince tamamen aynı yanıt geldi
  Önbellekleme olabilir, sorgulanan model gerçekte değişmemiş olabilir ya da başka bir şey olabilir
- Haskell, makine öğrenmesi alanında epey sıra dışı görünüyor
  Bu tercihin özel bir avantajı olup olmadığını ve başka ekiplere de önerilip önerilemeyeceğini merak ediyorum. Projenin hangi kısımlarında Haskell kullanıldığını, hangi kısımlarında kullanılmadığını da bilmek isterim
- Anladığım kadarıyla özel donanımla token üretim hızını artırıyorsunuz; token üretimi, hesaplama hızının gecikmesine büyük ölçüde bağlı
  Ancak token üretimi genellikle yalnızca 1 boyutlu matris çarpımı gerektiriyor. Yaklaşık 100 token’lık bir prompt girince servis çok daha yavaşlıyor; muhtemelen 2 boyutlu matris çarpmak gerektiği içindir. Prompt işleme hesaplama hızını artırmak için neler yaptığınızı merak ediyorum
- Düşük gecikmeli çıkarımı hedefleyen neredeyse tek şirketlerden biri gibi görünüyorsunuz; yalnızca verime ve bunun sonucu olarak çıkarım başına maliyete odaklanmıyorsunuz gibi
  Ana pazar olarak nereyi gördüğünüzü merak ediyorum
- AMA için teşekkürler. Demoyu çalıştırmak için kaç GroqCard kullandığınızı ve internette görünen 230 MB SRAM’den daha fazla SRAM’e sahip yeni bir sürüm kullanıp kullanmadığınızı merak ediyorum
  Bu sayının toplu işlem kullanımını ve maliyet düşürmeyi etkileyeceğini düşünüyorum. Ayrıca TTS hattı stack’e entegre edilebilirse gerçekten düşük gecikmeli telefon görüşmeleri mümkün olabilir. Kullandığınız ürünün şu olduğunu varsayıyorum: https://www.bittware.com/products/groq/
Etkileyici bir demo
Ancak donanım gereksinimleri ve maliyet nedeniyle büyük şirketler dışında erişmesi zor görünüyor. Hobi geliştiricilerin de karşılayabileceği bir fiyat seviyesinin ne zaman mümkün olacağını merak ediyorum. CNN Vapi demosu da etkileyiciydi ama birkaç hafta önce paylaşılan https://smarterchild.chat/ de çok düşük ses gecikmesiyle doğal bir sohbet sağlayabiliyordu. O tartışmaya bakılırsa https://www.sindarin.tech/ tarafından yapılmış gibi; Groq LPU mu kullanıyorlar yoksa başka bir şey mi merak ediyorum. Yaklaşık 50 t/s’ye ulaşıldığında gerçek zamanlı etkileşimin mümkün hale geldiğini düşünüyorum. Bunun üstü, büyük miktarda veri üretimini hızlandırmak için yararlı ama insanın işleyebileceği hızın çok ötesine geçtiği için hissedilen fayda azalıyor. Yapay zekalar arası iletişim, bilgi ve bağlam aktarımı gibi alanlarda yararlı olabilir. O halde yalnızca yapay zeka-insan etkileşimine odaklanan bir LPU ürünü çok daha düşük performans ve çok daha düşük maliyetle mümkün olmaz mı diye düşünüyorum
https://news.ycombinator.com/item?id=39180237
- Hizmet olarak token API erişiminde, başka tüm sağlayıcılardan daha düşük token başına maliyet garanti ediliyor
  https://wow.groq.com adresine bakın. Donanım satışı tarafında ise tüm sistem satışına odaklanılıyor ve pratikte yalnızca şirketler ya da araştırma kurumları için uygun
- Yapay zeka sistemleriyle gerçek zamanlı etkileşim için 50 t/s’den çok daha yüksek hızlar kesinlikle gerekli
  LLM çıktılarının çoğu iç monolog, planlama, RAG, özetleme vb. için kullanılacak; kullanıcıya yalnızca nihai çıktı iletilecek. Son derece hızlı bir GPT-5’in birkaç göz kırpması süresinde yanıt planını birkaç kez oluşturduğunu, web’de arama yaptığını, okuma raporu yazdığını, kendi kendine tartıştığını, bulduklarını rafine ettiğini, yanıtı eleştirip yeniden yazdığını hayal edin
- Sindarin ekibinin yaklaşık 3 kişiden oluştuğu düşünülürse, mevcut teknolojileri çok akıllıca birleştirmiş olmaya daha yakın görünüyor
  Kelime düzeyinde gerçek zamanlı transkripsiyon sağlayan ses API’leri var; Google’da da böyle bir şey var. Asıl püf noktası büyük olasılıkla konuşma tanıma → LLM → TTS arasındaki akışı çok iyi tasarlanmış bir pipelining ile kurmaları. Başarılarını küçümsemek istemiyorum; tam tersine, bu sonucu nasıl yeniden üretebileceğimizi merak ettiğim için ilgimi çekti
Her zaman hızlı değil; karmaşık bir soru sorarsanız ya da farklı bir üslupla konuşmasını isteyen bir ön istem eklerseniz hâlâ yüklenmesi zaman alıyor
İlginç olsa da sonunda başarısız bir iş olma olasılığı yüksek görünüyor
Sayfa belirli yazı tiplerine erişemezse çalışmayı başaramıyor ve isteği sürekli yeniden deniyor
Tarayıcım bu fiilî izleyicileri varsayılan olarak engellediği için fark ettim
https://fonts.gstatic.com/s/notosansarabic/[...]
https://fonts.gstatic.com/s/notosanshebrew/[...]
https://fonts.gstatic.com/s/notosanssc/[...]
- Google izleyicilerini web sitesine doğrudan kurmadan, satın alma hedefi olarak ne kadar popüler ve ilginç olduğunuzu Google'a göstermenin bir yolu gibi
- Gizlilik eklentisiyle yazı tipi ikamesi kullanmaya çalışsanız da aynı sorun ortaya çıkıyor
  Böyle bir bağımlılığın olması epey tuhaf
Bu alanda biraz saf kalmış olabilirim, sormak istiyorum: Bu neden etkileyici?
Yanıtları hızlandırmak için daha fazla hesaplama gücü eklemek yeterli değil mi? Yük altında kuyruk oluşması, birim zamanda işlenebilecek istek sayısı ile daha hızlı yanıt vermek için ayrılan hesaplama miktarı arasındaki ödünleşimi göstermiyor mu sadece? NVIDIA'nın şu grafiği, H100'ün llama v2 70B'yi 500 tok/s'nin üzerinde çalıştırdığı anlamına geliyor gibi görünüyor
https://raw.githubusercontent.com/NVIDIA/TensorRT-LLM/rel/do...
- Hesaplamayı artırırsanız işlem hacmi iyileşebilir, ancak token'lar arası gecikme kolay kolay iyileşmez
  Üretimde darboğaz genellikle her token için ağdan geçmenin aldığı süredir. Bunu hızlandırmak için hesaplamanın kendisini daha hızlı yapmak gerekir; en hızlı hızlandırıcıları kullanma veya önbellek gibi bariz seçenekleri tükettikten sonra bu zor bir probleme dönüşür
- LLM çıkarımı doğası gereği sıralı bir problemdir
  Daha fazla paralelleştirmek onu hızlandırmaz. 100. token'ı üretmeden 101. token'ı üretemezsiniz
- Token işlem hacmi ile gecikme farklı şeylerdir
  Token işlem hacmi tüm GPU/sistemin işlem hacmidir; gecikme ise tekil kullanıcı bazında token işlem hacmidir. Groq son derece düşük gecikme, yani kullanıcı başına çok yüksek token işlem hacmi sunuyor, ancak tüm sistemin toplam token işlem hacmi rakamı henüz yok. Buna karşılık buradaki Nvidia metriği tüm GPU/sistemin token işlem hacmini gösteriyor. H100 üzerinde gerçekten 1,5k t/s elde edebilseniz bile, gecikme açısından kullanıcı başına token işlem hacmi 20 t/s gibi çok daha düşük olabilir. Asıl önemli metrik token başına maliyettir. Groq'nun düşük gecikmeyle çalıştırabiliyor olması, bunu ucuza yapabildiği anlamına gelmez. Yararlı bir yaklaşık yöntem, sistem maliyetini sistem genelindeki saniye başına token işlem hacmine bölmektir; ancak Groq sisteminin toplam saniye başına token işlem hacmi olmadığı için verimlilik hakkında konuşmak zor. Şu anda PR için sistem maliyetini sübvanse ediyor, sonra fiyatları artırıyor da olabilirler
- Sonuçta bunun metindeki altyapı maliyetinin ne olduğuna bağlı olduğu anlaşılıyor
  H100'ün üretim maliyeti yalnızca yaklaşık 3.300 dolar, ama ortalama yaklaşık 30 bin dolara satılıyor
  https://www.hpcwire.com/2023/08/17/nvidia-h100-are-550000-gp...
- Nvidia sanırım toplu işleme bazında maksimum işlem hacmini yazmış. Örneğin aynı anda 10 farklı istem için her biri 50 tok/s gibi
  Groq LPU saf hızda H100'ü kesinlikle geride bırakıyor. Ama temelde fiyatı 500 kat, hızı 10 kat olan bir sistem; blockchain işleten bir şirketin, aslında kripto para madenciliği için tasarlanmış çipleri LLM çıkarımı için agresif biçimde pazarlaması gibi görünüyor. Her hafta biri şaşırıp bu bağlantıyı paylaştığında yorumlarda Groq mühendislerinin bekliyor olup her türlü yanıtı vermeye hazır olması da oldukça komik bir tesadüf
Bunun x.ai'nin sağladığı Grok modeliyle hiçbir ilgisi yok mu?
Denedim, hızı çok etkileyici
- Elon ile hiçbir ilgisi yok; Groq adını önce biz kullandık
  Yapay zeka alanında hacker ruhuyla bağlantısı nedeniyle doğal bir isim seçimi, ama marka bizde, Elon'da değil
  https://wow.groq.com/hey-elon-its-time-to-cease-de-grok/
- Bu yorum olmasaydı Twitter'ın yaptığı bir şey sanırdım
- LLM kullanarak çocukla konuşan Grok adlı bir çocuk oyuncağı da var
Groq da Mixtral da insanın ağzını açık bırakacak kadar iyi
Şu istemi denedim: /frontend altında yarn ile paketlenen ve vite ile derlenip /backend/public içine konan bir Node frontend'i olan, backend'i ise Python Flask sunucusu olan hibrit frontend/backend projesi için bir GitLab CI yaml dosyası oluştur
- Buna rağmen basit Python kodunda hata yaptı
  particles = np.zeros((2, 3)) # position, velocity, and acceleration
  particles[:, 0] = [0.0, 0.0, 0.0] # initial position

Groq, Mixtral 8x7B-32k’yi 500 T/s hızında çalıştırıyor

Hızlı ve düşük maliyetli çıkarım platformu

LPU ile oluşturulmuş çıkarıma özel stack

Dünya genelindeki veri merkezleri ve GroqCloud

OpenAI uyumlu geliştirici entegrasyonu

Müşteri örnekleri ve ortaklıklar

Birlikte yayımlanan haber öğeleri

İlgili okumalar

1 yorum

Hacker News yorumları