Yapay zekanın yaygınlaşmasına giden yol (saniyede 17K token)

(taalas.com)

5 puan yazan GN⁺ 2026-02-21 | 2 yorum | WhatsApp'ta paylaş

Taalas, AI modellerini özel silikon çiplere dönüştüren bir platform geliştirerek, modeli donanımda hayata geçirmek için yalnızca iki ay gerektiğini söylüyor
İlk ürün olan Llama 3.1 8B hardwired model, saniyede 17K token işliyor; mevcut yaklaşımlara göre 10 kat daha hızlı, 20 kat daha ucuz ve güç tüketimi 10'da 1 seviyesinde
Düşük güç, düşük maliyet ve yüksek hızlı çıkarım sağlıyor; bellek ile hesaplamayı birleştiren yeni çip mimarisiyle mevcut GPU tabanlı sistemlerin karmaşıklığını ortadan kaldırıyor
Taalas, bu yaklaşımla yapay zekanın gerçek zamanlı hale gelmesini ve kitleselleşmesini hızlandırırken, geliştiricilerin ultra düşük gecikme ve ultra düşük maliyet ortamlarında yeni uygulamaları denemesine olanak tanıyor

Yapay zekanın mevcut sınırları ve ihtiyaçlar

Yapay zeka artık belirli alanlarda insanı aşıyor, ancak gecikme (latency) ve maliyet (cost) kitlesel kullanımın önündeki en büyük engeller olarak görülüyor
- Dil modelleriyle etkileşim insan düşünme hızından daha yavaş kalıyor ve kodlama yardımcıları yanıt için dakikalarca bekletebiliyor
- Otomasyon odaklı ajan tipi yapay zeka milisaniye düzeyinde tepki gerektiriyor, ancak mevcut sistemler bunu karşılayamıyor
En yeni modellerin dağıtımı, yüzlerce kW güç ile karmaşık soğutma, paketleme ve bellek yapıları gerektiren büyük süper bilgisayar ölçeğinde altyapı istiyor
- Bu yapı, şehir ölçeğinde veri merkezleri ve uydu ağlarına kadar genişleyerek işletme maliyetlerinde patlamaya yol açıyor
Taalas, geçmişte ENIAC'tan transistöre geçişte olduğu gibi, yapay zekanın da verimli ve düşük maliyetli yapılara evrilmesi gerektiğini vurguluyor

Taalas'ın teknoloji felsefesi

Kuruluşundan 2,5 yıl sonra Taalas, AI modellerini özel silikona dönüştüren platformunu tamamladı
- Yeni bir modeli aldıktan sonra 2 ay içinde donanıma dönüştürebiliyor
- Ortaya çıkan Hardcore Models, mevcut yazılım tabanlı yaklaşımlara kıyasla hız, maliyet ve güç verimliliğinde 10 kata varan iyileşme sunuyor
Üç temel ilke ortaya koyuyor
1. Tam uzmanlaşma (Total specialization)
  - Her AI modeli için optimize edilmiş silikon üreterek uç düzey verimlilik elde etmek
2. Depolama ve hesaplamanın birleştirilmesi (Merging storage and computation)
  - DRAM ile hesaplama çipleri arasındaki ayrımdan doğan darboğazı ortadan kaldırıp, tek çip içinde DRAM yoğunluğu düzeyinde birleşik yapı kurmak
3. Radikal sadeleştirme (Radical simplification)
  - HBM, 3D stacking, liquid cooling gibi karmaşık teknolojileri çıkararak sistem maliyetini tek haneli seviyelere indirmek

İlk ürün: Llama 3.1 8B hardwired model

Dünyanın en hızlı, en düşük maliyetli ve en düşük güç tüketimli çıkarım platformu olarak tanıtılıyor
- Llama 3.1 8B modeli doğrudan silikonda uygulanarak saniyede 17K token işleme, mevcut duruma göre 10 kat hız, 20 kat daha düşük üretim maliyeti ve 10 kat daha az güç tüketimi sağlıyor
Açık kaynak model tabanıyla pratiklik ve geliştirme kolaylığı sunuyor
- Context window boyutu ayarlama ve LoRA tabanlı ince ayar (fine-tuning) desteği var
1. nesil çip, 3-bit ve 6-bit karışık quantization kullanıyor; bu nedenle GPU'ya kıyasla bir miktar kalite kaybı bulunuyor
- 1. nesil silikon (HC2), standart 4-bit floating-point formatını benimseyerek kalite ve verimliliği iyileştiriyor

Gelecekteki model yol haritası

İkinci model, orta ölçekli bir akıl yürütme odaklı LLM olacak; ilkbaharda laboratuvarda tamamlandıktan sonra çıkarım hizmetine entegre edilmesi planlanıyor
Üçüncü model, HC2 platformu tabanlı frontier düzeyinde bir LLM olacak; daha yüksek yoğunluk ve hız sunacak ve kışın dağıtıma çıkacak

Geliştirici erişilebilirliği ve ekip yapısı

Şu anda beta hizmet olarak sunulan Llama modeli, ultra düşük gecikme ve ultra düşük maliyet ortamını deneyimleme imkanı veriyor
- chatjimmy.ai demosu ve API hizmeti üzerinden kullanılabiliyor
Taalas, ilk ürününü 24 kişilik ekip ve 30 milyon dolarlık maliyetle tamamladı; bunu keskin hedef belirleme ve odaklı icranın sonucu olarak sunuyor
Ekip, 20 yılı aşkın süredir birlikte çalışan küçük bir uzman grubundan oluşuyor ve kalite, hassasiyet ve zanaatkarlığa önem veriyor

Sonuç: Yapay zekanın gerçek zamanlı hale gelmesi ve kitleselleşmesi

Taalas'ın teknolojisi, performans, güç verimliliği ve maliyette sıçramalı ilerleme sunuyor
GPU merkezli mevcut yapılardan farklı yeni bir AI sistem mimarisi felsefesi öneriyor
Gecikme ve maliyet bariyerlerini kaldırarak, geliştiricilere yapay zekayı gerçek zamanlı kullanabilecekleri bir ortam sağlıyor
Gelecekte daha güçlü modellerle genişleyerek, yapay zekaya evrensel erişimi gerçekleştirme yönünde ilerlemeyi hedefliyor

2 yorum

colus001 2026-02-21

Ne kadar anlamlı olur bilmiyorum. Piyasa hype'ı sevdiği için fonlamayı iyi alır muhtemelen, ama herkes birbiri ardına yeni modeller çıkarırken 2 ay bile insana çok uzun bir süre gibi geliyor.

GN⁺ 2026-02-21

Hacker News görüşleri

Bu çip genel amaçlı değil, yüksek hızlı ve düşük gecikmeli çıkarım için özelleştirilmiş bir tasarım
8B dense 3bit quant (Llama 3.1) için saniyede 15k token işliyor; 6nm süreçte 880mm² die, 53B transistör, yaklaşık 200W tüketim, üretim maliyeti 20 kat daha ucuz ve token başına enerji tüketimi 10 kat daha düşük
Kurucu ekip AMD ve Nvidia çıkışlı, 25 yıllık deneyime sahip; VC yatırımı olarak 200 milyon dolar toplamış
mm² başına yaklaşık 0.2 dolar hesabıyla 1 milyar parametre başına yaklaşık 20 dolar seviyesinde; büyük die'larda verim düşüyor
Ayrıntılar için kurucu röportajına bakılabilir
10k token altındaki ultra düşük gecikmeli uygulamalar için uygun ve ilkbahardaki çıkışla birlikte VC sermayesinin akması muhtemel
- Matematik hesabı faydalı. Saniyede 16k token inanılmaz bir hız ve bu, yeni bir ürün kategorisi olarak görülebilir
  Nvidia H200 yaklaşık 12k tok/s veriyor ama bu batch işleme olduğundan ilk token gecikmesi çok daha yüksek
  Taalas milisaniye düzeyinde yanıt verdiği için gerçek zamanlı ses ve video üretimine uygun
  Yine de 2 ay içinde çip üretimi aşırı iyimser görünüyor. Buna rağmen v3 sürümünün gerçek API isteklerini işleyecek seviyeye gelmesi bekleniyor
- 20 dolarlık bir die ise bunun model bazında Game Boy kartuşu gibi satılabileceği şakası yapılıyor
- Recursive Language Model(makale bağlantısı) kullanılırsa bağlam sınırını telafi edip edemeyeceği merak ediliyor
  Token tüketimi yüksek ama token ucuzsa doğruluk artışı için avantajlı olabilir
- 880mm², M1 Ultra'dan büyük ve H100'den de büyük
  Die boyutu arttıkça verim düşüyor; birkaç bit hatasının gerçekten büyük bir sorun olup olmayacağı sorgulanıyor
- Bu tür çiplerle akıllı robotların nasıl gelişeceği ilgi çekici
Yorumlar model doğruluğunu tartışıyor ama bunun Llama 3.1 8B modeli olduğunu anlamamış gibiler
Asıl mesele model değil, özelleştirilmiş donanım performansı
Üzerine GLM-5 gibi yeni bir model konulursa gerçekten etkileyici olabilir
Yanıtlar neredeyse “Enter’a basar basmaz” gelecek kadar anlık
Ancak modeli değiştirince donanımın da tamamen değişmesi gerekmesi, pazardaki karşılığını etkileyebilir
- Fiyat bilgisi bu görselde yer alıyor
  Şimdilik piyasa tepkisini ölçmeye dönük keşif niteliğinde bir fiyatlandırma gibi görünüyor
  Esneklik yerine maksimum hız seçilmiş ama LoRA tabanlı fine-tuning desteklendiği söyleniyor
  Basit veri etiketleme ya da büyük ölçekli paralel işleme için çok kullanışlı olacaktır
- Kişisel olarak Cerebras’ın çok daha ileride olduğu düşünülüyor. tok/s karşılaştırması uygun bulunmuyor
ChatJimmy demosu denenmiş ve yanıtların göz açıp kapayıncaya kadar gelmesi şaşırtıcı bulunmuş
chatjimmy.ai
- Bir kedi için denizaltı tasarlaması istenmiş ve anında yanıt vermiş
  İçerik de beklenmedik şekilde ayrıntılı ve faydalıymış
- Bu hızla, test geçene kadar otomatik yinelemeli kod üretimi mümkün olabilir
  Tamamen yeni bir geliştirme biçiminin önü açılabilir
- Yatırımcı olunsa OpenAI yerine ChatJimmy’ye yatırım yapılması gerektiği söyleniyor
- Ancak dosya ekleme özelliği çalışmamış ve bağlam anlama biraz kaymış
- Saniyede 16.000 token hızını bizzat doğruladığını söyleyip hayranlık ifade ediliyor
Birçok kişi şüpheci ama frontier olmayan modeller için de yeterince talep var
Sadece Llama 3.1 etkinlik grafiğine bakılsa bile haftalık %22 büyüme görülüyor
Gecikme azalırsa web sayfası yüklenme düzeyinde bile LLM kullanılabilir
- Frontier modeller için de pazar olabilir. Örneğin Anthropic, Opus 4.6’yı çipe işlerse çıkarım maliyetini düşürebilir
- Eski modeller hâlâ yaratıcı işler için güçlü. Yeni modeller kod ve akıl yürütme odaklı ayarlandığı için yaratıcılık azalmış durumda
- Yapılandırılmış içerik çıkarımı veya Markdown dönüşümü gibi işler için ideal
  Bu çip, LLM’leri gerçek zamanlı arayüze dönüştürüyor
- Robotlar gibi düşük gecikme ve dar görev yolu gerektiren alanlar için de uygun
Bu kadar hızlı yanlış cevap görülmediğine dair şaka yapılıyor ama teknoloji çok umut verici
8B model küçük olsa da uzun vadede büyük bir pazar olabilir
- Soruyu cevaplayamadı ama bunu inanılmaz derecede hızlı yapamadı denecek kadar hızlıydı
  Şu an kullanışsız olsa da tamamen yeni bir his veren bir teknoloji
- Qwen 2.5 için çıkarsa hemen alınabileceği söyleniyor
  Gerçek işlerde frontier model her zaman şart değil
- 7~9B modeller de yeterince iyi. Birden fazla modele paralel sorgu gönderip uzlaşma temelli doğruluğu artırmak önemli
  80B üstünde fark iyice küçülüyor
- Yazım hatası işaret edilerek mizahi bir tepki veriliyor
Böyle bir kartın kişisel bilgisayara takılıp Claude Code yerine geçip geçemeyeceği hayal ediliyor
Saniyede 17k token ile birden fazla ajan pipeline aynı anda çalıştırılabilir
Her ajan kod düzeltme ve doğrulama rolünü üstlenip hızlı yinelemeli iyileştirme sağlayabilir
En iyi model olmasa bile orta seviye bir modeli birkaç kez döndürerek daha iyi sonuç alınıp alınamayacağı merak ediliyor
- Sonuç kalitesini belirleyen şey modelin kendisinden çok araçlar ve harness
  Hızlı token çıkışı ile iyi tooling birleşirse frontier modellerle aradaki fark kapanabilir
- Ancak modelin kendi çıktısına dayanarak kendini iyileştirmesi mümkün değil. Gerçekliğe dayalı öğrenme gerekiyor
Düzeltilmiş bilgiye göre aslında bu, modelin silikona işlendiği tek çipli bir yapı
Llama 8B q3 modelinin 1k bağlamla çipe işlendiği anlaşılıyor ve 10 çip (toplam 2.4kW) gerekiyor
Model değiştirilemediği için yalnızca uzun süre sabit kalan görevler için uygun
- Veri etiketleme gibi 100 token altındaki kısa problemler için ideal
- RAG ya da ajan tabanlı aramayı daha yoğun kullanan model tasarımları da mümkün görünüyor
- Model değiştirme döngüsünün çok hızlı olduğu bugünlerde, 6 aydan uzun süren çip üretimi pratikte zor
- Genel NLP işlerine uygulanabilir
- Video oyunları için NPC çipi olarak da uygun olabilir
Saniyede 17k token, sadece dağıtım verimliliği değil, değerlendirme yöntemini bile değiştiren bir hız
MMLU gibi mevcut statik benchmark’lar insan hızına göre tasarlanmıştı; bu düzeyde ise on binlerce etkileşimli test yapılabilir hale geliyor
Hız arttıkça eski değerlendirme yöntemlerinin daha da uygunsuz hale geldiğini gösteriyor
Chatbot denenmiş ve 15k tok/s hızında uzun yanıtların anında gelmesi sarsıcı bulunmuş
Yerel kodlama için bunun frontier model sürümü isteniyor
- Okuması 2 dakika sürecek bir metnin 1 saniyeden kısa sürede üretilmesi akıl almaz bir manzara olarak anlatılıyor
- Uzaylı uygarlıklarını bulamamamızın sebebinin onların farklı zaman ölçeğinde çalışması olduğu şakası akla geliyor
- Bu hız akıl yürütme döngülerine veya kod üretim harness’lerine uygulanırsa yapay zekada yenilik patlaması yaşanabilir
Olumsuz tepkiler de var ama düşük gecikmeli modellere ihtiyaç duyan çok sayıda uygulama mevcut
Örneğin serbest metin aramayı yapılandırılmış sorguya dönüştürme işi, mevcut modellerin gecikmesi yüzünden mümkün olmuyordu
Bu tür çipler, kullanıcının hissettiği anlık düzeyde yapay zeka tepkisini mümkün kılıyor