5 puan yazan GN⁺ 2026-02-21 | 2 yorum | WhatsApp'ta paylaş
  • Taalas, AI modellerini özel silikon çiplere dönüştüren bir platform geliştirerek, modeli donanımda hayata geçirmek için yalnızca iki ay gerektiğini söylüyor
  • İlk ürün olan Llama 3.1 8B hardwired model, saniyede 17K token işliyor; mevcut yaklaşımlara göre 10 kat daha hızlı, 20 kat daha ucuz ve güç tüketimi 10'da 1 seviyesinde
  • Düşük güç, düşük maliyet ve yüksek hızlı çıkarım sağlıyor; bellek ile hesaplamayı birleştiren yeni çip mimarisiyle mevcut GPU tabanlı sistemlerin karmaşıklığını ortadan kaldırıyor
  • Taalas, bu yaklaşımla yapay zekanın gerçek zamanlı hale gelmesini ve kitleselleşmesini hızlandırırken, geliştiricilerin ultra düşük gecikme ve ultra düşük maliyet ortamlarında yeni uygulamaları denemesine olanak tanıyor

Yapay zekanın mevcut sınırları ve ihtiyaçlar

  • Yapay zeka artık belirli alanlarda insanı aşıyor, ancak gecikme (latency) ve maliyet (cost) kitlesel kullanımın önündeki en büyük engeller olarak görülüyor
    • Dil modelleriyle etkileşim insan düşünme hızından daha yavaş kalıyor ve kodlama yardımcıları yanıt için dakikalarca bekletebiliyor
    • Otomasyon odaklı ajan tipi yapay zeka milisaniye düzeyinde tepki gerektiriyor, ancak mevcut sistemler bunu karşılayamıyor
  • En yeni modellerin dağıtımı, yüzlerce kW güç ile karmaşık soğutma, paketleme ve bellek yapıları gerektiren büyük süper bilgisayar ölçeğinde altyapı istiyor
    • Bu yapı, şehir ölçeğinde veri merkezleri ve uydu ağlarına kadar genişleyerek işletme maliyetlerinde patlamaya yol açıyor
  • Taalas, geçmişte ENIAC'tan transistöre geçişte olduğu gibi, yapay zekanın da verimli ve düşük maliyetli yapılara evrilmesi gerektiğini vurguluyor

Taalas'ın teknoloji felsefesi

  • Kuruluşundan 2,5 yıl sonra Taalas, AI modellerini özel silikona dönüştüren platformunu tamamladı
    • Yeni bir modeli aldıktan sonra 2 ay içinde donanıma dönüştürebiliyor
    • Ortaya çıkan Hardcore Models, mevcut yazılım tabanlı yaklaşımlara kıyasla hız, maliyet ve güç verimliliğinde 10 kata varan iyileşme sunuyor
  • Üç temel ilke ortaya koyuyor
    1. Tam uzmanlaşma (Total specialization)
      • Her AI modeli için optimize edilmiş silikon üreterek uç düzey verimlilik elde etmek
    2. Depolama ve hesaplamanın birleştirilmesi (Merging storage and computation)
      • DRAM ile hesaplama çipleri arasındaki ayrımdan doğan darboğazı ortadan kaldırıp, tek çip içinde DRAM yoğunluğu düzeyinde birleşik yapı kurmak
    3. Radikal sadeleştirme (Radical simplification)
      • HBM, 3D stacking, liquid cooling gibi karmaşık teknolojileri çıkararak sistem maliyetini tek haneli seviyelere indirmek

İlk ürün: Llama 3.1 8B hardwired model

  • Dünyanın en hızlı, en düşük maliyetli ve en düşük güç tüketimli çıkarım platformu olarak tanıtılıyor
    • Llama 3.1 8B modeli doğrudan silikonda uygulanarak saniyede 17K token işleme, mevcut duruma göre 10 kat hız, 20 kat daha düşük üretim maliyeti ve 10 kat daha az güç tüketimi sağlıyor
  • Açık kaynak model tabanıyla pratiklik ve geliştirme kolaylığı sunuyor
    • Context window boyutu ayarlama ve LoRA tabanlı ince ayar (fine-tuning) desteği var
    1. nesil çip, 3-bit ve 6-bit karışık quantization kullanıyor; bu nedenle GPU'ya kıyasla bir miktar kalite kaybı bulunuyor
      1. nesil silikon (HC2), standart 4-bit floating-point formatını benimseyerek kalite ve verimliliği iyileştiriyor

Gelecekteki model yol haritası

  • İkinci model, orta ölçekli bir akıl yürütme odaklı LLM olacak; ilkbaharda laboratuvarda tamamlandıktan sonra çıkarım hizmetine entegre edilmesi planlanıyor
  • Üçüncü model, HC2 platformu tabanlı frontier düzeyinde bir LLM olacak; daha yüksek yoğunluk ve hız sunacak ve kışın dağıtıma çıkacak

Geliştirici erişilebilirliği ve ekip yapısı

  • Şu anda beta hizmet olarak sunulan Llama modeli, ultra düşük gecikme ve ultra düşük maliyet ortamını deneyimleme imkanı veriyor
  • Taalas, ilk ürününü 24 kişilik ekip ve 30 milyon dolarlık maliyetle tamamladı; bunu keskin hedef belirleme ve odaklı icranın sonucu olarak sunuyor
  • Ekip, 20 yılı aşkın süredir birlikte çalışan küçük bir uzman grubundan oluşuyor ve kalite, hassasiyet ve zanaatkarlığa önem veriyor

Sonuç: Yapay zekanın gerçek zamanlı hale gelmesi ve kitleselleşmesi

  • Taalas'ın teknolojisi, performans, güç verimliliği ve maliyette sıçramalı ilerleme sunuyor
  • GPU merkezli mevcut yapılardan farklı yeni bir AI sistem mimarisi felsefesi öneriyor
  • Gecikme ve maliyet bariyerlerini kaldırarak, geliştiricilere yapay zekayı gerçek zamanlı kullanabilecekleri bir ortam sağlıyor
  • Gelecekte daha güçlü modellerle genişleyerek, yapay zekaya evrensel erişimi gerçekleştirme yönünde ilerlemeyi hedefliyor

2 yorum

 
colus001 2026-02-21

Ne kadar anlamlı olur bilmiyorum. Piyasa hype'ı sevdiği için fonlamayı iyi alır muhtemelen, ama herkes birbiri ardına yeni modeller çıkarırken 2 ay bile insana çok uzun bir süre gibi geliyor.

 
GN⁺ 2026-02-21
Hacker News görüşleri
  • Bu çip genel amaçlı değil, yüksek hızlı ve düşük gecikmeli çıkarım için özelleştirilmiş bir tasarım
    8B dense 3bit quant (Llama 3.1) için saniyede 15k token işliyor; 6nm süreçte 880mm² die, 53B transistör, yaklaşık 200W tüketim, üretim maliyeti 20 kat daha ucuz ve token başına enerji tüketimi 10 kat daha düşük
    Kurucu ekip AMD ve Nvidia çıkışlı, 25 yıllık deneyime sahip; VC yatırımı olarak 200 milyon dolar toplamış
    mm² başına yaklaşık 0.2 dolar hesabıyla 1 milyar parametre başına yaklaşık 20 dolar seviyesinde; büyük die'larda verim düşüyor
    Ayrıntılar için kurucu röportajına bakılabilir
    10k token altındaki ultra düşük gecikmeli uygulamalar için uygun ve ilkbahardaki çıkışla birlikte VC sermayesinin akması muhtemel

    • Matematik hesabı faydalı. Saniyede 16k token inanılmaz bir hız ve bu, yeni bir ürün kategorisi olarak görülebilir
      Nvidia H200 yaklaşık 12k tok/s veriyor ama bu batch işleme olduğundan ilk token gecikmesi çok daha yüksek
      Taalas milisaniye düzeyinde yanıt verdiği için gerçek zamanlı ses ve video üretimine uygun
      Yine de 2 ay içinde çip üretimi aşırı iyimser görünüyor. Buna rağmen v3 sürümünün gerçek API isteklerini işleyecek seviyeye gelmesi bekleniyor
    • 20 dolarlık bir die ise bunun model bazında Game Boy kartuşu gibi satılabileceği şakası yapılıyor
    • Recursive Language Model(makale bağlantısı) kullanılırsa bağlam sınırını telafi edip edemeyeceği merak ediliyor
      Token tüketimi yüksek ama token ucuzsa doğruluk artışı için avantajlı olabilir
    • 880mm², M1 Ultra'dan büyük ve H100'den de büyük
      Die boyutu arttıkça verim düşüyor; birkaç bit hatasının gerçekten büyük bir sorun olup olmayacağı sorgulanıyor
    • Bu tür çiplerle akıllı robotların nasıl gelişeceği ilgi çekici
  • Yorumlar model doğruluğunu tartışıyor ama bunun Llama 3.1 8B modeli olduğunu anlamamış gibiler
    Asıl mesele model değil, özelleştirilmiş donanım performansı
    Üzerine GLM-5 gibi yeni bir model konulursa gerçekten etkileyici olabilir
    Yanıtlar neredeyse “Enter’a basar basmaz” gelecek kadar anlık
    Ancak modeli değiştirince donanımın da tamamen değişmesi gerekmesi, pazardaki karşılığını etkileyebilir

    • Fiyat bilgisi bu görselde yer alıyor
      Şimdilik piyasa tepkisini ölçmeye dönük keşif niteliğinde bir fiyatlandırma gibi görünüyor
      Esneklik yerine maksimum hız seçilmiş ama LoRA tabanlı fine-tuning desteklendiği söyleniyor
      Basit veri etiketleme ya da büyük ölçekli paralel işleme için çok kullanışlı olacaktır
    • Kişisel olarak Cerebras’ın çok daha ileride olduğu düşünülüyor. tok/s karşılaştırması uygun bulunmuyor
  • ChatJimmy demosu denenmiş ve yanıtların göz açıp kapayıncaya kadar gelmesi şaşırtıcı bulunmuş
    chatjimmy.ai

    • Bir kedi için denizaltı tasarlaması istenmiş ve anında yanıt vermiş
      İçerik de beklenmedik şekilde ayrıntılı ve faydalıymış
    • Bu hızla, test geçene kadar otomatik yinelemeli kod üretimi mümkün olabilir
      Tamamen yeni bir geliştirme biçiminin önü açılabilir
    • Yatırımcı olunsa OpenAI yerine ChatJimmy’ye yatırım yapılması gerektiği söyleniyor
    • Ancak dosya ekleme özelliği çalışmamış ve bağlam anlama biraz kaymış
    • Saniyede 16.000 token hızını bizzat doğruladığını söyleyip hayranlık ifade ediliyor
  • Birçok kişi şüpheci ama frontier olmayan modeller için de yeterince talep var
    Sadece Llama 3.1 etkinlik grafiğine bakılsa bile haftalık %22 büyüme görülüyor
    Gecikme azalırsa web sayfası yüklenme düzeyinde bile LLM kullanılabilir

    • Frontier modeller için de pazar olabilir. Örneğin Anthropic, Opus 4.6’yı çipe işlerse çıkarım maliyetini düşürebilir
    • Eski modeller hâlâ yaratıcı işler için güçlü. Yeni modeller kod ve akıl yürütme odaklı ayarlandığı için yaratıcılık azalmış durumda
    • Yapılandırılmış içerik çıkarımı veya Markdown dönüşümü gibi işler için ideal
      Bu çip, LLM’leri gerçek zamanlı arayüze dönüştürüyor
    • Robotlar gibi düşük gecikme ve dar görev yolu gerektiren alanlar için de uygun
  • Bu kadar hızlı yanlış cevap görülmediğine dair şaka yapılıyor ama teknoloji çok umut verici
    8B model küçük olsa da uzun vadede büyük bir pazar olabilir

    • Soruyu cevaplayamadı ama bunu inanılmaz derecede hızlı yapamadı denecek kadar hızlıydı
      Şu an kullanışsız olsa da tamamen yeni bir his veren bir teknoloji
    • Qwen 2.5 için çıkarsa hemen alınabileceği söyleniyor
      Gerçek işlerde frontier model her zaman şart değil
    • 7~9B modeller de yeterince iyi. Birden fazla modele paralel sorgu gönderip uzlaşma temelli doğruluğu artırmak önemli
      80B üstünde fark iyice küçülüyor
    • Yazım hatası işaret edilerek mizahi bir tepki veriliyor
  • Böyle bir kartın kişisel bilgisayara takılıp Claude Code yerine geçip geçemeyeceği hayal ediliyor
    Saniyede 17k token ile birden fazla ajan pipeline aynı anda çalıştırılabilir
    Her ajan kod düzeltme ve doğrulama rolünü üstlenip hızlı yinelemeli iyileştirme sağlayabilir
    En iyi model olmasa bile orta seviye bir modeli birkaç kez döndürerek daha iyi sonuç alınıp alınamayacağı merak ediliyor

    • Sonuç kalitesini belirleyen şey modelin kendisinden çok araçlar ve harness
      Hızlı token çıkışı ile iyi tooling birleşirse frontier modellerle aradaki fark kapanabilir
    • Ancak modelin kendi çıktısına dayanarak kendini iyileştirmesi mümkün değil. Gerçekliğe dayalı öğrenme gerekiyor
  • Düzeltilmiş bilgiye göre aslında bu, modelin silikona işlendiği tek çipli bir yapı
    Llama 8B q3 modelinin 1k bağlamla çipe işlendiği anlaşılıyor ve 10 çip (toplam 2.4kW) gerekiyor
    Model değiştirilemediği için yalnızca uzun süre sabit kalan görevler için uygun

    • Veri etiketleme gibi 100 token altındaki kısa problemler için ideal
    • RAG ya da ajan tabanlı aramayı daha yoğun kullanan model tasarımları da mümkün görünüyor
    • Model değiştirme döngüsünün çok hızlı olduğu bugünlerde, 6 aydan uzun süren çip üretimi pratikte zor
    • Genel NLP işlerine uygulanabilir
    • Video oyunları için NPC çipi olarak da uygun olabilir
  • Saniyede 17k token, sadece dağıtım verimliliği değil, değerlendirme yöntemini bile değiştiren bir hız
    MMLU gibi mevcut statik benchmark’lar insan hızına göre tasarlanmıştı; bu düzeyde ise on binlerce etkileşimli test yapılabilir hale geliyor
    Hız arttıkça eski değerlendirme yöntemlerinin daha da uygunsuz hale geldiğini gösteriyor

  • Chatbot denenmiş ve 15k tok/s hızında uzun yanıtların anında gelmesi sarsıcı bulunmuş
    Yerel kodlama için bunun frontier model sürümü isteniyor

    • Okuması 2 dakika sürecek bir metnin 1 saniyeden kısa sürede üretilmesi akıl almaz bir manzara olarak anlatılıyor
    • Uzaylı uygarlıklarını bulamamamızın sebebinin onların farklı zaman ölçeğinde çalışması olduğu şakası akla geliyor
    • Bu hız akıl yürütme döngülerine veya kod üretim harness’lerine uygulanırsa yapay zekada yenilik patlaması yaşanabilir
  • Olumsuz tepkiler de var ama düşük gecikmeli modellere ihtiyaç duyan çok sayıda uygulama mevcut
    Örneğin serbest metin aramayı yapılandırılmış sorguya dönüştürme işi, mevcut modellerin gecikmesi yüzünden mümkün olmuyordu
    Bu tür çipler, kullanıcının hissettiği anlık düzeyde yapay zeka tepkisini mümkün kılıyor