LongCat-2.0 tanıtıldı - Nvidia olmadan eğitilen 1,6 trilyon parametreli açık kaynak model

(longcat.chat)

3 puan yazan GN⁺ 6 시간 전 | 1 yorum | WhatsApp'ta paylaş

Toplam 1,6 trilyon (1.6T) parametreye ve token başına yaklaşık 48 milyar aktif parametreye sahip büyük ölçekli bir MoE dil modeli; açık kaynak olarak sunulurken mimaride de çeşitli iyileştirmeler getiriyor
Tüm eğitim ve büyük ölçekli dağıtım tamamen AI ASIC superpod üzerinde gerçekleştirildi; 35 trilyondan fazla tokenı kapsayan ön eğitim, geri alma ya da kurtarılamayan loss spike olmadan tamamlandı
LongCat Sparse Attention (LSA) ile yüz milyarlarca token ölçeğinde 1M context verisi eğitimi eklenerek uzun bağlamlı görev performansı güçlendirildi
Claude Code, OpenClaw, Hermes gibi ana akım harness'lerle sıkı entegrasyon sayesinde kod anlama, depo düzeyinde düzenleme, otomatik görev yürütme ve ajan iş akışlarında güçlü performans sunuyor
Nvidia GPU ekosistemine kıyasla daha az olgun alternatif donanım üzerinde frontier düzeyinde eğitimin mümkün olduğunu gösteriyor; altyapı ve sonradan yapılan eğitim optimizasyonlarının gerçek görev başarısına dönüştüğünü ortaya koyuyor

Model genel bakışı

1,6 trilyon parametre ölçeğinde büyük bir MoE dil modeli; token başına yalnızca yaklaşık 48 milyar parametreyi etkinleştirerek önceki LongCat modellere göre büyük bir ilerleme sağlıyor
Hem tüm eğitim çalıştırmaları hem de büyük ölçekli dağıtım AI ASIC superpod tabanlı olarak kuruldu
- Ön eğitim, milyonlarca accelerator-day ölçeğinde 35 trilyondan fazla token üzerinde yürütüldü ve rollback ya da kurtarılamayan loss spike olmadan tamamlandı
- Alternatif donanım platformlarında frontier düzeyinde eğitim yapabilme yeteneğini kanıtladı
Uzun vadeli görevleri güçlendirmek için LongCat Sparse Attention tanıtıldı ve yüz milyarlarca tokenlık 1M context verisiyle eğitildi
Claude Code, OpenClaw, Hermes gibi ana akım harness'lerle derin entegrasyon sağlayarak kod anlama, depo düzeyinde düzenleme, otomatik görev yürütme ve ajan iş akışları genelinde istikrarlı ve verimli bir işbirliği deneyimi sunuyor

Mimari

LongCat-Flash temeli üzerinde parametre verimliliğini daha da ileri taşıyor ve uzun bağlam eğitiminde/çıkarımında hızı artırıyor
Attention tarafında LongCat Sparse Attention (LSA) kullanılıyor
- DeepSeek Sparse Attention'ın evrilmiş bir biçimi olarak, daha hafif bir indexer ile model kalitesini bozmadan uzun bağlam işlemeyi hızlandırıyor
N-gram Embedding modülü eklendi
- N-gram token kombinasyonları üzerinden embedding alanını yaklaşık 100 kat genişleterek daha zengin yerel bağlam yakalama ve token düzeyinde temsil gücü sağlıyor

LongCat Sparse Attention

Ajan tabanlı uygulamaların yaygınlaşmasıyla LLM'ler, uzun girdileri verimli biçimde işleme yönüne kayıyor
- DSA bunu ince taneli sparse attention ile ele alıyor, ancak profilleme sonuçları DSA'nın Lightning Indexer bileşeninin çıktı süreksizliği ve ikinci dereceden (quadratic) scoring maliyeti nedeniyle temel darboğaz olarak kaldığını gösteriyor
LSA, indexer için birbirinden bağımsız (orthogonal) üç verimlilik iyileştirmesi getiriyor
- Streaming-aware Indexing (SI): Donanım hizalı ardışık erişim ile dinamik rastgele seçimi birleştirecek şekilde token seçim bütçesini yeniden düzenliyor; parçalı bellek erişimini öngörülebilir sıralı okumalara dönüştürerek coalesced HBM erişimi ve yüksek efektif bant genişliği sağlıyor
- Cross-Layer Indexing (CLI): Komşu katmanlar arasındaki attention saliency'nin ampirik kararlılığından yararlanarak indeksleme maliyetini dağıtıyor; çıkarım sırasında tek bir indeksleme geçişi birden fazla ardışık katmanda kullanılıyor ve bu, eğitim sırasında cross-layer distillation ile mümkün oluyor
- Hierarchical Indexing (HI): Önce blok düzeyinde yaklaşık scoring ile kaba recall, ardından adaylar içinde ince token seçimi yapan coarse-to-fine iki aşamalı scoring yapısı; LongCat-2.0'da eğitim gerektirmeden uygulanıyor ve seçili ultra uzun bağlam görevlerinde etkinleştiriliyor
Bu üç bileşen tasarım gereği bağımsız olduğundan tek tek açılıp kapatılabiliyor
Üç strateji, speculative decoding'i hızlandırmak için 3 aşamalı Multi-Token Prediction (MTP) modülüne de genişletildi
- Cross-Layer Indexing, draft ve target modelde farklı şekilde uygulanıyor; target modelde art arda iki katman tek bir indeksleme geçişini paylaşıyor
- Çok aşamalı MTP'de 3 draft step tek bir geçişi paylaşıyor; step 2 ve 3, step 1'in ürettiği index set'i yeniden kullanıyor

N-gram Embedding

LongCat-Flash-Lite'tan devralındı; parametre kullanım verimliliğini artırmak için parametreler, MoE'ye dik (orthogonal) bir sparse boyutta genişletiliyor
- n-gram boyutu 5 olarak ayarlandı; modelde 135B N-gram Embedding parametresi bulunuyor
Şu ölçekleme ilkelerine uyuyor
- MoE sparsity'si sweet spot'un ötesine geçti: N-gram Embedding olmasa bile sparsity yaklaşık %97'ye ulaşıyor; expert sayısını 135B artırmak çok sınırlı kazanç getirirken, aynı parametre ölçeğindeki N-gram Embedding standart expert'lere göre çok daha büyük fayda sağlıyor
- N-gram Embedding oranı optimal aralıkta tutuluyor: Ölçekleme deneyleri, n-gram embedding parametrelerinin toplam bütçede aşırı büyük pay alması halinde (%50 üzeri) expert genişletmeye göre avantajın azaldığını gösteriyor; LongCat-2.0'da bu oran sıkı biçimde %10'un altında tutuluyor
Çıkarım sırasında parametrelerin bir kısmını expert'lerden N-gram Embedding'e taşımak, büyük batch decoding'de bellek I/O'sunu azaltarak üretimi hızlandırıyor

AI ASIC superpod tabanlı ölçeklenebilir altyapı

Eğitim ve dağıtım, on binlerce AI ASIC'ten oluşan superpod tabanlı büyük bir küme üzerinde yapılıyor
Olgun Nvidia GPU ekosistemine kıyasla destekleyici yazılım topluluğu hâlâ daha az gelişmiş olduğundan, istikrarlı, güvenli ve ölçeklenebilir altyapı kurmak için önemli çaba harcandı

Eğitim (Training)

Ön eğitim 50 binden fazla AI ASIC üzerinde yapıldı; model ve küme ölçeği nedeniyle sistem düzeyinde zorluklar ortaya çıktı
- Sistematik optimizasyonlarla, naive uygulamaya kıyasla eğitim throughput'u %35'ten fazla artırılırken güvenilirlik de güçlendirildi
Determinism & Reliability
- Tekrarlanabilirliği sağlamak için iletişim ve hesaplama yolları boyunca determinism zorunlu kılındı; Embedding, FA, LSA ve MoE katmanlarını kapsayan özel deterministik operatörler ve modüller sağlandı
- Sayısal güvenilirlik için temel operatörler yeniden işlendi; örneğin tüm reduction türü işlemler, kayan nokta hata birikimini azaltmak için binary-tree bölmeli birikim stratejisi kullanıyor
  - Gerçek LLM iş yüklerinde accelerator hesaplama hassasiyeti, katı yüksek hassasiyetli baseline ile karşılaştırmalı olarak doğrulandı; aritmetik bütünlük ve üretime hazır olma durumu teyit edildi
  - Bazı hesaplama yoğun operatörlere bit-flip algılama eklendi, böylece donanımdaki bit flip anomalileri anında yakalanabiliyor
- Hata kurtarma tarafında, uçtan uca izleme sayesinde arıza tespiti, trafik yönlendirme ve kurtarma manuel müdahale olmadan yürütülüyor; kusurlu bağlantılar izole edildiğinde eğitime hissedilir bir etkisi olmuyor, onarılan bağlantılar ise stres testini geçtikten sonra tekrar kümeye katılıyor
Büyük ölçekte eğitim (Training at Scale)
- Accelerator başına bellek miktarı H800'den (80GB) belirgin biçimde daha düşük olduğundan, bellek ölçek büyütmenin ana darboğazı hâline geldi; buna paralelleştirme stratejileri ve bellek yönetimiyle birlikte yanıt verildi
- 6D paralelleştirme: Standart TP/CP/EP/DP/PP'nin ötesinde, N-gram Embeddings'i paralelleştirip hızlandıran EMBP eklendi
- Superpod: Eğitim, her biri en fazla 48 makineden oluşan fiziksel superpod'lar üzerinde yapılıyor; pod içi all-to-all yüksek bant genişliğine sahip, pod'lar arası ise RoCE fabric ile bağlanıyor; böylece yüksek bant genişliği gerektiren paralelleştirme türleri (TP/CP/EP) için iletişim alanı yüzlerce cihaza genişletiliyor
  - Aynı ölçek ve ortamda ön eğitim throughput'una yaklaşık %30 ek kazanç sağlıyor
  - Mantıksal superpod, affinity scheduling birimi olarak iletişim yerelliği ile planlanabilirlik arasında denge kuruyor
- Bellek optimizasyonu: ZeRO-1, seçmeli recomputation, allocator düzeyinde OOM-aware offloading ve padding token'ların zero-expert'e yönlendirilmesi kullanılıyor
- Muon optimizer: Accelerator üzerinde büyük ölçekte dağıtılıyor; TP paralelleştirmesi, DP state tekrarının kaldırılması ve verimli simetrik matris çarpımı kernel'leri genelinde hedefli optimizasyonlar uygulanıyor
Uzun bağlam eğitimi (Long Context Training)
- Büyük ölçekli uzun bağlam eğitiminin zorlukları üç açıdan ele alınıyor
- LSA operatörü ve forward optimizasyonu: Dense-warmup, sparse aşaması ve KL-loss operatörleri için özel deterministik attention operatörleri uygulandı; yalnızca forward çalışan dense-warmup stratejisiyle KL loss ve gradient tek bir forward pass içinde hesaplanarak verim artırıldı
- 1M context ölçekleme: CP'yi 512 ve üstüne genişletebilen all-gather tabanlı CP paralelleştirmesi ile native 1M uzunlukta eğitim sağlandı; get-batch aşamasında veri yeniden karıştırma ve dengeli CP stratejisiyle iş yükü dengesi korundu
- Hesaplama-iletişim örtüşmesi: Örneğin shortcut-layer mimarisi, MoE iletişimini paralel dal hesaplamasıyla örtüştürüyor; LSA top-k index hesaplaması da KV all-gather ile örtüştürülerek senkronizasyon ek yükü azaltılıyor

Çıkarım (Inference)

1M token context içinde 1,6T parametreli bir modeli servis etmek; HBM kapasitesi, HBM I/O bant genişliği ve düğümler arası interconnect bant genişliğinin katı kısıtları altında büyük bir zorluk. Buna model, cihaz ve dağıtım düzeyindeki bir optimizasyon yığınıyla yanıt veriliyor
Modele özel optimizasyonlar
- Attention: Ultra uzun bağlamdaki I/O, hesaplama ve bellek darboğazları üç açıdan optimize ediliyor
  - (1) Hem prefill hem decode aşamasında absorb işlem modu benimseniyor
  - (2) Indexer, MLA prolog ile eşzamanlı stream olarak pipeline'a alınıp indexer ek yükü gizleniyor
  - (3) KV-cache parallelism (KVP) ile KV-cache cihazlar arasında shard ediliyor
- ScMoE: LongCat-Flash'ın hesaplama-iletişim örtüşmesine dayalı zamanlaması daha da geliştiriliyor; accelerator'ün açık per-core kontrolü kullanılarak dense ve MoE dalları tamamen paralel çalıştırılıyor ve basit örtüşmenin ötesine geçiliyor
Accelerator odaklı optimizasyonlar
- Super Kernel: Graph modunda kernel'ler arası boşluklar kaldırılsa da kernel içi launch ek yükü sürüyor; super kernel ile bu intra-kernel launch maliyeti azaltılıyor
- Weight Prefetch: Cihazın HBM bant genişliği sınırlı, ancak nispeten büyük bir L2 cache'i var; bu büyük L2 cache kullanılarak ağırlıklar önceden getiriliyor ve önceki operatör hesaplamaları sırasında I/O gecikmesi gizleniyor
- Scale Up and Scale Out: P ve D düğümleri arasındaki KV-cache aktarımı accelerator'ün yerleşik 200Gbps ağ adaptörüyle yapılıyor; KV-cache katman bazında aktarılıyor, KV-cache store ise host RDMA ağ adaptörüyle kuruluyor; TP/SP/KVP işlemleri scale-up interconnection domain içinde yürütülüyor
Dağıtım ve servis
- Optimal paralelleştirme: TTFT ile TPOT dengesini kurmak için prefill–decode (PD) ayrık dağıtım benimsendi
  - Prefill düğümleri: Uzun sekans işleme, düğümler arası iletişim bant genişliğiyle sınırlanıyor ve MoE dispatch/combine trafiği çalışma zamanına hâkim oluyor; multi-node chunked pipeline parallelism (CPP) ile expert-parallel (EP) alanı küçültülüyor, her pipeline aşaması içinde Attention Sequence Parallelism (SP) ile uzun sekansların hesaplama baskısı hafifletiliyor
  - Decode düğümleri: Ana kısıt cihaz belleği ve KV-cache I/O; KVP ile KV-cache shard edilerek cihaz başına bellek ayak izi azaltılıyor, büyük EP derecesi (EP128) ile cihaz başına ağırlık belleği ve expert I/O aynı anda düşürülüyor
  - Her iki aşamada da paralelleştirme biçimleri (CPP/SP ve KVP), constrained decoding, multi-step scheduling ve MTP gibi çıkarım sırasındaki optimizasyonlarla temiz şekilde birleşecek biçimde tasarlandı
- Expert-Parallel Load Balancing (EPLB): Decode düğümlerindeki büyük EP derecesi, expert'ler arasında yük dengesizliği riskini artırıyor; buna EPLB ile karşılık veriliyor ve servis ek yükünü azaltmak için istatistik toplama ile toplu işlemler forward critical path dışında asenkron yürütülüyor

Birden fazla öğretmenden öğrenme (Learning from Multiple Teachers)

Genel performansı yükseltmek ve yetenek sınırlarını genişletmek için sonradan eğitim hattına uzman expert-group tasarımı eklendi; yapı üç kategoriden oluşuyor
Agent Experts: Karmaşık gerçek dünya senaryolarında otonom görev yürütmeyi iyileştiriyor ve kod, iş ve arama gibi ayrıntılı dikey alanlarda SOTA düzeyinde performans sağlıyor
- Sadece uçtan uca görev başarı oranı değil, ajan dayanıklılığını destekleyen atomik yetenekler de optimize ediliyor; buna hassas tool çağrıları, çok turlu API etkileşimlerinde güvenilir parametre ayrıştırma ve sonsuz döngü ile tekrarlı çağrıları hafifleten öz-düzeltme mekanizmaları dahil
Reasoning Experts: Mantıksal akıl yürütmenin derinliğini genişletiyor ve problem zorluğuna göre uyarlanabilir hesaplamayı etkinleştiriyor; matematik, STEM problem çözme ve multi-hop akıl yürütmede güçlü performansla karmaşık analiz senaryolarını daha iyi ele alıyor
Interaction Experts: İnsan uyumu ve kullanıcı deneyimi optimizasyonuna odaklanıyor; çeşitli uygulamalarda ayrıntılı talimat takibini iyileştiriyor, gelişmiş hizalama teknikleriyle olgusal halüsinasyonları bastırıyor ve faydayı zedelemeden sınırları net güvenlik mekanizmaları kuruyor
Son olarak MOPD mimarisi ile bu üç expert grubunun en güçlü yönleri birleştiriliyor; güçlü ajan yürütme, derin akıl yürütme ve yüksek kaliteli etkileşimi bir araya getirerek karmaşık kullanıcı ihtiyaçlarını doğru anlayıp zor gerçek dünya görevlerini güvenilir şekilde tamamlıyor

Model yetenek gösterimi

Uzun bağlamlı akıl yürütme ve özel sonradan eğitim sayesinde gerçek görevlerde güçlü performans sergiliyor
Codebase Migration
- Tüm codebase ile migration belgelerini birlikte okuyup mimariyi haritalandırıyor, ardından tüm eklentiyi yeni SDK ile yeniden yazıyor
- Mevcut işlevlerin tamamını koruyor, potansiyel hataları yakalıyor ve ilk build'de temiz derleme sağlıyor

Değerlendirmeler (Evaluations)

Kod, genel ajan ve temel yetenekler genelinde başlıca ticari modellerle karşılaştırılıyor; * ile işaretli olanlar dışındaki tüm skorlar birleşik harness ile kurum içi ölçülmüş durumda (0–100 normalize)
Code Agent
- Terminal-Bench 2.1: LongCat-2.0 70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9*
- SWE-bench Pro: LongCat-2.0 59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2*
- SWE-bench Multilingual: LongCat-2.0 77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8*
General Agent
- FORTE†: LongCat-2.0 73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2
- BrowseComp: LongCat-2.0 79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3*
- RWSearch: LongCat-2.0 78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3
Foundational
- IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro 96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0
- Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2
- IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro 90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3
- GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4
Değerlendirme koşulları
- Terminal-Bench 2.1: Claude Code ile değerlendirildi, sandbox instance başına 8c16g, çıkarım parametreleri temperature=1.0/top_k=-1/top_p=0.95, ajan timeout 6 saat
- SWE-Bench serisi: Claude Code ile değerlendirildi, sandbox instance başına 4c8g, temperature=1.0/top_k=-1/top_p=1, sorunlu görevler düzeltildi
- FORTE: 15 şirket rolündeki günlük ofis üretkenliği üzerinden AI ajanlarını değerlendiren bir general agent benchmark'ı; OpenClaw/Hermes/Claude Code framework desteği var, tüm görevlerde 45 dakika timeout, 2 CPU/4GB RAM, tek tur API çağrısı timeout'u 500s, en fazla 10 yeniden deneme († işareti)
- RW-Search: Arama ajanları için kurum içi nesnel benchmark; yalnızca temel Search ve Browse araçlarıyla yapılandırılmış bare-model değerlendirmesi, context yönetim stratejisi uygulanmadı
- Foundational: IMO-AnswerBench gibi matematiksel akıl yürütmede temperature=1.0/top_k=-1/top_p=0.95, diğerlerinde temperature=0.7/top_k=-1/top_p=0.95

1 yorum

GN⁺ 6 시간 전

Hacker News yorumları

“LongCat-2.0’ın eğitimi ve dağıtımı, on binlerce AI ASIC superpod’dan oluşan büyük ölçekli bir küme üzerine kuruldu… Destek yazılımı topluluğu, Nvidia GPU ekosistemine göre hâlâ daha az olgun…” kısmı asıl önemli haber gibi görünüyor
Huawei Ascend 910C çipleri kullanılmış olabilir: https://nitter.net/teortaxesTex/status/2071708141037781407#m
- Gerçekten NVIDIA olmadan 1,6 trilyon parametreli bir modeli ön eğitimden son eğitime kadar tamamladılarsa, Dwarkesh Patel’in olmasını umduğu şey gerçekleşmiş demektir
- Gerçekte ne yaptıklarını kimse bilmiyor. Denetlenmiş de değil; DeepSeek v4 pro’dan başlayıp üzerine çeşitli keyfî değişiklikler eklemiş ve her parçaya farklı adlar vermişler gibi de duyuluyor
Biraz zorlayıcı bir soruyla test ettim: “Yakıt olarak U-235 veya Pu-241 kullanıp, ikisi de %95 U-238 ile karışık haldeyken bir reaktörü çalıştırabilecek olsanız hangisini seçerdiniz ve neden?”
İnsanlar için hiç de zorlayıcı değil ama büyük dil modelleri için zor olabilir. Çünkü Pu-241 saf halde bulunmaz; yalnızca reaktör sınıfı plütonyumun küçük bir bileşeni olarak bulunur ve genellikle en çok Pu-239, sonra Pu-240, üçüncü sırada da Pu-241 vardır
LongCat-2.0, Pu-241 daha iyidir şeklinde kulağa makul gelen ama yanlış bir yanıt verdi; Qwen 3.7 Plus ise gecikmeli nötron oranının çok daha yüksek olması nedeniyle U-235 daha iyidir diyerek doğru yanıtladı. Gemini Flash da aynı yanıtı daha kendinden emin, daha güçlü gerekçelerle ve çok daha hızlı verdi
Genel olarak Gemini Flash’ı en iyisi, Qwen 3.7 Plus’ı fena olmayan ikinci, LongCat-2.0’ı ise başka seçenek yoksa kullanılabilecek üçüncü seçenek olarak görüyorum
- Fizikçi değilim ama soru beklenenden daha yönlendirici olabilir. Soru, zenginleştirmenin pratikliğini yok sayıp ilgili maddeden yeterince bulunduğunu varsayıyor gibi anlaşılabilir
  Eğer gerçekten saf Pu-241 varsa, U-235’ten daha iyi bir yakıt olur mu? Benzetme yaparsak, “Bir jeneratörü benzinle veya jet yakıtıyla çalıştırabilecek olsanız hangisini seçerdiniz?” sorusunda, enerji yoğunluğu ve saflığı biraz daha yüksek olduğu ve daha temiz yanma ihtimali bulunduğu için jet yakıtı seçilebilir; ama jet yakıtının benzinin birkaç katı fiyatında olduğu gerçeği göz ardı edilmiş olur
- “İnsanlar için hiç de zorlayıcı değil” mi; nasıl insanlarla takılıyorsunuz merak ettim. Bilgisayar bilimi doktoram var ve onlarca yıl yazılım mühendisliği yaptım ama sorunun kendisini hiç anlamadım
- Daha adil ve faydalı bir karşılaştırma, iki modele de bu tür niş bilgi belgelerini bağlam olarak verip sonra soru sormak olurdu
- Yeni sohbet bağlamında birkaç kez sorup bazen doğru yanıtlayıp yanıtlamadığını kontrol edip etmediğini merak ediyorum
- Karşılaştırma için ChatGPT 5.5’in yanıtını da eklersek, “Amaç güvenli, sıkıcı ve pratik elektrik üretimiyse U-235’i seçin; özel olarak plütonyum tüketmek/geri dönüştürmek üzere tasarlanıp lisanslanmış bir reaktörse Pu-241’i seçin” gibiydi
  Kabaca özetlersek, Pu-241 nükleer fizik açısından daha iyi bir “bölünebilir izotop” olabilir ama gerçek dünyadaki reaktör yakıtı olarak U-235 çok daha iyidir diyor. Reaktörleri pek bilmem ama bu yanıt da doğru gibi geliyor
“Başkan Mao’nun ‘Büyük Devrim’de kaç kişiyi öldürdüğü düşünülüyor?” diye sorunca “Merhaba, şu anda bu soruya yanıt veremem. Başka bir konuya geçip konuşalım” diye yanıtladı
- Doğru bir örnek. Çin modellerinin yanıtlamadığı epey siyasi soru alanı var
1024 Huawei Ascend superpod, 50 bin 910C çipi demek. Bu çok küçük bir sistem; OpenAI eğitimde milyonlarca GPU kullanıyor
Ancak mevcut DeepSeek v4 mimarisini ve ağırlıklarını yeniden kullanmış olmaları yüksek ihtimal gibi görünüyor. O zaman o kadar fazla hesaplama gerekmemiş olabilir
- Açık kaynak olarak yayımlanana kadar beklemek doğru olur. Böyle bir şirketin DeepSeek’in çalışmasını düpedüz kopyalayıp yapıştırmış olması pek olası gelmiyor. Üstelik LongCat’in önizleme sürümü DeepSeek v4 pro ile aynı gün yayımlandı
- Sınır noktaya ulaşmaktansa, sınır noktadaki fikirleri damıtıp alma yönteminin daha az hesaplama gerektirdiği de açık. Her seferinde aynı birkaç laboratuvarın sınırın yakınlarında sırayla yer alması da tesadüf değil
Daha önce, bu modelin geçen ay boyunca ücretsiz olan ve gizlice yayımlanan openrouter/owl-alpha’nın arkasındaki model olduğu yönünde bir tahmin vardı
- Tahmin değil, bunu kendileri söylediler
Hugging Face’ten hiçbir şey indirilemiyor ve bu şirketin tutarlı geçmişine bakınca bunu fiilen dolandırıcılık saymak mümkün gibi
- Meituan geçen yıl LongCat Flash’ı yayımladı: https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
  Bu yüzden şimdiye kadarki geçmişleri dolandırıcılık gibi görünmüyor. Yemek teslimat şirketi olarak geçmişlerinden söz ediyorsanız, sipariş ettiğiniz yemeğin gelmediği kötü bir deneyim yaşamış olabilirsiniz
Bu, Çinli yemek teslimat şirketi Meituan’dan çıkmış gibi görünüyor
- Amaçlanan yön bu olmayabilir ama iş dünyasında sık görülen bir yanılgıyla bağlantılı olduğu için ekleyeyim: Uber bir insan taşıma şirketi ama yıllardır altyapı ve yazılım alanında çok iyi mühendisleri vardı ve yaptıkları işler sektör geneline yayıldı
  Amazon da VMware’in ifadesiyle “kitap satan şirket”ti; VMware yönetimi, “kurumsal pazarda VMware’in marka itibarına bakınca, kitap satan bir şirketi birlikte yenemememize inanmak zor” diyecek kadar geride kaldıklarını kabul etmekte zorlanıyordu
- Günümüzde Meituan neredeyse bir konglomera. Wikipedia’daki yan kuruluş listesi bile büyük: https://en.wikipedia.org/wiki/Meituan
  Amazon’un AWS’yi ortaya çıkarması gibi, Meituan da kendi teknoloji deneyiminden epey yararlanıyor
- Meituan’da etkileyici bulduğum şey, Çin’in dört bir yanında powerbank kiralama cihazları olması ve insanların yanlarında kendi powerbank’lerini taşımaktansa daha kullanışlı olduğu için bunları kiralamak istemesiydi
- Lidl’in sahibi olan grup da STACKIT’i kurdu
Tiananmen Square hakkında soru sordum, “Çok fazla istek var. Lütfen daha sonra tekrar deneyin” diye yanıtladı. İlk sorumdu ve bunun tek örnek olduğunu biliyorum ama yine de içime sinmedi
- Grok’a Elon Musk’ın kaç kez aldattığını sordum, o da aynen böyle yanıt verdi
Masanın altında çalışan birkaç üretim sunucunuz yoksa, yerel barındırma için kullanılamayacak kadar büyük
Q2’ye veya Q1’e uydurmaya çalışanlar için de durum aynı. Kollarını bacaklarını kesip hâlâ hayatta olduğunu iddia etmek uğruna modeli mahvetmeye değmez

LongCat-2.0 tanıtıldı - Nvidia olmadan eğitilen 1,6 trilyon parametreli açık kaynak model

Model genel bakışı

Mimari

LongCat Sparse Attention

N-gram Embedding

AI ASIC superpod tabanlı ölçeklenebilir altyapı

Eğitim (Training)

Determinism & Reliability

Büyük ölçekte eğitim (Training at Scale)

Uzun bağlam eğitimi (Long Context Training)

Çıkarım (Inference)

Modele özel optimizasyonlar

Accelerator odaklı optimizasyonlar

Dağıtım ve servis

Birden fazla öğretmenden öğrenme (Learning from Multiple Teachers)

Model yetenek gösterimi

Codebase Migration

Değerlendirmeler (Evaluations)

Code Agent

General Agent

Foundational

Değerlendirme koşulları

İlgili okumalar

1 yorum

Hacker News yorumları