7 puan yazan ninebow 2025-12-24 | Henüz yorum yok. | WhatsApp'ta paylaş

[2025/12/15 ~ 21] Bu hafta göz atmaya değer AI/ML makaleleri

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Ajan uyarlamasının önemi: Bu hafta seçilen makaleler, ajan tabanlı yapay zeka sistemlerinin performansını ve güvenilirliğini artırmak için uyarlamanın (adaptation) gerekliliğini vurguluyor. Ajan ve araç uyarlamasını birleştiren sistematik bir çerçeve öneriliyor; bu sayede çeşitli uyarlama stratejilerinin tasarım alanı netleştiriliyor ve pratik rehberlik sunuluyor.

2️⃣ Bellek sistemlerinin gelişimi: Ajan belleği, yapay zeka sistemlerinin temel işlevlerinden biri haline gelirken, farklı biçim ve işlevlere sahip bellek sistemleri üzerine araştırmalar sürüyor. Mevcut bellek sınıflandırma yöntemlerinin modern ajan belleğinin çeşitliliğini yakalamakta yetersiz kaldığı kabul edilerek, belleğin biçimi, işlevi ve dinamikleri bütüncül biçimde analiz ediliyor ve yeni araştırma yönleri öneriliyor.

3️⃣ Verimli model geçişi ve optimizasyon: Son makaleler, otoregresif dil modellerinden (AR) difüzyon dil modellerine (dLM) geçiş yoluyla hız ve doğruluğu aynı anda artırmanın yollarını araştırıyor. Özellikle çeşitli attention kalıpları ve eğitim stratejileri karşılaştırılıyor, verimli geçiş için ilkeler ve metodolojiler öneriliyor ve araştırmalar model performansını en üst düzeye çıkarma yönünde ilerliyor.


Ajanik AI'ın Uyarlanması / Adaptation of Agentic AI

Makale tanıtımı

En ileri düzey ajanik AI sistemleri, foundation model'leri temel alarak giderek daha karmaşık ve uzmanlaşmış görevleri yerine getirebilecek yeteneklere sahip hale geliyor. Bu sistemlerin performansını, güvenilirliğini ve genelleme kabiliyetini artırmak için uyarlama, temel bir mekanizma olarak öne çıkıyor. Bu çalışma, hem ajan uyarlamasını hem de araç uyarlamasını kapsayan sistematik bir çerçeve sunuyor; böylece çeşitli uyarlama stratejilerinin tasarım alanını netleştiriyor ve stratejiler arasındaki ödünleşimleri açıkça ortaya koyuyor. Çerçeve, araç yürütme sinyali ve ajan çıktı sinyali biçimindeki ajan uyarlamalarına ayrılırken, eleştirmen ajan ve denetleyici ajan biçimindeki araç uyarlamalarına da bölünüyor.

Bu çalışma, her kategorideki temsilî yaklaşımları inceliyor, güçlü ve zayıf yönlerini analiz ediyor, ayrıca başlıca açık problemleri ve gelecekteki fırsatları vurguluyor. Özellikle ilk dönem A1 tipi yöntemler, denetimli ince ayar (Supervised Fine-Tuning) ve doğrudan tercih optimizasyonuna (Direct Preference Optimization) odaklanıyordu; bu yöntemler, araç kullanımıyla ilişkili model yanıtlarını toplayarak öğrenme sinyali elde etme yaklaşımıyla gelişti. Toolformer gibi erken dönem modeller, kendinden denetimli öğrenme sinyallerini kullanarak araç kullanımını iyileştirmeye çalıştı, ancak gerçek ortam uygulamalarında sınırlamaları vardı.

Bu sınırlamaları aşmak için TRICE ve ToolAlpaca gibi sonraki modeller, yürütme geri bildirimi üzerinden pekiştirmeli öğrenmeyi devreye alarak araç kullanım kabiliyetini doğrudan iyileştirme yönüne ilerledi. TP-LLaMA, başarısız olmuş yolları kullanarak modelin başarısızlıklardan öğrenmesini sağlayan yeni bir yaklaşım sundu; Gorilla ise büyük ölçekli makine öğrenimi API kümelerinde doğru API çağrıları üretmek için yapısal doğruluğu vurguluyor. CodeAct, yürütülebilir kod ortamıyla doğrudan etkileşim üzerinden öğrenen bir paradigma önererek, doğrulanabilir sonuçlara dayalı öğrenme hedeflerinin kurulmasını mümkün kılıyor.

Son olarak, RLVR (doğrulanabilir ödül) tabanlı yöntemler, modelin araçlar ve çevreyle çevrimiçi etkileşim üzerinden doğrudan öğrenmesini sağlayarak uyarlamayı dinamik ve bağlam farkındalığına sahip hale getiriyor. Bu çalışmalar, ajanik AI sistemlerinin gelişimine katkı sağlıyor ve gelecekteki araştırmalar ile pratik uygulamalar için önemli bir temel sunuyor.

Makale özeti (Abstract)

En ileri düzey ajan AI sistemleri, planlama, akıl yürütme ve dış araçlarla etkileşim yoluyla giderek daha karmaşık ve uzmanlaşmış görevleri yerine getirecek şekilde uyarlanabilen foundation model'ler üzerine kuruludur. Bu sistemler yetenek ve kapsam bakımından büyüdükçe, uyarlama performansı, güvenilirliği ve genelleme kabiliyetini iyileştirmek için merkezi bir mekanizma haline gelir. Bu makalede, hızla genişleyen araştırma alanını hem ajan uyarlamalarını hem de araç uyarlamalarını kapsayan sistematik bir çerçevede birleştiriyoruz. Bunları ayrıca araç-yürütme-sinyalli ve ajan-çıktı-sinyalli ajan uyarlaması biçimlerine, ayrıca ajandan bağımsız ve ajan denetimli araç uyarlaması biçimlerine ayırıyoruz. Bu çerçevenin, ajanik AI'daki uyarlama stratejilerinin tasarım alanını netleştirmeye, bunların ödünleşimlerini açık hale getirmeye ve sistem tasarımı sırasında stratejiler arasında seçim yapma veya geçiş yapma konusunda pratik rehberlik sağlamaya yardımcı olduğunu gösteriyoruz. Ardından her kategorideki temsilî yaklaşımları inceliyor, güçlü yönlerini ve sınırlamalarını analiz ediyor, temel açık zorlukları ve gelecekteki fırsatları vurguluyoruz. Genel olarak bu makale, daha yetenekli, verimli ve güvenilir ajan AI sistemleri kurmak isteyen araştırmacılar ve uygulayıcılar için kavramsal bir temel ve pratik bir yol haritası sunmayı amaçlamaktadır.
> Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.

Makale bağlantısı

https://arxiv.org/abs/2512.16301

Daha fazlası

https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI


AI Ajanları Çağında Bellek / Memory in the Age of AI Agents

Makale tanıtımı

Ajan belleği, modern yapay zeka (AI) sistemlerinde vazgeçilmez bir unsur haline gelmiştir ve bu çalışma, söz konusu belleğin karmaşıklığını ve çeşitliliğini sistematik biçimde düzenleyip analiz etmeyi amaçlamaktadır. Mevcut araştırmalar, ajan belleğinin motivasyonları, uygulama biçimleri ve değerlendirme protokolleri açısından büyük farklılıklar göstermekte; bu da kavramsal netlik eksikliğine yol açmaktadır. Bu nedenle makale, ajan belleğinin kapsamını açıkça tanımlıyor ve büyük dil modeli (LLM) belleği, retrieval-augmented generation (RAG) ve context engineering gibi alanlardan nasıl ayrıştığını vurguluyor.

Araştırma, ajan belleğini üç bakış açısından inceliyor: biçim, işlev ve dinamikler. Biçimsel açıdan, token düzeyi, parametrik bellek ve latent bellek olmak üzere üç ana biçim sunuluyor; her birinin özellikleri ve çalışma şekli açıklanıyor. İşlevsel açıdan, olgusal, deneyimsel ve çalışma belleği olarak ayrılıyor ve her bellek türünün üstlendiği rol netleştiriliyor. Dinamik açıdan ise belleğin nasıl oluştuğu, evrildiği ve geri getirildiği incelenerek, ajan çevreyle etkileşim halindeyken belleğin nasıl çalıştığı analiz ediliyor.

Bu çalışma ayrıca pratik geliştirmeyi desteklemek için bellek benchmark’ları ve açık kaynak çerçevelere dair kapsamlı bir özet sunuyor; bellek otomasyonu, pekiştirmeli öğrenme entegrasyonu, çok modlu bellek ve çoklu ajan belleği gibi yeni araştırma sınırlarına yönelik bir perspektif ortaya koyuyor. Bu yaklaşım, ajan bellek sistemlerinin tasarımında belleği birinci sınıf ilkel bir kavram olarak yeniden düşünmenin temelini atıyor ve gelecekteki araştırmalar için yön gösteriyor.

Sonuç olarak bu makalenin, ajan bellek araştırmalarının mevcut durumunu kapsamlı biçimde derleyip gelecekteki çalışmalara yönelik içgörüler sunarak AI ajanlarının bellek sistemlerini geliştirmeye katkı sağlaması bekleniyor.

Makale özeti (Abstract)

Bellek, foundation model tabanlı ajanların temel yeteneklerinden biri olarak öne çıkmıştır ve gelecekte de önemli bir rol oynamayı sürdürecektir. Ajan belleğine yönelik araştırmalar hızla genişlerken ve benzeri görülmemiş bir ilgi görürken, bu alan giderek daha parçalı bir hâl almıştır. Ajan belleği şemsiyesi altına giren mevcut çalışmalar, motivasyonları, uygulamaları ve değerlendirme protokolleri bakımından sıklıkla önemli ölçüde farklılık göstermekte; gevşek biçimde tanımlanmış bellek terminolojilerinin yaygınlaşması da kavramsal netliği daha da belirsizleştirmektedir. Uzun/kısa süreli bellek gibi geleneksel sınıflandırmaların, çağdaş ajan bellek sistemlerinin çeşitliliğini yakalamakta yetersiz kaldığı görülmüştür. Bu çalışma, mevcut ajan bellek araştırmalarının güncel bir panoramasını sunmayı amaçlamaktadır. İlk olarak ajan belleğinin kapsamını açık biçimde sınırlandırıyor ve bunu LLM memory, retrieval-augmented generation (RAG) ve context engineering gibi ilişkili kavramlardan ayırıyoruz. Ardından ajan belleğini biçimler, işlevler ve dinamikler şeklindeki birleşik bir bakış açısından inceliyoruz. Biçimler açısından, ajan belleğinin üç baskın gerçekleştirimini belirliyoruz: token düzeyinde, parametrik ve örtük bellek. İşlevler açısından, olgusal, deneyimsel ve çalışma belleğini ayırt eden daha ince taneli bir sınıflandırma öneriyoruz. Dinamikler açısından ise belleğin zaman içinde nasıl oluştuğunu, evrildiğini ve geri getirildiğini analiz ediyoruz. Pratik geliştirmeyi desteklemek için bellek benchmark’ları ve açık kaynak çerçevelere dair kapsamlı bir özet derliyoruz. Birleştirmenin ötesinde, bellek otomasyonu, pekiştirmeli öğrenme entegrasyonu, çok modlu bellek, çoklu ajan belleği ve güvenilirlik meseleleri dahil olmak üzere ortaya çıkan araştırma sınırlarına yönelik ileriye dönük bir perspektif sunuyoruz. Bu derlemenin yalnızca mevcut çalışmalar için bir başvuru kaynağı değil, aynı zamanda geleceğin ajan tabanlı zekâ tasarımında belleği birinci sınıf ilkel bir kavram olarak yeniden düşünmek için kavramsal bir temel olmasını umuyoruz.
> Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.

Makale bağlantısı

https://arxiv.org/abs/2512.13564

Daha fazla bilgi

https://github.com/Shichun-Liu/Agent-Memory-Paper-List


Büyük dil modeli tabanlı ajanlarda ayrıntılı denge / Detailed balance in large language model-driven agents

Makale tanıtımı

Büyük dil modeli (LLM) tabanlı ajanlar, karmaşık problemleri çözmede yenilikçi bir yaklaşım sunuyor; ancak bu sistemlerin ampirik başarısına rağmen teorik çerçeve eksikliği sürüyor. Bu çalışma, en az etki ilkesine dayanarak LLM’nin üretim yönlülüğünü tahmin etmeye yönelik yeni bir metodoloji öneriyor. Bu metodoloji, LLM’nin ürettiği durumlar arasındaki geçiş olasılıklarını deneysel olarak ölçerek, LLM üretimli geçişlerde gözlemlenen ayrıntılı dengeyi istatistiksel olarak ortaya koyuyor. Bu bulgular, LLM’lerin belirli bir kural kümesini ya da stratejiyi öğrenmekten ziyade, farklı LLM mimarileri ve prompt şablonlarının ötesine geçebilen bir potansiyel fonksiyonlar sınıfını örtük biçimde öğreniyor olabileceğine işaret ediyor.

Bu araştırma, LLM üretim dinamiklerinde makroskopik fizik yasalarının ilk kez keşfedildiği bir örnek olarak, karmaşık yapay zeka sistemlerinin makroskopik dinamiklerine dair bir kuram oluşturma girişimini içeriyor. Böylece AI ajan araştırmasının, yalnızca bir mühendislik uygulamaları toplamı olmaktan çıkıp öngörülebilir ve nicel olarak ölçülebilir bir bilime dönüşebilmesi için temel atmayı hedefliyor. LLM’nin üretim sürecinde ortaya çıkan geçişlerin dinamiklerini anlamak, bu sistemlerin nasıl çalıştığını açıklığa kavuşturmak açısından kritik önem taşıyor.

Bu çalışma, LLM’nin üretim dinamiklerini açıklayabilecek yeni bir teorik çerçeve önererek AI araştırmaları için yeni bir yön sunuyor. Deneysel yaklaşımla toplanan veriler, LLM’lerin çalışma prensiplerini anlamaya önemli katkı sağlıyor ve gelecekteki çalışmalar için temel kaynak olarak kullanılabilir. Bu araştırma sonuçlarının, LLM tabanlı ajanların tasarımı ve kullanımında önemli içgörüler sunması ve AI teknolojilerinin gelişimine katkı sağlaması bekleniyor.

Makale özeti (Abstract)

Büyük dil modeli (LLM) tabanlı ajanlar, karmaşık problemleri çözmek için güçlü yeni bir paradigma olarak öne çıkıyor. Bu uygulamaların ampirik başarısına rağmen, bunların makroskopik dinamiklerini anlamaya ve birleştirmeye yönelik kuramsal bir çerçeve hâlâ eksik. Bu makalede, en küçük etki ilkesine dayanarak ajanların içine gömülü LLM’lerin temel üretim yönlülüğünü tahmin etmeye yönelik bir yöntem öneriliyor. LLM tarafından üretilen durumlar arasındaki geçiş olasılıklarını deneysel olarak ölçerek, LLM üretimli geçişlerde istatistiksel olarak ayrıntılı denge tespit ediyoruz; bu da LLM üretiminin genel olarak kural kümeleri ve stratejiler öğrenilerek değil, farklı LLM mimarileri ve prompt şablonlarını aşabilen temel potansiyel fonksiyon sınıflarının örtük biçimde öğrenilmesiyle gerçekleşiyor olabileceğini gösteriyor. Bildiğimiz kadarıyla bu, belirli model ayrıntılarına bağlı olmayan LLM üretim dinamiklerindeki makroskopik bir fizik yasasının ilk keşfidir. Bu çalışma, karmaşık yapay zeka sistemlerinin makroskopik dinamikleri için bir teori kurma girişimidir ve yapay zeka ajanları araştırmasını mühendislik pratikleri toplamından, öngörülebilir ve nicelleştirilebilir etkili ölçümlere dayanan bir bilime dönüştürmeyi amaçlamaktadır.
> Büyük dil modeli (LLM) güdümlü ajanlar, karmaşık problemleri çözmek için güçlü yeni bir paradigma olarak ortaya çıkıyor. Bu uygulamaların ampirik başarısına rağmen, bunların makroskopik dinamiklerini anlamaya ve birleştirmeye yönelik kuramsal bir çerçeve hâlâ eksik. Bu mektup, ajanların içine gömülü LLM’lerin altta yatan üretim yönlülüğünü tahmin etmek için en küçük etki ilkesine dayalı bir yöntem önermektedir. LLM tarafından üretilen durumlar arasındaki geçiş olasılıklarını deneysel olarak ölçerek, LLM üretimli geçişlerde istatistiksel olarak ayrıntılı bir denge keşfediyoruz; bu da LLM üretiminin genel olarak kural kümeleri ve stratejiler öğrenilerek değil, farklı LLM mimarileri ve prompt şablonlarını aşabilecek altta yatan bir potansiyel fonksiyonlar sınıfının örtük biçimde öğrenilmesiyle sağlanıyor olabileceğini göstermektedir. Bildiğimiz kadarıyla bu, belirli model ayrıntılarına bağlı olmayan LLM üretim dinamiklerindeki makroskopik bir fizik yasasının ilk keşfidir. Bu çalışma, karmaşık yapay zeka sistemlerinin makroskopik dinamikleri için bir teori kurma girişimidir ve yapay zeka ajanları araştırmasını mühendislik pratikleri toplamından, öngörülebilir ve nicelleştirilebilir etkili ölçümlere dayanan bir bilime dönüştürmeyi amaçlamaktadır.

Makale bağlantısı

https://arxiv.org/abs/2512.10047


Verimli DLM: Otoregresiften Difüzyon Dil Modellerine ve Hızın Ötesine / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

Makale tanıtımı

Difüzyon dil modelleri (Diffusion Language Models, dLM), paralel ve otoregresif olmayan üretimi mümkün kılan umut verici bir paradigma olarak öne çıkıyor; ancak otoregresif dil modelleriyle (Autoregressive Language Models, AR) karşılaştırıldığında eğitim verimliliğinin düşük olması sorunu bulunuyor. Bu sorunu çözmek için, AR modellerini verimli dLM’lere dönüştürmeye yönelik bir metodoloji önerildi. Araştırmacılar, mevcut AR-to-dLM dönüşüm yöntemlerinin sınırlamalarını analiz etti ve AR modellerinin önceden eğitilmiş ağırlık dağılımını korumanın etkili bir dönüşüm için kritik olduğunu ortaya koydu.

Buna dayanarak, blok bazlı attention desenlerini koruyan sürekli ön eğitim yaklaşımı tanıtıldı. Bu yaklaşım, her blok içinde çift yönlü modellemeyi mümkün kılarak AR modelinin ağırlık dağılımının daha iyi korunmasını sağladı. Ayrıca KV caching’i mümkün kılarak hem doğruluk hem de verimlilikte iyileşme avantajı sunuyor. Eğitim sırasında mask token dağılımındaki farkı azaltmak için konuma bağlı bir token maskeleme stratejisi de önerildi; bu strateji, test sırasındaki davranışı daha iyi taklit edebilmek için eğitim sürecinde sonraki token’lara daha yüksek maskeleme olasılığı atıyor.

Bu metodoloji sayesinde dLM’lerin attention desenleri, eğitim dinamikleri ve tasarım tercihleri üzerine kapsamlı çalışmalar yürütüldü; bu da AR’den dLM’ye ölçeklenebilir dönüşüm için uygulanabilir içgörüler sunuyor. Sonuç olarak Efficient-DLM ailesi, güncel AR modelleri ve dLM’leri aşan performans sergiliyor; özellikle Efficient-DLM 8B, Dream 7B ve Qwen3 4B ile karşılaştırıldığında sırasıyla %5,4 ve %2,7 daha yüksek doğruluk ile 4,5 kat ve 2,7 kat daha yüksek throughput elde etti. Bu çalışma, AR modellerinden dLM’lere etkili dönüşüm için yeni bir metodoloji sunarken hem eğitim verimliliğini hem de model performansını artırmaya katkı sağlıyor.

Makale özeti (Abstract)

Difüzyon dil modelleri (dLM'ler), paralel ve otoregresif olmayan üretimi mümkün kılan umut verici bir paradigma olarak öne çıktı; ancak sıfırdan eğitildiklerinde öğrenme verimlilikleri otoregresif (AR) dil modellerinin gerisinde kalıyor. Bunu çözmek için, önceden eğitilmiş AR modellerini görev doğruluğunu korurken hız açısından güçlü verimli dLM'lere dönüştüren AR-to-dLM dönüşümünü inceliyoruz. Bunu, mevcut AR-to-dLM yöntemlerinin attention kalıpları ve hedeflerindeki sınırlamaları belirleyip daha etkili bir AR-to-dLM dönüşümü için ilkeler ve metodolojiler önererek başarıyoruz. Özellikle önce farklı attention kalıplarını sistematik olarak karşılaştırıyor ve önceden eğitilmiş AR ağırlık dağılımlarını korumanın etkili AR-to-dLM dönüşümü için kritik olduğunu gösteriyoruz. Bu nedenle, bloklar arasında nedenselliği korurken her blok içinde çift yönlü modellemeye izin veren blok bazlı attention kalıbına sahip sürekli bir ön eğitim şeması sunuyoruz. Bu yaklaşımın, tam çift yönlü modellemeye kıyasla önceden eğitilmiş AR modellerinin ağırlık dağılımlarını daha iyi koruyabildiğini; ayrıca KV caching sağlaması gibi bilinen avantajına ek olarak doğruluk ve verimlilikte de kazan-kazan sonucu verdiğini görüyoruz. İkinci olarak, maske token dağılımlarındaki eğitim-test farkını azaltmak için (uniforma karşı büyük ölçüde soldan sağa), eğitim sırasında sonraki token'lara daha yüksek maskeleme olasılığı atayan ve test zamanındaki davranışı daha iyi taklit eden konuma bağlı bir token maskeleme stratejisi öneriyoruz. Bu çerçeveden yararlanarak dLM'lerin attention kalıpları, eğitim dinamikleri ve diğer tasarım tercihleri üzerine kapsamlı çalışmalar yürütüyor, ölçeklenebilir AR-to-dLM dönüşümü için uygulanabilir içgörüler sunuyoruz. Bu çalışmalar, son teknoloji AR modelleri ve dLM'lerden daha iyi performans gösteren Efficient-DLM ailesine yol açıyor; örneğin Efficient-DLM 8B modelimiz, Dream 7B ve Qwen3 4B ile karşılaştırıldığında sırasıyla +%5,4/+%2,7 daha yüksek doğruluk ve 4.5x/2.7x daha yüksek throughput elde ediyor.
> Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

Makale bağlantısı

https://arxiv.org/abs/2512.14067


Her Şey Bağlamdır: Bağlam Mühendisliği için Ajanik Dosya Sistemi Soyutlaması / Everything is Context: Agentic File System Abstraction for Context Engineering

Makale tanıtımı

Üretken yapay zeka (GenAI) alanındaki ilerlemeler, özellikle foundation modeller aracılığıyla mimari ve operasyonların yeniden tanımlanmasıyla yazılım sistemi tasarımında dönüştürücü değişimler yarattı. Mevcut temel zorluk, model fine-tuning'inin ötesine geçerek dış bilgi, bellek, araçlar ve insan girdisini etkili biçimde yakalayıp yapılandıran "bağlam mühendisliği"ne kaymış durumda. Mevcut prompt engineering veya retrieval-augmented generation (RAG) gibi yaklaşımlar parçalı kalıyor; bu yüzden ortaya çıkan bağlam artifact'leri çoğu zaman geçici ve doğrulanamaz oluyor.

Bu çalışma, Unix'in "her şey bir dosyadır" felsefesinden ilham alarak bağlam mühendisliği için bir dosya sistemi soyutlaması öneriyor. Bu soyutlama, heterojen bağlam artifact'lerini yönetmek için kalıcı ve yönetilen bir altyapı sunuyor; böylece tutarlı mount etme, metadata ve erişim kontrolü mümkün hale geliyor. AIGNE çerçevesi içinde uygulanan bu mimari, bağlam üreticileri, yükleyiciler ve değerlendiricilerden oluşan doğrulanabilir bir bağlam mühendisliği hattı üzerinden token kısıtları altında bağlamı birleştirme, iletme ve doğrulama işlevlerini yerine getiriyor.

GenAI karar destek süreçlerinde aktif bir iş birliği ortağı haline geldikçe, insanlar küratör, doğrulayıcı ve ortak muhakeme yürüten aktörler olarak merkezi bir rol üstleniyor. Bu çalışma, belleğe sahip ajanlar ve MCP tabanlı bir GitHub asistanı aracılığıyla önerilen mimarinin pratikliğini gösteriyor; ayrıca geliştirici ve endüstriyel ortamlarda operasyonel olarak uygulanabilir olduğunu ortaya koyuyor. Bu yaklaşım, sorumlu ve insan merkezli yapay zeka iş birliği için yeniden kullanılabilir bir temel oluştururken doğrulanabilir ve bakımı kolay GenAI sistemlerini desteklemeye katkı sağlıyor.

Sonuç olarak bu çalışma, GenAI sistem tasarımında bağlam mühendisliğinin önemini vurguluyor ve dosya sistemi tabanlı bir soyutlamanın kalıcı ve şeffaf bağlam yönetimi için nasıl bir temel oluşturabileceğini gösteriyor.

Makale özeti (Abstract)

Üretken yapay zeka (GenAI), önceden eğitilmiş alt sistemler olarak foundation model’leri devreye sokarak yazılım sistemi tasarımını yeniden şekillendirdi. Ortaya çıkan yeni zorluk artık model fine-tuning’i değil; sistemlerin güvenilir muhakemeyi mümkün kılmak için dış bilgiyi, belleği, araçları ve insan girdisini nasıl yakaladığı, yapılandırdığı ve yönettiğine odaklanan context engineering’dir. Prompt engineering, retrieval-augmented generation (RAG) ve araç entegrasyonu gibi mevcut uygulamalar parçalı kalmakta ve izlenebilirlik ile hesap verebilirliği sınırlayan geçici artefaktlar üretmektedir. Bu makale, Unix’teki “her şey bir dosyadır” anlayışından ilham alarak context engineering için bir dosya sistemi soyutlaması önermektedir. Bu soyutlama, heterojen bağlam artefaktlarını tek tip mount etme, metadata ve erişim kontrolü yoluyla yönetmek için kalıcı ve yönetilen bir altyapı sunar. Açık kaynaklı AIGNE framework’ü içinde uygulanan bu mimari, token kısıtları altında bağlamı bir araya getiren, ileten ve doğrulayan Context Constructor, Loader ve Evaluator’dan oluşan doğrulanabilir bir context engineering pipeline’ını hayata geçirir. GenAI karar destek süreçlerinde aktif bir işbirlikçiye dönüştükçe, insanlar da küratör, doğrulayıcı ve birlikte muhakeme eden ortaklar olarak merkezi bir rol üstlenir. Önerilen mimari, bellekli bir agent ve MCP tabanlı bir GitHub assistant olmak üzere iki örnek üzerinden, hesap verebilir ve insan merkezli yapay zeka işbirliği için yeniden kullanılabilir bir temel oluşturur. AIGNE framework’ü içindeki uygulama, bu mimarinin geliştirici ve endüstriyel ortamlarda nasıl operasyonelleştirilebileceğini gösterirken; doğrulanabilir, bakımı yapılabilir ve endüstriye hazır GenAI sistemlerini destekler.
> Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.

Makale bağlantısı

https://arxiv.org/abs/2512.05470


Agent sistemlerini ölçeklendirme bilimine doğru / Towards a Science of Scaling Agent Systems

Makale tanıtımı

Agent ve dil modeli tabanlı sistemler, gerçek dünya yapay zeka uygulamalarında giderek daha önemli bir rol oynuyor; ancak bu sistemlerin performansını belirleyen ilkeler hâlâ yeterince araştırılmış değil. Bu çalışma, agent sistemlerinin nicel ölçeklendirme ilkelerini ortaya koyarak bu boşluğu gidermeyi amaçlıyor; böylece uygulayıcıların ampirik yöntemler yerine ilkesel tasarım tercihleri yapabilmesini destekliyor. Araştırma, dört farklı benchmark olan Finance-Agent, BrowseComp-Plus, PlanCraft ve Workbench üzerinde yürütülüyor; beş tipik mimari (tekil, bağımsız, merkezi, dağıtık, hibrit) üç dil modeli ailesine uygulanarak 180 konfigürasyon için kontrollü değerlendirme gerçekleştiriliyor.

Bu çalışmanın odağında, ampirik koordinasyon metrikleri kullanılarak tahmin modelleri türetilmesi yer alıyor. Bu model; verimlilik, ek yük, hata büyütme ve fazlalık gibi çeşitli unsurları dikkate alarak çapraz doğrulanmış 0.513’lük bir R² değerine ulaşıyor. Araştırma üç temel etkiyi ortaya koyuyor. Birincisi, araç-koordinasyon trade-off’u: sabit bir hesaplama bütçesi altında araç merkezli görevler, çoklu agent ek yükünden orantısız biçimde etkileniyor. İkincisi, yetenek doyumu olgusu: tek agent performansı yaklaşık %45’i aştığında koordinasyonun azalan hatta negatif getiri ürettiği görülüyor. Üçüncüsü ise topolojiye bağlı hata büyütme etkisi: bağımsız agent’ler hataları 17.2 kat büyütürken, merkezi koordinasyon bunu 4.4 katla sınırlandırıyor.

Merkezi koordinasyon, finansal muhakeme gibi paralelleştirilebilir görevlerde performansı %80.9 artırırken, dağıtık koordinasyon dinamik web gezinmesinde görece daha iyi sonuç veriyor. Ancak sıralı muhakeme görevlerinde tüm çoklu agent varyantları performansı %39-70 oranında düşürüyor. Bu bulgular, agent sistemlerinin performansını öngörme ve en uygun koordinasyon stratejilerini önerme açısından önemli bir katkı sunarken, agentik görevlerin özelliklerine dayalı kestirimsel ilkeler sağlıyor. Bu çalışma, agent sistemlerinin ölçeklendirme ilkelerini nicel olarak türeterek, uygulayıcıların sistemleri daha etkili biçimde tasarlayıp optimize edebilmesi için bir temel oluşturuyor.

Makale özeti (Abstract)

Ajanlar, akıl yürütme, planlama ve eylem yeteneğine sahip dil modeli (LM) tabanlı sistemler olarak gerçek dünya yapay zeka uygulamalarında baskın paradigma hâline geliyor. Bu yaygın benimsenmeye rağmen, performanslarını belirleyen ilkeler yeterince araştırılmış değil; bu da uygulayıcıları ilkesel tasarım seçimleri yerine sezgisel yöntemlere dayanmaya itiyor. Biz bu boşluğu, ajan sistemleri için nicel ölçekleme ilkeleri türeterek ele alıyoruz. Bunu Finance-Agent, BrowseComp-Plus, PlanCraft ve Workbench olmak üzere dört farklı benchmark üzerinde değerlendiriyoruz. Üç LLM ailesi genelinde kurulan beş kanonik mimariyi (Single, Independent, Centralized, Decentralized, Hybrid) kullanarak, standartlaştırılmış araçlar ve token bütçeleriyle 180 konfigürasyonu kapsayan kontrollü bir değerlendirme gerçekleştiriyoruz. Verimlilik, ek yük, hata büyütme ve fazlalık gibi ampirik koordinasyon metriklerini kullanarak, çapraz doğrulamalı $R^2=0.513$ elde eden bir öngörü modeli türetiyoruz. Üç baskın etki belirliyoruz: (1) araç-koordinasyon ödünleşimi: sabit hesaplama bütçeleri altında, araç ağırlıklı görevler çoklu ajan ek yükünden orantısız biçimde etkilenir. (2) yetenek doygunluğu: tek ajan taban çizgileri yaklaşık %45’i aştığında koordinasyonun getirisi azalır veya negatif olur (beta=-0.408, p<0.001). (3) topolojiye bağlı hata büyütme: bağımsız ajanlar, denetlenmeyen yayılım yoluyla hataları 17.2 kat büyütürken, merkezi koordinasyon bunu 4.4 kat ile sınırlar. Merkezi koordinasyon, finansal akıl yürütme gibi paralelleştirilebilir görevlerde performansı %80.9 artırırken, dağıtık koordinasyon dinamik web gezinmesinde daha iyi sonuç verir (+%9.2’ye karşı +%0.2). Ancak sıralı akıl yürütme görevlerinde, tüm çoklu ajan varyantları performansı %39-70 düşürdü. Bu çerçeve, elde tutulmuş konfigürasyonların %87’si için en uygun koordinasyon stratejisini öngörerek, ölçülebilir görev özelliklerine dayalı öngörücü bir ajantik ölçekleme ilkesi sunuyor.
> Ajanlar, akıl yürütebilen, planlayabilen ve eyleme geçebilen dil modeli (LM) tabanlı sistemler olarak gerçek dünya yapay zeka uygulamalarında baskın paradigma hâline geliyor. Bu yaygın benimsenmeye rağmen, performanslarını belirleyen ilkeler yeterince araştırılmış değil; bu da uygulayıcıları ilkesel tasarım seçimleri yerine sezgisel yöntemlere dayanmaya itiyor. Bu boşluğu, ajan sistemleri için nicel ölçekleme ilkeleri türeterek ele alıyoruz. Bunu Finance-Agent, BrowseComp-Plus, PlanCraft ve Workbench olmak üzere dört farklı benchmark üzerinde değerlendiriyoruz. Üç LLM ailesi genelinde somutlaştırılan beş kanonik mimariyi (Single, Independent, Centralized, Decentralized, Hybrid) kullanarak, standartlaştırılmış araçlar ve token bütçeleriyle 180 konfigürasyonu kapsayan kontrollü bir değerlendirme gerçekleştiriyoruz. Verimlilik, ek yük, hata büyütme ve fazlalık dâhil ampirik koordinasyon metriklerini kullanarak, çapraz doğrulamalı $R^2=0.513$ elde eden bir öngörü modeli türetiyoruz. Üç baskın etki belirliyoruz: (1) araç-koordinasyon ödünleşimi: sabit hesaplama bütçeleri altında, araç ağırlıklı görevler çoklu ajan ek yükünden orantısız biçimde etkilenir. (2) yetenek doygunluğu: tek ajan taban çizgileri yaklaşık %45’i aştığında koordinasyonun getirisi azalır veya negatif olur (beta=-0.408, p<0.001). (3) topolojiye bağlı hata büyütme: bağımsız ajanlar, denetlenmeyen yayılım yoluyla hataları 17.2 kat büyütürken, merkezi koordinasyon bunu 4.4 kat ile sınırlar. Merkezi koordinasyon, finansal akıl yürütme gibi paralelleştirilebilir görevlerde performansı %80.9 artırırken, dağıtık koordinasyon dinamik web gezinmesinde daha iyi sonuç verir (+%9.2’ye karşı +%0.2). Buna karşın sıralı akıl yürütme görevlerinde, tüm çoklu ajan varyantları performansı %39-70 düşürdü. Bu çerçeve, elde tutulmuş konfigürasyonların %87’si için en uygun koordinasyon stratejisini öngörerek, ölçülebilir görev özelliklerine dayalı öngörücü bir ajantik ölçekleme ilkesi sunuyor.

Makale bağlantısı

https://arxiv.org/abs/2512.08296


LMCache: Kurumsal ölçekte LLM çıkarımı için verimli bir KV önbellek katmanı / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

Makale tanıtımı

Büyük dil modeli (LLM) çıkarımının verimliliğini artırmaya yönelik yeni bir yaklaşım olarak LMCache önerildi. Geleneksel olarak KV önbelleği, LLM’nin decoding aşamasını hızlandırmak için GPU belleğinde tutuluyordu; ancak son dönemde kullanıcıların depoladığı KV önbelleği miktarı GPU belleğinin kapasitesini aşmaya başladı. Bu bağlamda LMCache, KV önbelleğini GPU dışına taşıyarak farklı sorgular ve çıkarım motorları arasında yeniden kullanılmasını mümkün kılan ilk açık kaynak çözüm olarak konumlanıyor.

LMCache’in temel işlevi, önbellek offload’u ve prefill-decode (PD) dağıtımını desteklemesidir. Bu sayede sorgular arasında önek yeniden kullanımı mümkün olur ve farklı GPU’lar arasında önbellek aktarımı kolaylaşır. LMCache, performansı en üst düzeye çıkarmak için üç ana katkı sunar. Birincisi, toplu veri taşıma işlemleri ile hesaplama ve giriş/çıkış (I/O) pipeline’ını kullanarak KV önbelleği veri hareketini optimize eder. İkincisi, farklı çıkarım motorlarının gelişimine esnek biçimde uyum sağlayabilmek için modüler KV önbellek bağlayıcıları sunar. Üçüncüsü, GPU, CPU, depolama ve ağ katmanları arasında önbellek koordinasyonu için birinci sınıf kontrol API’leri sağlayarak kullanıcılara esneklik kazandırır.

LMCache’in performansı, vLLM ile birlikte kullanıldığında çok turlu soru-cevap ve belge analizi gibi çeşitli görevlerde işlem hacminde 15 kata kadar artış gösterdi. Gerçek kullanım örnekleri, KV önbelleğinin uzak depolamadan getirilmesinin prefill gecikmesini azaltmada etkili olduğunu doğrularken, sektörde yaygın kullanılan context truncation tekniğinin önek önbellek isabet oranını yarıya indirebileceğine dair önemli bir içgörü de sundu.

Sonuç olarak LMCache, LLM çıkarımının verimliliğini önemli ölçüde artıran yenilikçi bir çözüm olarak, kurumsal ortamlarda büyük ölçekli benimsenme yoluyla çeşitli sektörlere katkı sağlaması bekleniyor. Bu yaklaşım, LLM motorlarını dağıtık hesaplama ve depolama ekosistemlerine dönüştürürken, gelecekte yapay zeka yerel verilerinin LLM çıkarımının temeli hâline gelebileceğine işaret ediyor.

Makale özeti (Abstract)

KV önbelleği, geleneksel olarak büyük dil modeli (LLM) çıkarımının decoding aşamasını hızlandırmak için GPU belleğinde depolanıyordu. Ancak farklı sorgular ve çıkarım motorları arasında önbellek yeniden kullanımını mümkün kılmak için KV önbelleğini GPU aygıtlarının dışına taşımaya yönelik ihtiyaç giderek artıyor. Gerçek dünya kullanım istatistiklerimiz bu eğilimi doğruluyor: zaman içinde kullanıcılar tarafından depolanan toplam KV önbelleği hızla büyüyerek GPU belleğinin kapasitesini çoktan aştı. Bu ihtiyaca rağmen, KV önbelleğini offload etmek ve aktarmak için verimli bir çözüm eksik. Biz, modern LLM motorları (vLLM ve SGLang) tarafından üretilen KV önbelleklerini GPU belleği dışına çıkarıp depolayan ve bunları motorlar ile sorgular arasında paylaşan, ilk ve şu ana kadarki en verimli açık kaynak KV önbellekleme çözümü olan LMCACHE'i sunuyoruz. LMCACHE, hem önbellek offload'unu (sorgular arasında prefix yeniden kullanımı) hem de prefill-decode (PD) ayrıştırmasını (motorlar/GPU'lar arası önbellek aktarımı) destekler. LMCACHE'in yüksek performansı ve geniş çaplı benimsenmesi şu katkılardan kaynaklanır: (1) toplu veri taşıma işlemleri ile compute ve I/O pipelining tarafından desteklenen, son derece optimize edilmiş KV önbellek veri taşıma; (2) LMCACHE'i çıkarım motorlarının hızlı evriminden ayıran modüler bir KV önbellek bağlayıcı bileşeni; (3) GPU, CPU, depolama ve ağ katmanları arasında esnek önbellek orkestrasyonu için birinci sınıf kontrol API'si. Değerlendirmemiz, LMCACHE ile vLLM'in birlikte kullanılmasının çok turlu soru-cevap ve belge analizi gibi iş yüklerinde throughput'u 15 kata kadar artırdığını gösteriyor. Kurumsal ortamlarda LMCACHE'in büyük ölçekli benimsenmesi bize değerli içgörüler de sağlıyor; örneğin KV önbelleğini uzak depolamadan getirmenin prefill gecikmesi açısından beklenmedik olmayacak şekilde fayda sağladığını ve endüstride yaygın olarak kullanılan context truncation tekniğinin prefix önbellek isabet oranını yarıya kadar ciddi biçimde düşürebildiğini gösteriyor. LMCACHE'in kaynak koduna şu bağlantıdan ulaşabilirsiniz: https://github.com/LMCache/LMCache.
> KV cache has traditionally been stored in GPU memory to accelerate the decoding phase of large language model (LLM) inference. However, it is increasingly necessary to move KV caches outside GPU devices, to enable cache reuse across different queries and inference engines. Our real-world usage statistics confirm this trend: over time, the total KV cache stored by users has grown rapidly, far exceeding the capacity of GPU memory. Despite this need, there lacks an efficient solution for offloading and transferring KV caches. We present LMCACHE, the first and so far the most efficient open-source KV caching solution, which extracts and stores KV caches generated by modern LLM engines (vLLM and SGLang) out of the GPU memory and shares them across engines and queries. LMCACHE supports both cache offloading (prefix reuse across queries) and prefill-decode (PD) disaggregation (cross-engine/GPU cache transfer). LMCACHE's high performance and wide adoption stem from the following contributions: (1) highly optimized KV cache data movement powered by batched data movement operations, compute and I/O pipelining; (2) a modular KV cache connector component, decoupling LMCACHE from the rapid evolution of inference engines; (3) a first-class control API for flexible cache orchestration across GPU, CPU, storage, and network layers. Our evaluation shows that combining LMCACHE with vLLM achieves up to 15x improvement in throughput across workloads such as multi-round question answering and document analysis. Large-scale adoption of LMCACHE in enterprise settings provides us valuable insights, for example, fetching KV cache from remote storage has unsurprisingly benefits to prefill delay, and that context truncation, which is a widely applied technique in industry, can greatly reduce prefix cache hit ratio by half. The source code of LMCACHE is at: https://github.com/LMCache/LMCache.

Makale bağlantısı

https://arxiv.org/abs/2510.09665

Daha fazlasını okuyun

https://github.com/LMCache/LMCache

https://discuss.pytorch.kr/t/lmcache-llm/7179


ReFusion: Paralel otoregresif decoding'e sahip bir diffusion büyük dil modeli / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Makale tanıtımı

ReFusion, paralel otoregresif decoding kullanan yenilikçi bir masked diffusion modelidir ve mevcut otoregresif modellerin (ARM'ler) ve masked diffusion modellerinin (MDM'ler) sınırlamalarını aşmak için tasarlanmıştır. Geleneksel ARM'ler, sıralı decoding yapısı nedeniyle yavaş çıkarım hızları yaşarken, MDM'ler koşullu bağımsızlık varsayar ancak mimari darboğazlar ve tutarsız üretim sorunları nedeniyle verimlilik kaybeder. ReFusion, bu sorunları çözmek için paralel decoding'i slot düzeyine taşır; burada slotlar sabit uzunlukta, ardışık alt diziler olarak tanımlanır.

ReFusion'un çekirdeğinde "planla ve doldur (plan-and-infill)" decoding süreci yer alır. Bu süreçte ilk aşama, zayıf bağımlılığa sahip slotları belirler; ikinci aşamada ise bu slotlar paralel olarak decode edilir. Bu slot tabanlı tasarım, Key-Value (KV) önbelleğinin yeniden kullanımını mümkün kılar ve böylece tüm bağlamın KV durumunu her seferinde yeniden hesaplama ihtiyacını ortadan kaldırır. Sonuç olarak eğitim karmaşıklığı, token kombinasyon uzayından slot düzeyindeki permütasyon uzayına düşerek verimliliği büyük ölçüde artırır.

Deney sonuçlarına göre ReFusion, önceki MDM'lere kıyasla performansı %34 artırmış ve ortalama 18 kat hızlanma sağlamıştır; ayrıca güçlü ARM'lerle arasındaki performans farkını kapatarak ortalama 2,33 kat hızlanma elde etmiştir. Bu sonuçlar, ReFusion'un mevcut modellerin sınırlamalarını aştığını ve yeni diffusion modelleri için yeni olanaklar sunduğunu gösterir.

ReFusion, KV önbelleği yeniden kullanımı ve eğitim karmaşıklığının azaltılması sayesinde hem performans hem de hız açısından yenilikçi katkılar sunar ve gelecekteki araştırma yönleri için önemli içgörüler sağlar. Bu modelin, diffusion modelleri ile otoregresif modellerin güçlü yönlerini birleştirerek büyük dil modellerinin gelişimine katkıda bulunması bekleniyor.

Makale özeti (Abstract)

Otoregresif modeller (ARM'ler), yavaş sıralı çıkarım nedeniyle kısıtlanır. Maskeli difüzyon modelleri (MDM'ler) paralel bir alternatif sunsa da önemli dezavantajlara sahiptir: Key-Value (KV) önbelleklemesini dışarıda bırakmaktan kaynaklanan yüksek hesaplama ek yükü ve işlenmesi mümkün olmayan bir token kombinasyonu uzayı üzerinde bağımlılık öğrenilmesinden doğan tutarsız üretim. Bu sınırlamaları gidermek için, her slotun sabit uzunlukta, bitişik bir alt dizi olduğu daha üst bir slot seviyesine paralel kod çözmeyi taşıyarak üstün performans ve verimlilik sağlayan yeni bir maskeli difüzyon modeli olan ReFusion'ı tanıtıyoruz. Bu, yinelemeli bir planla ve doldur'' kod çözme süreciyle gerçekleştirilir: difüzyon tabanlı planlama adımı önce zayıf bağımlı slotlardan oluşan bir kümeyi belirler, ardından otoregresif doldurma adımı seçilen bu slotları paralel olarak çözer. Slot tabanlı tasarım, birleşik bir nedensel çerçeveyle tam KV önbelleği yeniden kullanımının önünü aynı anda açar ve öğrenme karmaşıklığını token kombinasyonu uzayından yönetilebilir bir slot düzeyi permütasyon uzayına indirger. Yedi farklı benchmark üzerinde yapılan kapsamlı deneyler, ReFusion'ın yalnızca önceki MDM'leri %34 performans artışı ve ortalamada 18$\times$'ten fazla hızlanma ile ezici biçimde geride bırakmakla kalmadığını, aynı zamanda güçlü ARM'lerle arasındaki performans farkını kapatırken ortalama 2.33$\times$ hızlanmayı da koruduğunu gösteriyor. &gt; Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.

Makale bağlantısı

https://arxiv.org/abs/2512.13586

Daha fazla okuma

https://github.com/ML-GSAI/ReFusion

https://huggingface.co/GSAI-ML/ReFusion


Üretim için görsel tokenleştiricilerin ölçeklenebilir ön eğitimi yönünde / Towards Scalable Pre-training of Visual Tokenizers for Generation

Makale tanıtımı

Görsel tokenleştiricilerin gizil uzay kalitesi, modern üretim modellerinin performansını önemli ölçüde etkiler. Ancak mevcut yeniden yapılandırma tabanlı öğrenme yöntemleri, düşük seviyeli bilgiye eğilimli gizil uzaylar üreterek daha iyi piksel düzeyi doğruluğun her zaman daha yüksek kaliteli üretimi garanti etmemesi sorununu doğurur. Bu olgu, "ön eğitim ölçekleme sorunu" olarak tanımlanır ve etkili üretim modelleri için gizil uzayın yüksek seviyeli semantiği özlü biçimde ifade etmesi gerektiğini ortaya koyar.

Bu çalışmada, VTP (Visual Tokenizer Pre-training) adlı yeni ve birleşik bir görsel tokenleştirici ön eğitim çerçevesi önerilmektedir. VTP, görüntü-metin karşıt öğrenmesi, öz denetimli öğrenme ve yeniden yapılandırma kaybını ortak biçimde optimize eden yenilikçi bir yaklaşım benimseyerek üretim performansını artırmaya katkı sağlar. Geniş ölçekli çalışma sonucunda iki temel bulgu elde edilmiştir. Birincisi, semantik anlayışın üretimin temel itici gücü olduğu doğrulanmıştır; ikincisi ise VTP'nin hesaplama kaynakları, model parametreleri ve veri boyutu arttıkça üretim performansının etkili biçimde iyileştiğini gösteren güçlü ölçekleme özellikleri sergilemesidir.

VTP, ImageNet'te %78.2 zero-shot doğruluk ve 0.36 rFID elde ederken, mevcut gelişmiş damıtma yöntemlerine kıyasla 4.1 kat daha hızlı yakınsama göstermiştir. Ayrıca VTP, standart DiT eğitim özelliklerini değiştirmeden ön eğitime daha fazla FLOPS yatırımı yaparak aşağı akış üretimde %65.8 FID iyileşmesi sağlamıştır. Bu sonuçlar, VTP'nin geleneksel otoenkoder yaklaşımına kıyasla üstün performans sunduğunu ve ölçeklenebilir bir model olarak konumlanabileceğini göstermektedir.

Sonuç olarak VTP, görsel tokenleştiricilerin ön eğitim ölçekleme sorununu çözmeye ve gizil uzayın anlaşılması ile üretim kabiliyeti arasındaki güçlü korelasyonu ortaya koymaya katkı sağlar. Bu çalışma, üretim modellerinin performansını artırmak için yeni bir yön sunmakta ve gelecekteki araştırmalar için önemli bir temel oluşturmaktadır.

Makale özeti (Abstract)

Görsel tokenleştiricilerde (ör. VAE) örtük uzayın kalitesi, modern üretici modeller için kritik önemdedir. Ancak standart yeniden yapılandırma tabanlı eğitim paradigması, düşük seviyeli bilgiye eğilimli bir örtük uzay üretir ve temel bir kusura yol açar: daha iyi piksel düzeyi doğruluk, daha yüksek kaliteli üretim anlamına gelmez. Bu da, görsel tokenleştirici ön eğitimine büyük miktarda hesaplama kaynağı ayırmanın üretim performansındaki iyileşmeye zayıf biçimde yansıdığı anlamına gelir. Biz bunu "ön eğitim ölçeklenme sorunu" olarak tanımlıyor ve üretim için etkili olabilmesi adına bir örtük uzayın yüksek seviyeli semantiği özlü biçimde temsil etmesi gerektiğini öne sürüyoruz. Görüntü-metin karşıtsal, öz denetimli ve yeniden yapılandırma kayıplarının ortak optimizasyonuna öncülük eden birleşik bir görsel tokenleştirici ön eğitim çerçevesi olan VTP'yi sunuyoruz. Geniş ölçekli çalışmamız iki temel bulguyu ortaya koyuyor: (1) anlama, üretimin temel itici gücüdür ve (2) üretim performansı, görsel tokenleştirici ön eğitimine ayrılan hesaplama, parametre ve veriyle etkili biçimde ölçeklenen çok daha iyi ölçeklenme özelliklerine sahiptir. Büyük ölçekli ön eğitimin ardından tokenleştiricimiz rekabetçi bir profil sunuyor (ImageNet'te 78.2 zero-shot doğruluk ve 0.36 rFID) ve gelişmiş damıtma yöntemlerine kıyasla üretimde 4.1 kat daha hızlı yakınsama gösteriyor. Daha da önemlisi, etkili biçimde ölçeklenmesidir: standart DiT eğitim özelliklerini değiştirmeden, yalnızca VTP ön eğitimine daha fazla FLOPS yatırımı yaparak aşağı akış üretimde %65.8 FID iyileşmesi elde edilirken, geleneksel autoencoder 1/10 FLOPS seviyesinde çok erken tıkanıyor. Önceden eğitilmiş modellerimiz https://github.com/MiniMax-AI/VTP adresinde mevcuttur.
> Görsel tokenleştiricilerdeki (ör. VAE'ler) örtük uzayın kalitesi, modern üretici modeller için hayati önemdedir. Ancak standart yeniden yapılandırma tabanlı eğitim paradigması, düşük seviyeli bilgiye eğilimli bir örtük uzay üretir ve temel bir kusura yol açar: daha iyi piksel düzeyi doğruluk, daha yüksek kaliteli üretime yol açmaz. Bu da, görsel tokenleştirici ön eğitimine büyük miktarda hesaplama gücü dökmenin üretimde daha iyi performansa zayıf şekilde dönüştüğü anlamına gelir. Biz bunu ön eğitim ölçeklenme sorunu olarak tanımlıyor ve gerekli bir yön değişikliği öneriyoruz: üretim için etkili olabilmesi adına bir örtük uzay, yüksek seviyeli semantiği özlü biçimde temsil etmelidir. Görüntü-metin karşıtsal, öz denetimli ve yeniden yapılandırma kayıplarının ortak optimizasyonuna öncülük eden birleşik bir görsel tokenleştirici ön eğitim çerçevesi olan VTP'yi sunuyoruz. Geniş ölçekli çalışmamız iki ana bulguyu ortaya koyuyor: (1) anlama, üretimin temel itici gücüdür ve (2) üretim performansının, görsel tokenleştirici ön eğitimine ayrılan hesaplama, parametre ve veriyle etkili biçimde ölçeklendiği çok daha iyi ölçeklenme özellikleri vardır. Büyük ölçekli ön eğitimin ardından tokenleştiricimiz rekabetçi bir profil sunuyor (ImageNet üzerinde 78.2 zero-shot doğruluk ve 0.36 rFID) ve gelişmiş damıtma yöntemlerine kıyasla üretimde 4.1 kat daha hızlı yakınsama sağlıyor. Daha da önemlisi, etkili biçimde ölçekleniyor: standart DiT eğitim ayarlarını değiştirmeden, yalnızca VTP ön eğitimine daha fazla FLOPS yatırımı yapmak, aşağı akış üretimde %65.8 FID iyileşmesi sağlarken, geleneksel autoencoder 1/10 FLOPS seviyesinde çok erken durağanlaşıyor. Önceden eğitilmiş modellerimiz https://github.com/MiniMax-AI/VTP adresinde mevcuttur.

Makale bağlantısı

https://arxiv.org/abs/2512.13687

Daha fazla bilgi

https://github.com/MiniMax-AI/VTP


CLaRa: Sürekli Örtük Akıl Yürütme ile Arama ve Üretim Arasında Köprü / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Makale tanıtımı

CLaRa (Continuous Latent Reasoning), retrieval-augmented generation (RAG) sistemlerinin sınırlamalarını aşmak için geliştirilen yenilikçi bir çerçevedir. Mevcut RAG yaklaşımları, uzun bağlamları işlemede zorlanır ve arama ile üretim arasındaki optimizasyonun ayrık olması nedeniyle verimliliği düşüren sorunlar taşır. Bu sorunları çözmek için CLaRa, gömme tabanlı sıkıştırma ve paylaşılan sürekli bir uzayda ortak optimizasyon yoluyla arama ile üretimi birleştiren yeni bir metodoloji önerir.

CLaRa'nın temel bileşenlerinden biri olan SCP (anahtar korumalı veri sentezi), anlam açısından zengin ve aranabilir sıkıştırılmış vektörler üretmek için soru-cevap (QA) ve paraphrase denetimini kullanır. Bu süreç, verinin çeşitliliğini ve kalitesini korurken aramanın doğruluğunu artırmaya katkı sağlar. Ardından CLaRa, reranker ile üreticiyi tek bir dil modelleme kaybı üzerinden uçtan uca eğitir; bu da iki modül arasındaki gradyan akışını optimize eder. Bu birleşik optimizasyon yaklaşımı, aramanın ilgililiğini ve üretilen yanıtların kalitesini hizalamada önemli rol oynar.

Deney sonuçlarına göre CLaRa, çeşitli soru-cevap (QA) benchmark'larında mevcut metin tabanlı yöntemleri aşan son teknoloji sıkıştırma ve yeniden sıralama performansı göstermiştir. Özellikle CLaRa, uzun bağlamları etkili biçimde işlemede avantajlı sonuçlar ortaya koymakta ve bu da birleşik optimizasyon yaklaşımının pratikte gerçekten etkili olduğunu kanıtlamaktadır. Bu başarılar, CLaRa'nın RAG sistemlerinin performansını önemli ölçüde artırma potansiyeline sahip olduğunu göstermektedir.

CLaRa'nın yaklaşımı, mevcut RAG araştırmalarından ayrışır ve arama ile üretimi doğrudan optimize eden ilk yöntem olarak, gelecekte çeşitli uygulama alanlarına uyarlanabilme potansiyeli göstermektedir. Bu çalışma, RAG sistemleri için yeni olanaklar sunmakta ve gelecekteki araştırmalar için önemli bir temel kaynak olması beklenmektedir.

Makale özeti (Abstract)

Arama destekli üretim (RAG), büyük dil modellerini (LLM) harici bilgiyle güçlendirir; ancak hâlâ uzun bağlamlar ve birbirinden kopuk arama-üretim optimizasyonu sorunlarından muzdariptir. Bu çalışmada, paylaşılan sürekli bir uzayda embedding tabanlı sıkıştırma ve ortak optimizasyon gerçekleştiren birleşik bir çerçeve olan CLaRa'yı (Continuous Latent Reasoning) öneriyoruz. Anlamsal açıdan zengin ve geri getirilebilir sıkıştırılmış vektörler elde etmek için, QA ve paraphrase denetimini kullanan, anahtar korumalı bir veri sentezi çerçevesi olan SCP'yi tanıtıyoruz. Ardından CLaRa, yeniden sıralayıcıyı ve üreticiyi tek bir dil modelleme kaybı üzerinden uçtan uca eğitir; gradyanlar, türevlenebilir bir top-k kestiricisi kullanılarak her iki modülden de akar. Kuramsal olarak bu birleşik optimizasyon, arama ilgililiği ile yanıt kalitesini hizalar. Birden çok QA benchmark'ında yapılan deneyler, CLaRa'nın son teknoloji sıkıştırma ve yeniden sıralama performansına ulaştığını, çoğu zaman metin tabanlı fine-tuning taban çizgilerini aştığını göstermektedir.
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.

Makale bağlantısı

https://arxiv.org/abs/2511.18659

Daha fazlası

https://github.com/apple/ml-clara


⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları e-posta💌 ile size göndeririz! (Varsayılan ayar Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)

Henüz yorum yok.

Henüz yorum yok.