ML makaleleri derlemesi

(discuss.pytorch.kr)

1 puan yazan ninebow 2025-10-10 | Henüz yorum yok. | WhatsApp'ta paylaş

[2025/09/29 ~ 10/05] Bu hafta göz atmaya değer AI/ML makaleleri derlemesi

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Bilginin doğruluğu ve güvenilirliğini artırma: Birçok makalede bilginin doğruluğunu ve güvenilirliğini yükseltmek için çeşitli yaklaşımlar öneriliyor. Örneğin, "Incentive-Aligned Multi-Source LLM Summaries" çalışmasında Truthful Text Summarization (TTS) çerçevesiyle bilginin doğruluğu güvence altına alınırken, "AgentMaster" makalesinde çok ajanlı sistemler kullanılarak güvenilir bilgi arama ve analiz destekleniyor.

2️⃣ Çok ajanlı sistemlerin gelişimi: Birçok araştırmada çok ajanlı sistemlerin (MAS, Multi-Agent System) kullanımı artıyor ve bu yaklaşım karmaşık görevlerin çözümünde büyük fayda sağlıyor. "TUMIX" ve "AgentMaster" makaleleri, çeşitli araçlardan yararlanan ajanlar arası iş birliği ve etkileşim yoluyla performansın nasıl artırılabileceğini ortaya koyuyor.

3️⃣ Bilgi enjeksiyonu ve sürekli öğrenme: "How to inject knowledge efficiently?" ve "Continual Learning for VLMs" makalelerinde alan bilgisini etkili biçimde enjekte etme ve olağandışı veriler üzerinde sürekli öğrenme yöntemleri araştırılıyor. Bu çalışmalar, model performansını artırmaya ve mevcut bilginin kaybolmasını önlemeye odaklanıyor.

ARE: Ajan ortamlarının ve değerlendirmelerin ölçeklendirilmesi / ARE: Scaling Up Agent Environments and Evaluations

Makale tanıtımı

Meta Superintelligence Lab tarafından yayımlanan Meta Agents Research Environments (ARE), ajan ortamlarının ölçeklenebilirliğini artıran, sentetik veya gerçek uygulamaların entegrasyonunu destekleyen ve ajan orkestrasyonlarının yürütülmesini mümkün kılan yenilikçi bir araştırma platformudur. ARE, karmaşık ve çeşitli ortamlar kurmak için basit soyutlamalar sunar; böylece her ortamın kendine özgü kurallara, araçlara, içeriklere ve doğrulayıcılara sahip olmasını sağlayarak model geliştirme ile gerçek dünya dağıtımı arasındaki boşluğu kapatmaya yardımcı olur.

ARE'nin başlıca yeniliklerinden biri Gaia2 adlı benchmark'ın tanıtılmasıdır. Gaia2, ajanların genel yeteneklerini ölçmek için tasarlanmıştır ve yalnızca arama ile yürütmenin ötesine geçerek, ajanların belirsizlik ve gürültüyle başa çıkmasını, dinamik ortamlara uyum sağlamasını, diğer ajanlarla iş birliği yapmasını ve zaman kısıtları altında görev yerine getirmesini gerektiren karmaşık koşullar içerir. Özellikle Gaia2'nin asenkron biçimde çalışması, statik ortamlarda ortaya çıkmayan yeni hata modlarını görünür kılarak ajan performansının daha incelikli şekilde değerlendirilmesini sağlar.

Deney sonuçları, hiçbir sistemin zeka spektrumunun tamamında üstünlük kuramadığını ve güçlü muhakeme yeteneklerinin çoğu zaman verimlilikten ödün verilmesi pahasına geldiğini gösteriyor. Bütçe ölçekleme eğrilerinin plato yapması, yeni mimarilere ve uyarlanabilir hesaplama stratejilerine duyulan ihtiyacı vurguluyor. Bu bulgular, AI araştırmasının yönüne işaret ederken ARE ve Gaia2'nin önemini de öne çıkarıyor.

ARE'nin soyutlamaları, Gaia2'nin başka ortamlara sürekli olarak genişletilebilmesini sağlayarak araştırma topluluğunun kendi alanlarına uygun yeni benchmark'ları hızla oluşturmasına imkan tanır. AI'ın ilerleyişi giderek daha fazla anlamlı görevlerin ve sağlam değerlendirmelerin tanımlanmasına bağlı hale gelecektir ve bu da ARE'nin sunduğu imkanlarla mümkün olacaktır. Bu bağlamda ARE, ajan geliştirme ve değerlendirme için gerekli araçları sunar ve AI araştırmasının ön cephesinde önemli bir rol oynayacaktır.

Makale özeti(Abstract)

Meta Agents Research Environments (ARE)'i tanıtıyoruz. ARE, ortamların ölçeklenebilir biçimde oluşturulması, sentetik veya gerçek uygulamaların entegre edilmesi ve ajan orkestrasyonlarının yürütülmesi için bir araştırma platformudur. ARE, her biri farklı kurallara, araçlara, içeriklere ve doğrulayıcılara sahip karmaşık ve çeşitli ortamlar inşa etmek için basit soyutlamalar sunarak model geliştirme ile gerçek dünya dağıtımı arasındaki boşluğu kapatmaya yardımcı olur. Ayrıca, ARE üzerinde inşa edilmiş ve genel ajan yeteneklerini ölçmek üzere tasarlanmış bir benchmark olan Gaia2'yi öneriyoruz. Gaia2, arama ve yürütmenin ötesinde, ajanların belirsizlik ve gürültüyle başa çıkmasını, dinamik ortamlara uyum sağlamasını, diğer ajanlarla iş birliği yapmasını ve zaman kısıtları altında çalışmasını gerektirir. Önceki benchmark'lardan farklı olarak Gaia2 asenkron çalışır ve statik ortamlarda görünmeyen yeni hata modlarını ortaya çıkarır. Deneylerimiz, hiçbir sistemin zeka spektrumunun tamamında üstünlük sağlayamadığını göstermektedir: daha güçlü muhakeme çoğu zaman verimlilikten ödün verilmesi anlamına gelir ve bütçe ölçekleme eğrileri plato yaparak yeni mimarilere ve uyarlanabilir hesaplama stratejilerine ihtiyaç duyulduğunu vurgular. Belki de daha önemlisi, ARE'nin soyutlamaları Gaia2'nin başka ortamlara sürekli olarak genişletilmesini mümkün kılarak topluluğun kendi alanlarına uyarlanmış yeni benchmark'ları hızla üretmesini sağlamaktadır. AI'ın ikinci yarısında ilerleme, öncü yetenekleri ileri taşımak için giderek daha fazla anlamlı görevlerin ve sağlam değerlendirmelerin tanımlanmasına bağlı olacaktır.

We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.

Makale bağlantısı

https://arxiv.org/abs/2509.17158

Teşvik uyumlu çok kaynaklı LLM özetleri / Incentive-Aligned Multi-Source LLM Summaries

Makale tanıtımı

Büyük dil modelleri (LLM), modern bilgi arama ve yanıt sistemlerinde birden fazla kaynaktan gelen metni birleştirerek tek bir yanıt üretmek için yaygın olarak kullanılıyor. Ancak mevcut sistemler, kaynakların doğruluğunu garanti etmede sınırlı kalıyor ve adversarial içeriğe karşı savunmasız olma sorununu taşıyor. Bu sorunları çözmek için önerilen Truthful Text Summarization (TTS) çerçevesi, gerçek etiketler olmadan da çalışabilen ve olgusal dayanıklılığı artıran yenilikçi bir yaklaşım sunuyor. TTS, taslak özeti atomik iddialara ayırıyor, her kaynağın iddialarını değerlendiriyor ve bilgideki tutarlılığı ödüllendiren uyarlanmış çok görevli akran tahmini mekanizmasıyla kaynakları puanlıyor. Güvenilir olmayan kaynaklar elendikten sonra yeniden özetleme yapılması, kaynak teşviklerini bilginin dürüstlüğüyle hizalayarak doğru raporlamayı faydayı en üst düzeye çıkaran strateji haline getiriyor.

TTS’nin metodolojisi, bilginin doğruluğunu güvence altına almak için yeni bir yaklaşım sunarken, mevcut bilgi özetleme ve LLM araştırmalarından nasıl ayrıştığını da ortaya koyuyor. Deney sonuçları, TTS’nin akıcılığı korurken olgusal doğruluğu ve dayanıklılığı iyileştirmede başarılı olduğunu gösterdi; bu da bilginin doğrulanması ve hizalanması yoluyla manipülasyonu bastırmaya katkı sağlıyor. Bu çalışma, bilgi özetleme sistemlerinin güvenilirliğini önemli ölçüde artırma potansiyeli taşıyor ve gelecekte farklı alanlara uygulanabilirliğin araştırılması için önemli bir temel oluşturuyor. TTS, bilginin doğruluğunu artırırken aynı zamanda kaynak teşviklerini hizalayarak bilgi özetleme sistemlerinin güvenilirliğini büyük ölçüde yükseltebilecek bir potansiyel ortaya koyuyor.

Makale özeti (Abstract)

Büyük dil modelleri (LLM), modern arama ve yanıt sistemlerinde birden fazla, bazen birbiriyle çelişen metni tek bir yanıtta sentezlemek için giderek daha fazla kullanılıyor; ancak mevcut işlem hatları, kaynakların doğru olmasını teşvik etme konusunda zayıf kalıyor ve adversarial içeriğe karşı savunmasız oluyor. Gerçek etiketler olmadan olgusal dayanıklılığı artıran, teşvik hizalamalı bir çerçeve olan Truthful Text Summarization (TTS)’ı tanıtıyoruz. TTS, (i) taslak sentezi atomik iddialara ayırır, (ii) her kaynak için her iddiaya yönelik tutumu ortaya çıkarır, (iii) bilgilendirici uzlaşmayı ödüllendiren uyarlanmış çok görevli bir akran tahmini mekanizmasıyla kaynakları puanlar ve (iv) yeniden özetleme öncesinde güvenilir olmayan kaynakları filtreler. Bir kaynağın teşviklerini bilgilendirici dürüstlükle hizalayan ve doğru raporlamayı faydayı en üst düzeye çıkaran strateji haline getiren biçimsel güvenceler ortaya koyuyoruz. Deneyler, TTS’nin akıcılığı korurken olgusal doğruluğu ve dayanıklılığı artırdığını, görünürlüğü bilgilendirici doğrulamayla hizaladığını ve manipülasyonu caydırdığını gösteriyor.
> Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.

Makale bağlantısı

https://arxiv.org/abs/2509.25184

TUMIX: Araç kullanımı karışımıyla çok etmenli test zamanı ölçekleme / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

Makale tanıtımı

Tool-Use Mixture (TUMIX), birden fazla etmeni paralel olarak çalıştırıp her birinin farklı araç kullanım stratejileri ve yanıt yolları benimsemesini sağlayan bir ansambl çerçevesidir. Bu metodoloji, metin tabanlı akıl yürütme, kodlama ve aramayı birleştirerek çeşitli sorulara etkili çözümler sunmaya odaklanır. TUMIX’in etmenleri, soru ve önceki yanıtları temel alarak yanıtları yinelemeli biçimde paylaşır ve iyileştirir; bu da daha derin entegrasyon ve farklı akıl yürütme yollarının keşfedilmesini mümkün kılar.

TUMIX, mevcut araç güçlendirmeli ve test zamanı ölçekleme yöntemlerine kıyasla ortalama %3,55 doğruluk artışı elde etti ve Gemini-2.5-Pro ile Gemini-2.5-Flash modellerinde başlıca akıl yürütme benchmark’larında üstün performans gösterdi. Bu sonuçlar, etmen çeşitliliği ve kalitesinin kritik unsurlar olduğunu gösteriyor; ayrıca çalışma, LLM’leri kullanarak etmen tasarımını otomatik olarak optimize etme yöntemini öneriyor. Bu sayede TUMIX, ortalama %1,2 ek doğruluk artışı sağladı.

TUMIX, yeterli güven düzeyine ulaşıldığında iyileştirme sürecini durdurabildiği için performansı korurken çıkarım maliyetini %49 oranında azaltan yenilikçi bir yaklaşım sunuyor. Ek ölçekleme ile daha yüksek performans elde edilebilse de bu durumda maliyetin artması, gelecekteki araştırmalarda dikkate alınması gereken önemli bir unsur.

Bu araştırma, LLM’lerin araç kullanımı ve akıl yürütme yeteneklerini en üst düzeye çıkarma yöntemini sunuyor ve çeşitli sorular için etkili çözümler sağlamaya katkıda bulunuyor. TUMIX, mevcut metodolojilerden farklılaşan yaklaşımıyla gerçek uygulamalara daha iyi genellenebilme potansiyeli gösteriyor.

Makale özeti (Abstract)

Code Interpreter ve Search gibi çeşitli araçların entegre edilmesi, ChatGPT Agent ve Gemini-Pro gibi modellerde büyük dil modellerinin (LLM) muhakemesini önemli ölçüde geliştirmiş olsa da, en uygun araç kullanımına dair pratik rehberlik eksiktir. Temel zorluk, farklı soru türleri için metinsel muhakeme, kodlama ve aramayı etkili biçimde birleştirmektir. Bu makalede, farklı araç kullanım stratejileri ve yanıt yolları kullanan birden fazla ajanı paralel olarak çalıştıran bir ensemble çerçevesi olan Tool-Use Mixture (TUMIX) önerilmektedir. TUMIX içindeki ajanlar, soru ve önceki yanıtlara dayanarak yanıtları yinelemeli biçimde paylaşır ve iyileştirir. Deney sonuçları, TUMIX’in son teknoloji araçla güçlendirilmiş ve test-time scaling yöntemlerine kıyasla anlamlı kazanımlar elde ettiğini; Gemini-2.5-Pro ve Gemini-2.5-Flash üzerinde temel muhakeme benchmark’larında en iyi baseline’a göre ortalama %3,55’e kadar doğruluk artışı sağlarken çıkarım maliyetini neredeyse aynı seviyede tuttuğunu göstermektedir. Ajan çeşitliliği ve kalitesinin kritik olduğunu ve ajan tasarımlarını LLM’ler kullanarak otomatik optimize etmenin bunu daha da iyileştirebildiğini gördük. Ayrıca TUMIX, yeterli güven düzeyine ulaşıldığında iyileştirmeyi durdurabildiği için, performansı çıkarım maliyetinin yalnızca %49’uyla koruyabilmektedir. Ek ölçeklendirme ile daha yüksek performans elde edilebilir, ancak bunun karşılığında maliyet artacaktır.
> Code Interpreter ve Search gibi araçların entegre edilmesi, ChatGPT Agent ve Gemini-Pro gibi modellerde Büyük Dil Modeli (LLM) muhakemesini önemli ölçüde geliştirmiş olsa da, en uygun araç kullanımına ilişkin pratik rehberlik eksiktir. Temel zorluk, farklı soru türleri için metinsel muhakeme, kodlama ve aramayı etkili biçimde birleştirmektir. Bu makalede, farklı araç kullanım stratejileri ve yanıt yolları kullanan birden fazla ajanı paralel olarak çalıştıran bir ensemble çerçevesi olan Tool-Use Mixture (TUMIX) öneriyoruz. TUMIX’teki ajanlar, soru ve önceki yanıtlara dayanarak yanıtları yinelemeli olarak paylaşır ve iyileştirir. Deneylerde TUMIX, son teknoloji araçla zenginleştirilmiş ve test-time scaling yöntemlerine göre önemli kazanımlar elde ederek, Gemini-2.5-Pro ve Gemini-2.5-Flash üzerinde temel muhakeme benchmark’larında en iyi baseline’a kıyasla ortalama %3,55’e kadar doğruluk artışı sağlarken çıkarım maliyetlerini neredeyse eşit düzeyde tutmaktadır. Ajan çeşitliliği ve kalitesinin kritik olduğunu ve ajan tasarımlarını otomatik optimize etmek için LLM’lerin kullanılmasının bunu iyileştirebildiğini görüyoruz. Ayrıca TUMIX, yeterli güvene ulaşıldığında iyileştirmeyi durdurabilir ve böylece performansı çıkarım maliyetinin yalnızca %49’unda korur. Daha fazla ölçeklendirme daha yüksek performans sağlayabilir, ancak daha yüksek bir maliyetle.

Makale bağlantısı

https://arxiv.org/abs/2510.01279

Kendi Sözleriyle: Küçük Modeller İçin Uyarlanmış Muhakeme İzleri Onları Daha İyi Muhakeme Eden Modellere Dönüştürüyor / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners

Makale tanıtımı

Büyük dil modellerinden küçük modellere muhakeme yeteneği aktarımı, çoğu zaman beklentilerin aksine performans düşüşüne yol açan bir sorun taşır. Bu olgu, gözetimli ince ayar (Supervised Fine-Tuning, SFT) sürecinde ortaya çıkan dağılımsal uyumsuzluktan (Distributional Misalignment) kaynaklanır; çünkü büyük modelin muhakeme izleri, küçük modelin olasılık dağılımıyla örtüşmeyen düşük olasılıklı token’lar içerir. Bunun sonucunda küçük model, büyük modelin gelişmiş muhakeme örüntülerini etkili biçimde öğrenemez ve hatta bir öğrenme engeline çarpar.

Bu sorunu çözmek için önerilen yöntem olan Reverse Speculative Decoding (RSD), öğretmen modelin aday token’lar önermesi ve öğrenci modelin kendi olasılık dağılımına dayanarak bunları kabul edip etmeyeceğine karar vermesi şeklinde çalışır. Bu süreçte düşük olasılıklı token’lar filtrelenir; böylece küçük modelin işleyebileceği aralık içinde yararlı muhakeme adımlarının korunması sağlanır. RSD, Qwen3-0.6B modeline uygulanmıştır; mevcut doğrudan distilasyon yöntemiyle üretilen muhakeme izi verisi ortalama performansı %20,5 düşürürken, RSD ile üretilen muhakeme izleriyle eğitim verildiğinde anlamlı bir %4,9 performans artışı görülmüştür.

RSD’nin etkisi çeşitli muhakeme benchmark’larında tutarlı biçimde gözlemlenmiş ve düşük olasılıklı token’ların etkili muhakeme aktarımındaki temel darboğaz olduğunu vurgulamıştır. Ayrıca RSD’nin model bazında optimize edilmesi gerektiğini ve her öğrenci modelin kendine özgü iç temsillerine uyacak şekilde dağılımsal hizalama gerektiğini düşündürmektedir. Bu araştırma bulguları, küçük modellerin performansını artırabilecek önemli bir yöntem olarak değerlendirilmekte ve gelecekteki araştırmalarda uygulanabilirliğine işaret etmektedir.

Sonuç olarak RSD, büyük modellerin muhakeme yeteneğini küçük modellere etkili biçimde aktarabilen yenilikçi bir yaklaşımdır ve düşük olasılıklı token’ları filtreleyerek küçük modellerin muhakeme kabiliyetini geliştirmeye katkıda bulunur. Bu çalışma, küçük modellerin performansını iyileştirmek için yeni bir yön ortaya koymakta ve gelecekte yapay zeka ile makine öğrenimi alanlarındaki uygulama olanaklarını genişletebilecek önemli bir temel sunmaktadır.

Makale özeti (Abstract)

Daha büyük dil modellerinden daha küçük modellere akıl yürütme yeteneği aktarımı, denetimli ince ayar yoluyla sezgiye aykırı biçimde çoğu zaman başarısız olur ve yüksek kaliteli öğretmen gösterimlerine erişim olmasına rağmen performans düşer. Bu başarısızlığın dağılımsal uyumsuzluktan kaynaklandığını tespit ettik: daha büyük modellerin akıl yürütme izleri, öğrencinin dağılımı altında düşük olasılıklı token’lar içerir; bu da daha küçük mimarilerin iç temsil kapasitesini aşarak yararlı bir rehberlik yerine öğrenme engeli oluşturur. Öğretmen modelin aday token’lar önerdiği, öğrencinin ise kendi olasılık dağılımına göre bunları kabul edip etmeye karar vererek düşük olasılıklı token’ları filtrelediği, öğrenci dostu akıl yürütme izleri üretmeye yönelik bir mekanizma olan Reverse Speculative Decoding (RSD) yöntemini öneriyoruz. Qwen3-0.6B’ye uygulandığında, s1K-1.1 akıl yürütme izi verisinin doğrudan damıtılması başlıca akıl yürütme benchmark’larında ortalama performansı %20,5 düşürürken, RSD ile üretilmiş akıl yürütme izleriyle eğitilen aynı model anlamlı bir %4,9 iyileşme elde ediyor. Analizimiz, düşük olasılıklı token’ların akıl yürütme yeteneği aktarımındaki kritik darboğazı oluşturduğunu gösteriyor. Ancak modeller arası deneyler, RSD izlerinin evrensel olarak uygulanabilir değil modele özgü olduğunu ortaya koyuyor; bu da dağılımsal hizalamanın her öğrenci mimarisinin kendine özgü iç temsiline göre uyarlanması gerektiğini gösteriyor.
> Daha büyük dil modellerinden daha küçük modellere akıl yürütme yeteneklerini denetimli ince ayar yoluyla aktarmak, yüksek kaliteli öğretmen gösterimlerine erişim olmasına rağmen performansın düşmesiyle birlikte çoğu zaman sezgiye aykırı biçimde başarısız olur. Bu başarısızlığın dağılımsal uyumsuzluktan kaynaklandığını belirledik: daha büyük modellerden gelen akıl yürütme izleri, öğrencinin dağılımı altında düşük olasılıklı token’lar içerir; bu da daha küçük mimarilerin iç temsil kapasitesini aşarak yararlı rehberlikten çok öğrenme engelleri yaratır. Öğretmen modelin aday token’lar önerdiği, ancak öğrencinin kendi olasılık dağılımlarına göre kabul kararını vererek düşük olasılıklı token’ları filtrelediği, öğrenci dostu akıl yürütme izleri üretmek için Reverse Speculative Decoding (RSD) mekanizmasını öneriyoruz. Qwen3-0.6B’ye uygulandığında, s1K-1.1 akıl yürütme izi verisinin doğrudan damıtılması başlıca akıl yürütme benchmark’larında ortalama performansı %20,5 düşürürken, RSD ile oluşturulan akıl yürütme izleri üzerinde eğitilen aynı model %4,9’luk anlamlı iyileşme elde ediyor. Analizimiz, düşük olasılıklı token’ların akıl yürütme yeteneği aktarımındaki kritik darboğazı oluşturduğunu ortaya koyuyor. Ancak modeller arası deneyler, RSD izlerinin evrensel olarak uygulanabilir olmaktan ziyade modele özgü olduğunu gösteriyor; bu da dağılımsal hizalamanın her öğrenci mimarisinin benzersiz iç temsiline göre uyarlanması gerektiğine işaret ediyor.

Makale bağlantısı

https://arxiv.org/abs/2509.22230

AgentMaster: Multimodal Bilgi Erişimi ve Analizi için A2A ve MCP Protokollerini Kullanan Çok Ajanlı Konuşma Çerçevesi / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis

Makale tanıtımı

Yapay zeka (AI) alanında Multi-Agent Systems (MAS) gelişimi, birden fazla akıllı ajanın iş birliği içinde karmaşık problemleri çözmesinde önemli bir rol oynuyor. Ancak mevcut MAS yapıları, ajanlar arasında sorunsuz iletişim, koordinasyon ve çeşitli araçlar ile kaynaklarla etkileşim konusunda çeşitli zorluklarla karşı karşıya. Bu sorunları çözmek amacıyla bu çalışma, AgentMaster adlı yeni ve modüler bir MAS çerçevesi öneriyor. Bu çerçeve, dinamik koordinasyon ve esnek iletişimi mümkün kılmak için Agent-to-Agent (A2A) iletişim protokolü ile Model Context Protocol (MCP) yapısını entegre ediyor.

AgentMaster, kullanıcıların teknik uzmanlığa ihtiyaç duymadan sistemle doğal dil üzerinden etkileşim kurabilmesi için tasarlanmış birleşik bir konuşma arayüzü sunuyor. Bu sayede bilgi erişimi, soru yanıtlama, görüntü analizi gibi çeşitli multimodal sorgulara yanıt verebiliyor. Çalışmanın temel katkısı, A2A ve MCP’den yararlanarak ajanlar arasında etkili koordinasyonu ve uzmanlaşmış arama ajanları arasında kesintisiz iletişimi mümkün kılmasıdır. Ayrıca AgentMaster, kullanıcı sorgularını uzmanlaşmış iş akışlarına ayırarak otomatik sorgu ayrıştırma, görev atama ve dinamik yönlendirmeyi destekliyor.

Deney sonuçlarında AgentMaster, BERTScore F1’de %96,3 ve LLM-as-a-Judge G-Eval’de %87,1 gibi yüksek sonuçlar elde etti. Bu bulgular, ajanlar arasında güçlü otomatik koordinasyonu ve alan özelinde ilgili yanıtları ortaya koyarken, MAS’ın potansiyelini genişletmeye katkı sağlıyor. Bu çalışma, A2A ve MCP’yi entegre eden MAS çerçevesinin yenilikçiliğini gösteriyor ve iş birlikçi, ölçeklenebilir konuşma tabanlı yapay zekanın gelişimine önemli katkı sunması bekleniyor.

Makale özeti (Abstract)

Multi-Agent Systems (MAS) yükselişi, özellikle Large Language Models (LLM) ile entegre edildiğinde, karmaşık görevlerin çözümünü büyük ölçüde kolaylaştırdı. Ancak mevcut sistemler hâlâ ajanlar arası iletişim, koordinasyon ve heterojen araçlar ile kaynaklarla etkileşim konularında zorluklarla karşılaşıyor. Kısa süre önce Anthropic’in Model Context Protocol (MCP) ve Google’ın Agent-to-Agent (A2A) iletişim protokolü tanıtıldı; bildiğimiz kadarıyla, her iki protokolün de tek bir MAS çerçevesi içinde aynı anda kullanıldığı uygulama sayısı oldukça az. Dinamik koordinasyon, esnek iletişim ve hızlı yinelemeyle çabuk geliştirme sağlayan, kendi uyguladığımız A2A ve MCP’ye sahip yeni, modüler ve çok protokollü bir MAS çerçevesi olan AgentMaster üzerine bir pilot çalışma sunuyoruz. Birleşik konuşma arayüzü sayesinde sistem, önceden teknik uzmanlık gerektirmeden doğal dil etkileşimini destekliyor ve bilgi erişimi, soru yanıtlama ve görüntü analizi gibi görevler için çok modlu sorgulara yanıt veriyor. Deneyler, insan değerlendirmesinin yanı sıra BERTScore F1 (%96,3) ve LLM-as-a-Judge G-Eval (%87,1) gibi nicel metriklerle doğrulandı. Bu sonuçlar, güçlü otomatik ajanlar arası koordinasyon, sorgu ayrıştırma, görev atama, dinamik yönlendirme ve alan özelinde ilgili yanıtlar üretildiğini gösteriyor. Genel olarak önerdiğimiz çerçeve, MAS tarafından desteklenen alan odaklı, iş birlikçi ve ölçeklenebilir konuşma tabanlı yapay zekanın potansiyel yeteneklerine katkı sağlıyor.
> Yapay Zeka (AI) alanında Multi-Agent Systems (MAS), özellikle Large Language Models (LLMs) ile entegre edildiğinde, karmaşık görevlerin çözümünü büyük ölçüde kolaylaştırmıştır. Ancak mevcut sistemler, ajanlar arası iletişim, koordinasyon ve heterojen araçlar ile kaynaklarla etkileşim gibi zorluklarla hâlâ karşı karşıyadır. En son olarak Anthropic’in Model Context Protocol (MCP) ve Google’ın Agent-to-Agent (A2A) iletişim protokolü tanıtılmıştır ve bildiğimiz kadarıyla her iki protokolün de tek bir MAS çerçevesi içinde kullanıldığı uygulama sayısı oldukça azdır. Dinamik koordinasyon, esnek iletişim ve daha hızlı yineleme ile hızlı geliştirme sağlayan, kendi uyguladığımız A2A ve MCP’ye sahip yeni, modüler ve çok protokollü bir MAS çerçevesi olan AgentMaster üzerine bir pilot çalışma sunuyoruz. Birleşik bir konuşma arayüzü üzerinden sistem, önceden teknik uzmanlık gerektirmeden doğal dil etkileşimini destekler ve bilgi erişimi, soru yanıtlama ve görüntü analizi gibi görevler için çok modlu sorgulara yanıt verir. Deneyler, insan değerlendirmesinin yanı sıra BERTScore F1 (%96,3) ve LLM-as-a-Judge G-Eval (%87,1) dâhil nicel metriklerle doğrulanmıştır. Bu sonuçlar, güçlü otomatik ajanlar arası koordinasyon, sorgu ayrıştırma, görev atama, dinamik yönlendirme ve alana özgü ilgili yanıtlar üretildiğini göstermektedir. Genel olarak önerdiğimiz çerçeve, MAS destekli alana özgü, iş birlikçi ve ölçeklenebilir konuşma tabanlı yapay zekanın potansiyel yeteneklerine katkıda bulunmaktadır.

Makale bağlantısı

https://arxiv.org/abs/2507.21105

Bilgi nasıl verimli enjekte edilir?: Büyük dil modellerinin ön eğitimi için Bilgi Enjeksiyonu Ölçekleme Yasası / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models

Makale tanıtımı

Büyük dil modelleri (LLM'ler) çeşitli görevlerde üstün performans gösterse de, alan özelinde optimizasyon yetersiz olduğunda uzmanlık bilgisi kıyaslamalarında düşük performans sergileyebilir ve halüsinasyon üretebilir. Bu çalışma, ön eğitim (pre-training) sürecinde alan bilgisinin stratejik olarak nasıl enjekte edileceğine dair bir yöntem öneriyor ve bu süreçte ortaya çıkan bellek çöküşü (memory collapse) olgusuna odaklanıyor. Bellek çöküşü, aşırı bilgi enjeksiyonu nedeniyle ortaya çıkıyor ve modelin bilgiyi koruma yeteneğini keskin biçimde düşürüyor. Araştırma ekibi iki temel gözlem elde etti. Birincisi, her modelin bilgiyi koruma kapasitesinin aniden düştüğü bir eşik noktası bulunuyor; ikincisi ise bu çöküş noktasının model boyutuyla tutarlı biçimde ölçeklenmesi.

Bu içgörülerden hareketle çalışma, bilgi enjeksiyonu ölçekleme yasasını (knowledge infusion scaling law) öneriyor. Bu yasa, büyük LLM'lere enjekte edilecek en uygun alan bilgisi miktarını öngörmeye yardımcı oluyor ve farklı model boyutlarıyla ilişkili token bütçeleri üzerinde yapılan deneylerle etkinliği ve genellenebilirliği doğrulanıyor. Özellikle, bellek çöküşünün aşırı bilgi enjeksiyonundan kaynaklandığını gösteriyor; bu da seyrek token düzeyindeki bilgi enjeksiyonunun büyük veri kümelerinde bile yeterli olabileceğine işaret ediyor.

Araştırma ayrıca farklı eğitim veri kümesi boyutları ve enjeksiyon sıklıklarına göre bilgi koruma performansını değerlendirdi ve büyük modellerin az miktarda bilgiyle bile doygunluğa ulaşabildiğini ortaya koydu. Bu sonuçlar, LLM'lerin alan özelleştirmesi ve optimizasyonu konusunda önemli içgörüler sunuyor ve gelecekte bilgi enjeksiyonu stratejilerinin tasarımına katkı sağlaması bekleniyor. Çalışma, büyük dil modellerinde bilgi enjeksiyonunun etkisini değerlendirmeye, bilgiyi koruma kapasitesi ile çöküş noktasını öngörmeye yönelik yöntemler sunmaya ve farklı şablonların etkisini analiz etmeye odaklanıyor.

Makale özeti (Abstract)

Büyük dil modelleri (LLM'ler), çeşitli alt görevlerdeki etkileyici genel yetenekleri nedeniyle büyük ilgi görüyor. Ancak alan özelinde optimizasyon olmadan, uzmanlık bilgisi kıyaslamalarında çoğu zaman düşük performans gösteriyor ve hatta halüsinasyon üretebiliyorlar. Son araştırmalar, ön eğitim sırasında alan bilgisinin stratejik olarak enjekte edilmesinin alt görev performansını önemli ölçüde artırabildiğini gösteriyor. Buradaki kritik zorluk, bu enjeksiyonun dengesini kurmaktır: alan özelinde verinin çok az enjekte edilmesi yetersiz uzmanlaşmaya yol açarken, aşırı enjeksiyon daha önce edinilmiş bilginin yıkıcı biçimde unutulmasına neden olur. Bu çalışmada, aşırı enjeksiyonun yol açtığı bellek çöküşü olgusuna odaklanıyoruz. Sistematik deneyler yoluyla iki temel gözlem elde ettik. Birincisi, kritik çöküş noktası: her model, bilgiyi koruma yeteneğinin keskin biçimde bozulduğu bir eşik sergiler. İkincisi, ölçek korelasyonu: bu çöküş noktaları modelin boyutuyla tutarlı biçimde orantılanır. Bu içgörülerden hareketle, daha küçük modellerin analiziyle büyük LLM'lere enjekte edilmesi gereken en uygun alan bilgisi miktarını öngören bir bilgi enjeksiyonu ölçekleme yasası öneriyoruz. Farklı model boyutları ve bunlara karşılık gelen token bütçeleri üzerinde yapılan kapsamlı deneyler, ölçekleme yasamızın hem etkinliğini hem de genellenebilirliğini doğrulamıştır.
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.

Makale bağlantısı

https://arxiv.org/abs/2509.19371

Bifrost-1: Yama düzeyinde CLIP örtük değişkenleriyle çok modlu LLM'ler ve difüzyon modelleri arasında köprü / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

Makale tanıtımı

Bifrost-1, önceden eğitilmiş çok modlu büyük dil modelleri (MLLM'ler) ile difüzyon modellerini, yama düzeyinde CLIP (Contrastive Language-Image Pretraining) görüntü gömmeleri aracılığıyla birbirine bağlayan yenilikçi bir çerçeve öneriyor. Mevcut yaklaşımlar, LLM'in ön eğitim sırasında görüntü temsillerini deneyimlememiş olması nedeniyle yüksek eğitim maliyeti ve verimlilik sorunları taşıyordu. Bifrost-1, bu sorunları çözmek için MLLM'nin CLIP görsel kodlayıcısıyla doğal biçimde hizalanmış yama düzeyinde görüntü gömmelerini kullanarak bunları difüzyon modeline entegre ediyor. Bu süreçte, ControlNet'in hafifletilmiş bir uyarlamasıyla MLLM'nin özgün çok modlu akıl yürütme yeteneklerini korurken, yama düzeyinde görüntü gömmelerini tahmin eden bir görsel üretim dalı da ekliyor.

Bifrost-1'in temel yeniliği, yama düzeyinde CLIP örtük değişkenlerini kullanarak MLLM ile difüzyon modeli arasında verimli bir bağlantı kurabilmesidir. Bu sayede yüksek sadakatli, kontrol edilebilir görüntü üretimi gerçekleştirirken eğitim verimliliğini de önemli ölçüde artırıyor. Deney sonuçları, Bifrost-1'in görsel sadakat ve çok modlu anlama açısından önceki yöntemlerle karşılaştırıldığında eşdeğer ya da daha iyi performans gösterdiğini ve eğitim sırasındaki hesaplama maliyetini kayda değer biçimde azalttığını ortaya koydu.

Ayrıca kapsamlı ablasyon çalışmaları, Bifrost-1'in tasarım tercihlerinin etkili olduğunu kanıtladı. Bu çalışmalar, çok modlu bilgi işlemenin önemini vurgularken, LLM'ler ile difüzyon modellerinin entegrasyonu yoluyla daha gelişmiş yapay zeka sistemleri kurmaya katkı sağlayacaktır. Bifrost-1, çok modlu üretim ve anlama için yeni bir ölçüt ortaya koyuyor ve gelecekteki araştırmalar açısından önemli bir kilometre taşı olması bekleniyor.

Makale özeti (Abstract)

Yüksek doğrulukta görsel sentez yeteneklerini, güçlü akıl yürütme kabiliyetlerini zayıflatmadan büyük dil modellerine (LLM) entegre etmeye yönelik ilgi artıyor. Mevcut yöntemler LLM’leri doğrudan eğitmeye veya LLM’ler ile diffusion model’ler arasında köprü kurmaya çalışsa da, omurga LLM’ler ön eğitim sırasında görüntü temsilleriyle karşılaşmadığı için yüksek maliyetli eğitim sorunları yaşıyor. Biz, önceden eğitilmiş çok modlu LLM’ler (MLLM) ile diffusion model’leri, patch düzeyinde CLIP görüntü gömmelerini gizil değişkenler olarak kullanarak birbirine bağlayan birleşik bir çerçeve olan Bifrost-1’i öneriyoruz. Bu patch düzeyindeki görüntü gömmeleri, MLLM’in CLIP görsel kodlayıcısıyla doğal olarak hizalanmıştır. Bu tür patch düzeyindeki görüntü gömmeleri, ControlNet’in hafifletilmiş bir uyarlaması aracılığıyla diffusion model’e entegre edilir. MLLM’in özgün çok modlu akıl yürütme yeteneklerini korumak için, patch düzeyindeki görüntü gömmelerini tahmin ederken MLLM’e, özgün MLLM parametrelerinden başlatılan bir görsel üretim dalı ekliyoruz. Önceden eğitilmiş MLLM’leri ve patch düzeyindeki CLIP gizil değişkenlerini kullanarak diffusion model’i sorunsuz biçimde entegre eden çerçevemiz, yüksek doğrulukta ve kontrol edilebilir görüntü üretimini mümkün kılarken eğitim verimliliğini de önemli ölçüde artırır. Deney sonuçları, Bifrost-1’in görsel doğruluk ve çok modlu anlama açısından önceki yöntemlerle karşılaştırıldığında eşdeğer ya da daha iyi performans elde ettiğini ve eğitim sırasında hesaplama maliyetini kayda değer biçimde azalttığını göstermektedir. Ayrıca, tasarım tercihlerimizin etkinliğini gösteren kapsamlı ablation study sonuçları da sunuyoruz.
> There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.

Makale bağlantısı

https://arxiv.org/abs/2508.05954

Daha fazlasını okuyun

https://bifrost-1.github.io

VLM’ler için sürekli öğrenme: Unutmanın ötesinde bir derleme ve sınıflandırma / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting

Makale tanıtımı

Vision-Language Models (VLM), büyük ölçekli ön eğitim sayesinde çeşitli çok modlu görevlerde üstün performans gösteriyor; ancak dağılım dışı verilerden sürekli olarak öğrenme konusunda çeşitli zorluklar barındırıyor. Bu sorunlar, özellikle çapraz modal hizalama ve genelleme yeteneklerinin yıkıcı unutmaya karşı kırılgan olması nedeniyle daha da belirginleşiyor. VLM’lerin sürekli öğrenmesi (VLM-CL), geleneksel tek modlu sürekli öğrenmeden farklı kendine özgü problemler içeriyor ve bu makale, VLM-CL’nin üç temel başarısızlık modunu tanımlayarak bunları ele almak için zorluk temelli bir sınıflandırma çerçevesi öneriyor.

Önerilen sınıflandırma çerçevesi şu üç bileşenden oluşuyor: (1) çok modlu replay stratejileri, (2) çapraz modal düzenlileştirme, (3) parametre verimli uyarlama. Çok modlu replay stratejileri, geçmiş görevlerin bilgisini yeniden oynatarak çapraz modal özellik kaymasını hafifletmeye katkı sağlarken; çapraz modal düzenlileştirme, güncellemeler sırasında modalite hizalamasını korumaya odaklanır. Parametre verimli uyarlama ise paylaşılan modüller arasındaki girişim sorununu çözmek için ana ön eğitim modelini dondurup yalnızca az sayıda yeni parametreyi güncelleyen bir metodolojidir.

Bu makale, VLM-CL için kapsamlı bir inceleme sunuyor ve mevcut değerlendirme protokolleriyle veri kümelerini ve metrikleri analiz ederek, VLM’lere özgü unutma ile bileşimsel genellemeyi yakalayabilecek daha iyi benchmark’lara duyulan ihtiyacı vurguluyor. Ayrıca, sürekli ön eğitim ve bileşimsel zero-shot öğrenmeyi de içeren gelecekteki araştırma yönlerini ortaya koyarak, araştırmacıların yaşam boyu vision-language sistemleri geliştirmesinde yararlı bir başvuru kaynağı olmayı amaçlıyor. Bu sistematik ve tanısal yaklaşım, VLM’lerin sürekli öğrenmesi alanındaki yeniliği teşvik etmeye ve gerçek anlamda yaşam boyu öğrenebilen çok modlu yapay zeka sistemleri inşa etmek için bir temel oluşturmaya katkı sağlayacaktır.

Makale özeti (Abstract)

Görsel-dil modelleri (VLM), büyük ölçekli ön eğitimden yararlanarak çeşitli çok modlu görevlerde etkileyici performans elde etti. Ancak bunların durağan olmayan verilerden sürekli öğrenmesini sağlamak hâlâ önemli bir zorluk olarak duruyor; çünkü çapraz modal hizalama ve genelleme yetenekleri özellikle yıkıcı unutmaya karşı savunmasız. Geleneksel tek modlu sürekli öğrenmeden (CL) farklı olarak VLM’ler, çapraz modal özellik kayması, paylaşılan mimariler nedeniyle parametre girişimi ve zero-shot yeteneğinde aşınma gibi kendine özgü zorluklarla karşı karşıya. Bu derleme makalesi, VLM’ler için sürekli öğrenmeye (VLM-CL) dair ilk odaklı ve sistematik incelemeyi sunuyor. Öncelikle VLM-CL’de performansı düşüren üç temel başarısızlık modunu belirliyoruz. Buna dayanarak, çözümleri hedefledikleri sorunlarla eşleyen zorluk odaklı bir sınıflandırma öneriyoruz: (1) \textit{Çok Modlu Yeniden Oynatma Stratejileri}, açık ya da örtük bellek mekanizmaları aracılığıyla çapraz modal kaymayı ele alır; (2) \textit{Çapraz Modal Düzenlileştirme}, güncellemeler sırasında modalite hizalamasını korur; ve (3) \textit{Parametre Verimli Uyarlama}, modüler veya düşük dereceli güncellemelerle parametre girişimini azaltır. Ayrıca mevcut değerlendirme protokollerini, veri kümelerini ve metrikleri analiz ediyor; VLM’lere özgü unutmayı ve bileşimsel genellemeyi yakalayabilen daha iyi benchmark’lara duyulan ihtiyacı vurguluyoruz. Son olarak, sürekli ön eğitim ve bileşimsel zero-shot öğrenme dahil açık problemleri ve gelecekteki yönelimleri ortaya koyuyoruz. Bu derleme, yaşam boyu görsel-dil sistemleri geliştiren araştırmacılar için kapsamlı ve tanısal bir başvuru kaynağı olmayı amaçlıyor. Tüm kaynaklara şu bağlantıdan ulaşılabilir: https://github.com/YuyangSunshine/….
> Görsel-dil modelleri (VLM’ler), büyük ölçekli ön eğitimden yararlanarak çeşitli çok modlu görevlerde etkileyici performans elde etmiştir. Ancak bunların durağan olmayan verilerden sürekli öğrenmesini sağlamak büyük bir zorluk olmaya devam etmektedir; çünkü çapraz modal hizalama ve genelleme yetenekleri özellikle yıkıcı unutmaya karşı savunmasızdır. Geleneksel tek modlu sürekli öğrenmeden (CL) farklı olarak VLM’ler, çapraz modal özellik kayması, paylaşılan mimarilerden kaynaklanan parametre girişimi ve zero-shot yeteneğinde aşınma gibi benzersiz zorluklarla karşılaşır. Bu derleme, VLM’ler için sürekli öğrenmeye (VLM-CL) dair ilk odaklı ve sistematik incelemeyi sunmaktadır. İlk olarak, VLM-CL’de performansı düşüren üç temel başarısızlık modunu belirliyoruz. Buna dayanarak, çözümleri hedefledikleri sorunlarla eşleyen zorluk odaklı bir sınıflandırma öneriyoruz: (1) \textit{Multi-Modal Replay Strategies}, açık veya örtük bellek mekanizmaları yoluyla çapraz modal kaymayı ele alır; (2) \textit{Cross-Modal Regularization}, güncellemeler sırasında modalite hizalamasını korur; ve (3) \textit{Parameter-Efficient Adaptation}, modüler veya düşük dereceli güncellemelerle parametre girişimini azaltır. Ayrıca mevcut değerlendirme protokollerini, veri kümelerini ve metrikleri analiz ediyor; VLM’ye özgü unutmayı ve bileşimsel genellemeyi yakalayan daha iyi benchmark’lara duyulan ihtiyacı vurguluyoruz. Son olarak, sürekli ön eğitim ve bileşimsel zero-shot öğrenme dahil açık problemleri ve gelecek yönelimleri ana hatlarıyla ortaya koyuyoruz. Bu derleme, yaşam boyu görsel-dil sistemleri geliştiren araştırmacılar için kapsamlı ve tanısal bir referans olmayı amaçlamaktadır. Tüm kaynaklara şu adresten ulaşılabilir: https://github.com/YuyangSunshine/….

Makale bağlantısı

https://arxiv.org/abs/2508.04227

Daha fazla okuma

https://github.com/YuyangSunshine/…

Ajan Federasyonu: Büyük Ölçekli Agentic AI için Anlam Farkındalıklı Bir İletişim Dokusu / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI

Makale tanıtımı

Federation of Agents (FoA), statik çok ajanlı koordinasyonu dinamik ve yetenek odaklı iş birliğine dönüştüren yenilikçi bir dağıtık orkestrasyon çerçevesidir. Bu sistem, ajanların yeteneklerini makine tarafından okunabilir profillere dönüştüren sürümlenmiş yetenek vektörlerini (Versioned Capability Vectors, VCVs) tanıtarak ajanların kendi yeteneklerini, maliyetlerini ve sınırlarını etkili biçimde duyurmasını sağlar. FoA mimarisi üç temel yenilik içerir. Birincisi, anlamsal yönlendirme (semantic routing) ile görevleri ajanlarla eşleştirir; bunun için shard edilmiş HNSW indekslerini kullanır ve operasyonel kısıtlara uyan maliyet yanlı optimizasyon gerçekleştirir. İkincisi, dinamik görev ayrıştırma (dynamic task decomposition) tekniği sayesinde uyumlu ajanlar, karmaşık görevleri DAG (Directed Acyclic Graph) biçimindeki alt görevlere ayırır ve uzlaşı tabanlı birleştirme yoluyla iş birliği içinde yürütür. Üçüncüsü, akıllı kümeleme (smart clustering) ile benzer alt görevleri yerine getiren ajanlar iş birliği kanallarında gruplanır ve k-round iyileştirme ile görevler daha da rafine edilir.

FoA, ölçeklenebilir mesaj iletimi sağlamak için MQTT’nin publish-subscribe semantiğini temel alır ve hiyerarşik yetenek eşleştirme ile verimli indeks bakım yönetimi sayesinde sub-linear karmaşıklığa ulaşır. HealthBench üzerindeki değerlendirme sonuçları, FoA’nın tek model taban çizgisine kıyasla 13 kat performans artışı sağladığını gösterirken, özellikle kümeleme ile güçlendirilmiş iş birliğinin çoklu bakış açısı gerektiren karmaşık akıl yürütme görevlerinde etkili olduğunu kanıtlıyor. Sistem, yatay olarak ölçeklenebilir yapıda olup tutarlı performansı koruyarak, yapılandırılmış iş birliği üzerinden anlamsal orkestrasyonun heterojen AI ajan federasyonlarının kolektif zekâsını etkili biçimde kullanabildiğini gösteriyor. Bu çalışma, çok ajanlı sistemlerin verimliliğini en üst düzeye çıkarmaya ve karmaşık görevleri daha etkili biçimde işlemeye yönelik bir yöntem sunarak AI alanındaki ilerlemeye katkı sağlamasının beklendiğini ortaya koyuyor.

Makale özeti (Abstract)

Aşağıda AI/ML alanındaki bir makalenin özeti yer alıyor. Biz, Ajan Federasyonu’nu (Federation of Agents, FoA) sunuyoruz. FoA, statik çok ajanlı koordinasyonu dinamik, yetenek odaklı iş birliğine dönüştüren dağıtık bir orkestrasyon çerçevesidir. FoA, Sürümlenmiş Yetenek Vektörleri’ni (Versioned Capability Vectors, VCVs) tanıtır. Bunlar, ajanların yeteneklerini anlamsal gömmeler aracılığıyla aranabilir hale getiren, ajanların kendi yeteneklerini, maliyetlerini ve sınırlamalarını duyurmasını sağlayan makine tarafından okunabilir profillerdir. Mimarimiz üç temel yeniliği birleştirir: (1) görevleri, maliyet yanlı optimizasyon yoluyla operasyonel kısıtları uygularken, bölümlenmiş HNSW indeksleri üzerinden ajanlarla eşleştiren anlamsal yönlendirme, (2) uyumlu ajanların karmaşık görevleri uzlaşı tabanlı birleştirme yoluyla alt görevlerden oluşan DAG’lere birlikte ayırdığı dinamik görev ayrıştırma, (3) benzer alt görevler üzerinde çalışan ajanları sentez öncesinde k turlu iyileştirme için iş birliği kanallarında gruplayan akıllı kümeleme. MQTT’nin yayınla-abone ol anlamı üzerine inşa edilen FoA, hiyerarşik yetenek eşleştirme ve verimli indeks bakımı sayesinde alt doğrusal karmaşıklığa ulaşır. HealthBench üzerindeki değerlendirme sonuçları, tek model taban çizgilerine kıyasla 13 kat iyileşme gösterirken, kümeleme ile güçlendirilmiş iş birliğinin birden fazla bakış açısı gerektiren karmaşık akıl yürütme görevlerinde özellikle etkili olduğunu kanıtlıyor. Sistem, tutarlı performansı koruyarak yatay olarak ölçeklenir ve yapılandırılmış iş birliğiyle anlamsal orkestrasyonun, heterojen yapay zeka ajan federasyonlarının kolektif zekasını ortaya çıkarabileceğini gösterir.
> We present Federation of Agents (FoA), a distributed orchestration framework that transforms static multi-agent coordination into dynamic, capability-driven collaboration. FoA introduces Versioned Capability Vectors (VCVs): machine-readable profiles that make agent capabilities searchable through semantic embeddings, enabling agents to advertise their capabilities, cost, and limitations. Our aarchitecturecombines three key innovations: (1) semantic routing that matches tasks to agents over sharded HNSW indices while enforcing operational constraints through cost-biased optimization, (2) dynamic task decomposition where compatible agents collaboratively break down complex tasks into DAGs of subtasks through consensus-based merging, and (3) smart clustering that groups agents working on similar subtasks into collaborative channels for k-round refinement before synthesis. Built on top of MQTT,s publish-subscribe semantics for scalable message passing, FoA achieves sub-linear complexity through hierarchical capability matching and efficient index maintenance. Evaluation on HealthBench shows 13x improvements over single-model baselines, with clustering-enhanced laboration particularly effective for complex reasoning tasks requiring multiple perspectives. The system scales horizontally while maintaining consistent performance, demonstrating that semantic orchestration with structured collaboration can unlock the collective intelligence of heterogeneous federations of AI agents.

Makale bağlantısı

https://arxiv.org/abs/2509.20175

Büyük dil modelleri için verimli attention mekanizmaları araştırması / Efficient Attention Mechanisms for Large Language Models: A Survey

Makale tanıtımı

Transformer tabanlı mimariler büyük dil modellerinin çekirdeğini oluşturur, ancak self-attention’ın ikinci dereceden zaman ve bellek karmaşıklığı uzun bağlamların işlenmesinde büyük bir kısıt haline gelir. Bunu çözmek için son dönemdeki araştırmalarda, çekirdek yaklaşım, döngüsel yapılar ve fast-weight dinamiklerinden yararlanan doğrusal attention (linear attention) ile sabit örüntüler, blok düzeyinde yönlendirme ve kümeleme kullanan seyrek attention (sparse attention) olmak üzere iki ana verimli attention tekniği önerildi. Bu araştırma makalesi, algoritmik yenilikleri ve donanım perspektifini birlikte ele alarak bu yöntemleri sistematik biçimde düzenliyor ve verimli attention uygulayan büyük ölçekli ön eğitimli dil modellerinin çeşitli tasarım yaklaşımlarını analiz ediyor. Böylece ölçeklenebilir ve verimli dil modeli tasarımına ilişkin teori ile pratik stratejiler arasında köprü kuran temel bir kaynak sunuyor.

Makale özeti (Abstract)

Transformer tabanlı mimariler, büyük dil modellerinin baskın omurgası haline geldi. Ancak self-attention'ın ikinci dereceden zaman ve bellek karmaşıklığı, uzun bağlam modellemesini verimli şekilde gerçekleştirme konusunda temel bir engel olmaya devam ediyor. Bu sınırlamayı aşmak için son araştırmalarda iki ana verimli attention mekanizması kategorisi önerildi. Linear attention yöntemleri, kernel yaklaşımları, yinelemeli formülasyonlar veya fastweight dynamics aracılığıyla doğrusal karmaşıklık elde ederek hesaplama maliyetini düşürür ve ölçeklenebilir çıkarımı mümkün kılar. Buna karşılık sparse attention teknikleri, attention hesaplamasını sabit örüntüler, blok düzeyinde yönlendirme veya kümeleme stratejilerine göre seçilmiş token alt kümeleriyle sınırlandırarak bağlamsal kapsamı korurken verimliliği artırır. Bu derleme makalesi, algoritmik yenilikler ile donanım düzeyindeki değerlendirmeleri bir araya getirerek bu gelişmelere sistematik ve kapsamlı bir genel bakış sunuyor. Ayrıca, tamamen verimli attention üzerine kurulu mimariler ile yerel (local) ve küresel (global) bileşenleri birleştiren hibrit tasarımlar dahil olmak üzere, verimli attention'ın büyük ölçekli önceden eğitilmiş dil modellerine nasıl entegre edildiğini analiz ediyor. Kuramsal temeller ile pratik dağıtım stratejilerini uyumlu hale getirerek, bu çalışma ölçeklenebilir ve verimli dil modeli tasarımını ilerletmek için temel bir başvuru kaynağı olmayı amaçlıyor.
> Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.

Makale bağlantısı

https://arxiv.org/abs/2507.19595

⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan olarak Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)

[2025/09/29 ~ 10/05] Bu hafta göz atmaya değer AI/ML makaleleri derlemesi