ML makaleleri derlemesi

(discuss.pytorch.kr)

11 puan yazan ninebow 2025-09-10 | Henüz yorum yok. | WhatsApp'ta paylaş

[2025/09/01 ~ 07] Bu hafta göz atmaya değer AI/ML makaleleri derlemesi

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Büyük dil modellerinin sınırları ve kontrolü: Birden fazla makalede büyük dil modellerinin (LLM) sınırları ve bunların nasıl kontrol edilebileceği tartışıldı. Özellikle, "On the Fundamental Impossibility of Hallucination Control in Large Language Models" başlıklı çalışma, LLM'lerin doğru bilgi temsili ile bilginin korunmasını aynı anda başaramayacağına dair teorik bir imkânsızlık ortaya koyarken, halüsinasyon ile yaratıcılığın matematiksel olarak aynı şey olduğunu vurguladı. Bu, yapay zeka sistemlerinde bu tür davranışları yönetmek için bir temel sunuyor.

2️⃣ Verimli eğitim ve optimizasyon teknikleri: "Fantastic Pretraining Optimizers and Where to Find Them" ve "Communication Efficient LLM Pre-training with SparseLoCo" gibi makaleler, LLM'lerin eğitim sürecindeki verimliliği artırmaya yönelik yeni optimizasyon tekniklerini araştırıyor. Özellikle SparseLoCo, iletişim verimliliğini artırmak için seyreltme ve kuantizasyon kullanarak hem performans hem de iletişim maliyeti açısından iyileştirilmiş sonuçlar gösterdi.

3️⃣ Çok ajanlı sistemlerde iş birliği ve bellek iyileştirmeleri: "Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol" ve "Memp: Exploring Agent Procedural Memory" çalışmalarında, çok ajanlı sistemlerin iş birliği yöntemlerini ve ajanların prosedürel belleğini geliştirmeye yönelik yaklaşımlar önerildi. Anemoi, ajanlar arasındaki doğrudan iş birliğiyle performansı artırırken, Memp ajanların öğrenilebilir prosedürel belleğe sahip olmasını sağlayarak sürekli güncellenme ve gelişme imkânı sunuyor.

Büyük Dil Modellerinde Halüsinasyon Kontrolünün Temel İmkânsızlığı Üzerine Bir Araştırma / On the Fundamental Impossibility of Hallucination Control in Large Language Models

Makale tanıtımı

Büyük dil modellerinin (LLM) halüsinasyon sorunu, yapay zeka sistemlerinin güvenilirliği ve doğruluğu üzerinde önemli etkileri olan bir konu olup, bu çalışma bu sorunun temel imkânsızlığını matematiksel olarak ortaya koymayı amaçladı. Yazarlar, bit bilgisinin kümelerini açık artırma fikriyle açıklayarak, birden fazla bileşenin kendi kısmi bilgisini kullanıp yanıt oluşturma sürecini analiz etti. Bu çalışma, mekanizma tasarımı teorisi, uygun skor kuralları teorisi ve transformer mimarisinin doğrudan analizi dahil olmak üzere birbirinden bağımsız üç matematiksel alan üzerinden halüsinasyon ile yaratıcılığın matematiksel temelini sunuyor. Özellikle yazarlar, aşırı güvenli veya sezgisel yanıtların üretimini nicelleştiren bir yöntem öneriyor; bu da hem halüsinasyonun hem de yaratıcılığın ortak bir özelliği olarak ortaya çıkıyor.

Ayrıca çalışma, sınırlı çıkarımı modellemek için anlamsal bilgi ölçümü ve ortaya çıkış operatörü kavramlarını tanıtıyor; sınırlı çıkarım erişilebilir bilgi üretirken, ideal sınırsız çıkarımın anlamsal içeriği katı biçimde koruduğunu vurguluyor. Bu analiz sayesinde yazarlar, halüsinasyon ve hayal gücünün; doğruluk, anlamsal bilginin korunması, ilgili bilginin açığa çıkarılması ve bilgi kısıtı altında optimal olmaktan sapma açısından matematiksel olarak aynı olgu olduğunu gösterdi. Bu çalışma, AI sistemlerinin tasarımı ve değerlendirilmesi üzerinde önemli etkiler yaratabilecek teorik bir temel sunarken, gelecekteki araştırma yönlerine dair içgörüler de sağlıyor. Bu katkıların, bilgi teorisi ile AI'nın kesişiminde yeni sorular ortaya atması ve bilginin doğasına dair anlayışı derinleştirmesi bekleniyor.

Makale özeti (Abstract)

Bu makale temel bir imkânsızlık teoremi ortaya koyuyor: önemsiz olmayan (non-trivial) bilgi kümelemesi yapabilen hiçbir LLM, doğru bilgi temsili, anlamsal bilginin korunması, ilgili bilginin eksiksiz açığa çıkarılması ve bilgi kısıtlı optimaliteyi aynı anda sağlayamaz. Bu imkânsızlık, mühendislik sınırlarından değil, bilgi kümelemesinin kendi matematiksel yapısından kaynaklanır. Yazarlar bu sonucu, çıkarım sürecini fikirlerin açık artırması olarak tanımlayarak ortaya koyuyor; burada dağıtık bileşenler, yanıtları şekillendirmek için kısmi bilgilerini kullanarak rekabet eder. Kanıt üç bağımsız matematiksel alana yayılıyor: mekanizma tasarımı teorisi (Green-Laffont), uygun skorlama kuralları teorisi (Savage) ve transformer mimarilerinin doğrudan yapısal analizi (Log-Sum-Exp dışbükeyliği). Özellikle, aşırı özgüvenli (overconfidence) ya da sezgisel yanıtların üretilmesini nasıl nicelleştirebileceğimizi gösteriyorlar; bu, halüsinasyonun (hallucination) yanı sıra yaratıcılık (creativity) veya hayal gücünün de ayırt edici özelliğidir. Bu analizi desteklemek için, genel bir ortamda sınırlı akıl yürütmeyi modellemek amacıyla anlamsal bilgi ölçüsü ile emergence operator kavramlarını birbirini tamamlayan kavramlar olarak tanıtıyorlar. Sınırlı akıl yürütmenin erişilebilir bilgi üreterek değerli içgörüler ve ilham sağladığını, buna karşılık idealleştirilmiş kısıtsız akıl yürütmenin anlamsal içeriği katı biçimde koruduğunu kanıtlıyorlar. Halüsinasyon ile hayal gücünün; doğruluk, anlamsal bilginin korunması, ilgili bilginin açığa çıkarılması ve bilgi kısıtlı optimaliteden sapmalara dayanan, matematiksel olarak özdeş olgular olduğunu göstererek, bu çalışma gelişmiş yapay zeka sistemlerinde bu tür davranışların yönetimi için ilkesel bir temel sunuyor. Son olarak, önerilen teorinin değerlendirilmesi ve iyileştirilmesine ilham vermek üzere bazı spekülatif fikirler sunuluyor.
> This paper establishes a fundamental impossibility theorem: no LLM capable of performing non-trivial knowledge aggregation can simultaneously achieve truthful knowledge representation, semantic information conservation, complete revelation of relevant knowledge, and knowledge-constrained optimality. The impossibility is not an engineering limitation but arises from the mathematical structure of information aggregation itself. We establish this result by describing the inference process as an auction of ideas, where distributed components compete exploiting their partial knowledge to shape responses. The proof spans three independent mathematical domains: mechanism design theory (Green-Laffont), the theory of proper scoring rules (Savage), and direct architectural analysis of transformers (Log-Sum-Exp convexity). In particular, we show how to quantify the creation of overconfident or intuitive responses-the signature of both hallucination and creativity, or imagination. To support this analysis, we introduce the complementary concepts of the semantic information measure and the emergence operator to model bounded reasoning in a general setting. We prove that while bounded reasoning generates accessible information, providing valuable insights and inspirations, the idealized unconstrained reasoning strictly preserves semantic content. By demonstrating that hallucination and imagination are mathematically identical phenomena-grounded in departures from truthfulness, semantic information conservation, revelation of relevant knowledge, and knowledge-constrained optimality-we offer a principled foundation for managing these behaviors in advanced AI systems. Finally, we present some speculative ideas to inspire evaluation and refinements of the proposed theory.

Makale bağlantısı

https://arxiv.org/abs/2506.06382

Fantastik pretraining optimizer'lar ve onları bulmanın yolları / Fantastic Pretraining Optimizers and Where to Find Them

Makale tanıtımı

Pretraining optimizer'ları, büyük dil modeli eğitiminde kritik bir rol oynar ve özellikle AdamW uzun süredir standart olarak kabul edilmektedir. Ancak yakın tarihli çalışmalar, alternatif optimizer'ların 1,4 ila 2 kat hız artışı sağladığını öne sürse de, bu araştırma bu iddiaların gerçekte abartılı olduğunu gösteriyor. Çalışma, bu iddiaları destekleyen iki ana soruna işaret ediyor. Birincisi, hyperparameter ayarlarının dengesiz biçimde yapılabilmesi; ikincisi ise değerlendirme kurulumlarının sınırlı ya da yanıltıcı olabilmesi. Bunu ele almak için yazarlar, 10 derin öğrenme optimizer'ını farklı model ölçekleri ve veri-model oranlarında sistematik olarak karşılaştırdı.

Araştırmanın temel metodolojisi, hyperparameter ayarlama çerçevesini üç aşamaya ayırarak açıklıyor. İlk aşamada, her optimizer'ın hyperparameter'ları en iyi performansı elde etmek için ayrıntılı biçimde ayarlanıyor. İkinci aşamada, bellek gereksinimini azaltmak amacıyla yalnızca ayarlanması gereken hyperparameter alt kümeleri seçilerek optimizasyon yapılıyor. Son aşamada ise model boyutu ve veri bütçesine göre hyperparameter'ların en uygun değerlerini tahmin eden scaling law'lar uygulanıyor. Bu metodoloji, optimizer'lar arasında adil ve yeniden üretilebilir karşılaştırmalar yapılmasını güvence altına alıyor ve sonuçlar, matris tabanlı optimizer'ların skaler tabanlı optimizer'lardan tutarlı biçimde daha iyi performans gösterdiğini vurguluyor.

Bu çalışma, hyperparameter ayarlamasının önemini ve farklı model ölçekleri ile veri-model oranlarında değerlendirme yapılmasının gerekliliğini öne çıkarırken, bir optimizer için en iyi olan hyperparameter'ların başka bir optimizer için en iyi olmayabileceğini de gösteriyor. Bu bulgular, gelecekte optimizer tasarımı ve değerlendirmesi için standartların belirlenmesine önemli bir katkı sağlayacaktır.

Makale özeti (Abstract)

AdamW, çok sayıda alternatif optimizer’ın 1,4 ila 2 kat hızlanma sunduğunu iddia etmesine rağmen, dil modeli ön eğitiminde uzun süredir baskın optimizer olarak yerini koruyor. Biz, iki metodolojik eksikliğin adil karşılaştırmaları engellediğini ve pratik benimsemeyi zorlaştırdığını öne sürüyoruz: (i) dengesiz hiperparametre ayarı ve (ii) sınırlı ya da yanıltıcı değerlendirme kurulumları. Bu iki sorunu ele almak için, dört model ölçeği (0.1B-1.2B parametre) ve veri-model oranlarında (Chinchilla optimumunun 1-8 katı) on derin öğrenme optimizer’ı üzerine sistematik bir çalışma yürütüyoruz. Adil ve bilgilendirici karşılaştırmaların, sıkı hiperparametre ayarı ile farklı model ölçekleri ve veri-model oranları boyunca, eğitimin sonunda yapılan değerlendirmeler gerektirdiğini bulduk. İlk olarak, bir optimizer için en uygun hiperparametreler başka bir optimizer için uygun olmayabilir; bu nedenle körlemesine hiperparametre aktarımı adil değildir. İkinci olarak, önerilen birçok optimizer’ın iyi ayarlanmış temel modellere kıyasla sağladığı gerçek hızlanma iddia edilenden daha düşüktür ve model boyutu büyüdükçe 1.2B parametreli modellerde yalnızca 1,1 kata kadar geriler. Üçüncü olarak, hedef eğitim bütçelerine ulaşmadan önce ara checkpoint’leri karşılaştırmak yanıltıcı olabilir; çünkü öğrenme oranı düşüşü nedeniyle iki optimizer arasındaki sıralama eğitim sırasında tersine dönebilir. Kapsamlı incelememiz sonucunda, Muon ve Soap gibi en hızlı optimizer’ların tamamının matrisleri önkoşullayıcı olarak kullandığını, yani gradyanları öğe bazlı skalerlerle değil matrislerle çarptığını görüyoruz. Ancak matris tabanlı optimizer’ların hızlanması model ölçeğiyle ters orantılıdır; 0.1B parametreli modellerde AdamW’ye göre 1,4 kattan 1.2B parametreli modellerde yalnızca 1,1 kata düşer.
> AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.

Makale bağlantısı

https://arxiv.org/abs/2509.02046

Daha fazla oku

https://wandb.ai/marin-community/optimizer-scaling

Anemoi: Ajanlar Arası İletişime Dayalı Yarı Merkezileştirilmiş Çok Ajanlı Sistem MCP sunucusu / Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol

Makale tanıtımı

Anemoi, Coral Protocol’ün A2A (Agent-to-Agent) iletişim modeline dayanan yarı merkezileştirilmiş bir çok ajanlı sistemdir (Multi-Agent System, MAS) ve ajanlar arasındaki doğrudan iş birliği sayesinde verimli görev koordinasyonunu mümkün kılar. Mevcut merkezi MAS yapıları, planlayıcı ajanın birden fazla görev ajanını tek yönlü biçimde koordine etmesi esasına dayanır; bu da planlayıcının yeteneğine bağımlılık ile ajanlar arası sınırlı iletişimin yol açtığı bilgi kaybı ve yinelenme gibi sorunlar üretir. Anemoi, bu sorunları çözmek için tasarlanmıştır ve tüm ajanların ilerleme durumunu gerçek zamanlı izleyebildiği, darboğazları tespit edebildiği ve iyileştirme önerileri sunabildiği bir yapı sağlar.

Anemoi’nin temelinde, Coral Protocol’ün A2A iletişim MCP (Multi-Agent Communication Protocol) sunucusundan yararlanılarak ajanlar arasında kesintisiz bilgi akışı sağlanması yer alır. Sistem, bir planlayıcı ajanı ve alan uzmanlığına sahip birden çok görev ajanını bir araya getirerek başlangıç planını sunar ve çalışan ajanların doğrudan koordinasyon kurmasına olanak tanır. Bunun sonucunda merkezi planlayıcıya bağımlılık azalır, uyarlanabilir plan güncellemeleri mümkün olur ve tekrarlayan bağlam aktarımı en aza indirilerek maliyet açısından verimli bir yürütme elde edilir.

Anemoi, GAIA benchmark’ında değerlendirildi ve planlayıcı olarak küçük bir LLM (GPT-4.1-mini) kullanarak %52,73 doğruluk elde etti. Bu, aynı ayarlar altında en güçlü açık kaynaklı temel model olan OWL’nin %43,63’lük sonucunu %9,09 oranında aşan bir performanstır. Bu sonuçlar, Anemoi’nin yarı merkezileştirilmiş A2A iletişim modelinin çok ajanlı sistemlerin performansını artırmaya katkı sağlayabileceğini göstermektedir.

Bu çalışma, ajanlar arasındaki doğrudan iş birliği ve bilgi akışındaki iyileştirmeler yoluyla çok ajanlı sistemler için yeni olasılıkların önünü açıyor ve gelecekte genelleştirilmiş yapay zeka sistemlerinin gelişimine önemli katkılar sunması bekleniyor. Anemoi’nin uygulaması GitHub’da açık olarak yayımlanmıştır ve araştırmacılara bu sistemi kullanarak çeşitli uygulamalar geliştirme fırsatı sunar.

Makale özeti (Abstract)

Yakın dönemde genel amaçlı çoklu ajan sistemlerindeki (MAS) ilerlemeler büyük ölçüde bağlam mühendisliği artı merkezi paradigma doğrultusunda ilerledi; burada bir planlayıcı ajan, tek yönlü prompt aktarımıyla birden fazla işçi ajanı koordine eder. Güçlü planlayıcı modeller altında etkili olsa da, bu tasarımın iki kritik sınırlaması vardır: (1) planlayıcının yeteneğine güçlü biçimde bağımlı olması nedeniyle, planlayıcıyı daha küçük bir LLM desteklediğinde performans düşer; (2) ajanlar arası iletişimin sınırlı olması nedeniyle iş birliği, maliyetli prompt birleştirme ve bağlam enjeksiyonuna dayanır; bu da tekrar ve bilgi kaybına yol açar. Bu zorlukları ele almak için, Coral Protocol’ün Agent-to-Agent (A2A) communication MCP sunucusu üzerine kurulu yarı merkezi bir MAS olan Anemoi’yi öneriyoruz. Geleneksel tasarımlardan farklı olarak Anemoi, yapılandırılmış ve doğrudan ajanlar arası iş birliğini mümkün kılar; böylece tüm ajanlar ilerlemeyi izleyebilir, sonuçları değerlendirebilir, darboğazları belirleyebilir ve gerçek zamanlı olarak iyileştirme önerilerinde bulunabilir. Bu paradigma tek bir planlayıcıya olan bağımlılığı azaltır, uyarlanabilir plan güncellemelerini destekler ve gereksiz bağlam aktarımını en aza indirerek daha ölçeklenebilir ve maliyet açısından daha verimli bir yürütme sağlar. GAIA benchmark’ında yapılan değerlendirmede Anemoi, planlayıcı olarak küçük bir LLM (GPT-4.1-mini) kullanarak %52.73 doğruluk elde etti ve aynı LLM ayarları altında en güçlü açık kaynak referans olan OWL’yi (%43.63) +%9.09 oranında geçti. Uygulamamız herkese açık olarak https://github.com/Coral-Protocol/Anemoi adresinde erişilebilir.
> Genel amaçlı çoklu ajan sistemlerindeki (MAS) son ilerlemeler büyük ölçüde bağlam mühendisliği artı merkezi bir paradigmayı izledi; burada bir planlayıcı ajan, tek yönlü prompt aktarımı üzerinden birden fazla işçi ajanı koordine eder. Güçlü planlayıcı modeller altında etkili olsa da, bu tasarım iki kritik sınırlamadan muzdariptir: (1) planlayıcının kabiliyetine güçlü bağımlılık, planlayıcıyı daha küçük bir LLM çalıştırdığında performansın düşmesine yol açar; ve (2) sınırlı ajanlar arası iletişim; burada iş birliği maliyetli prompt birleştirme ve bağlam enjeksiyonuna dayanır, bu da tekrar ve bilgi kaybı yaratır. Bu zorlukları ele almak için, Coral Protocol’ün Agent-to-Agent (A2A) communication MCP sunucusu üzerine kurulu yarı merkezi bir MAS olan Anemoi’yi öneriyoruz. Geleneksel tasarımların aksine Anemoi, yapılandırılmış ve doğrudan ajanlar arası iş birliğini mümkün kılar; böylece tüm ajanlar ilerlemeyi izleyebilir, sonuçları değerlendirebilir, darboğazları tespit edebilir ve gerçek zamanlı olarak iyileştirme önerebilir. Bu paradigma tek bir planlayıcıya bağımlılığı azaltır, uyarlanabilir plan güncellemelerini destekler ve gereksiz bağlam aktarımını en aza indirerek daha ölçeklenebilir ve maliyet açısından daha verimli bir yürütme sağlar. GAIA benchmark’ında değerlendirilen Anemoi, planlayıcı olarak küçük bir LLM’yi (GPT-4.1-mini) kullanarak %52.73 doğruluğa ulaştı ve aynı LLM ayarları altında en güçlü açık kaynak başlangıç değeri olan OWL’yi (%43.63) +%9.09 oranında geçti. Uygulamamız herkese açık olarak https://github.com/Coral-Protocol/Anemoi adresinde mevcuttur.

Makale bağlantısı

https://arxiv.org/abs/2508.17068

Daha fazlasını okuyun

https://github.com/Coral-Protocol/Anemoi

İletişim açısından verimli LLM ön eğitimi için SparseLoCo / Communication Efficient LLM Pre-training with SparseLoCo

Makale tanıtımı

Büyük dil modellerinin (LLM) ön eğitim sürecinde iletişim verimliliğini artırmak son derece önemli bir araştırma konusudur. Son dönemdeki dağıtık öğrenme algoritmaları, veri merkezleri arasında veya internet üzerinden bant genişliğinin sınırlı olduğu ortamlarda LLM eğitmek için yararlı olmaları nedeniyle büyük ilgi görmektedir. Ancak mevcut yöntemler hâlâ modelin tüm gradyanlarını iletmek zorundadır; bu da iletişim darboğazlarına neden olur ve performans düşüşüne yol açabilir. Bu sorunu çözmek için önerilen SparseLoCo, iletişim açısından verimli bir öğrenme algoritmasıdır; Top-k seyrekleştirme ve 2 bit niceleme kullanarak son derece yüksek sıkıştırma oranlarına ulaşırken performansı da iyileştirebilen bir yöntem sunar.

SparseLoCo’nun temel yeniliği, dış momentumun hata geri bildirimi ve agresif seyrekleştirme ile birleştirilerek yaklaşıklandırılmasıdır. Bu sayede modelin performansı artırılırken iletişim maliyeti de düşürülebilir. Araştırma sonuçları, SparseLoCo’nun çeşitli iletişim kısıtı ortamlarında hem performans hem de iletişim maliyeti açısından anlamlı avantajlar sunduğunu ampirik olarak göstermektedir. Özellikle %1-3 seyrekliğin ve 2 bit nicelemenin kullanılmasıyla, mevcut DDP (Distributed Data Parallel) yaklaşımına kıyasla iletişim maliyeti belirgin biçimde azaltılırken performansın korunduğu veya iyileştirildiği görülmüştür.

Bu çalışma, LLM ön eğitiminde iletişim verimliliğini artırmaya yönelik yeni bir yöntem sunmakta ve gelecekte yapılacak daha fazla deney ve optimizasyonla SparseLoCo’nun gelişim potansiyeline işaret etmektedir. SparseLoCo’nun büyük ölçekli model eğitiminin verimliliğini artırmada önemli bir katkı sağlaması beklenmektedir; bu da LLM araştırma ve geliştirmede yeni bir yön ortaya koyacaktır.

Makale özeti (Abstract)

İletişim açısından verimli dağıtık eğitim algoritmaları, veri merkezleri arasında ve internet üzerinden bant genişliği kısıtlı ortamlarda Büyük Dil Modellerinin (LLM) eğitilmesine sağladıkları faydalar nedeniyle son dönemde önemli ilgi görüyor. Bu yöntemler iletişim sıklığını azaltmasına rağmen, modelin gradyanlarının tam bir kopyasının yine de iletilmesini gerektirdiğinden, veri merkezleri arası bağlantılarda bile iletişim darboğazı oluşuyor. Ayrıca bu yöntemler, naif AdamW DDP temel çizgisine kıyasla performansı bir miktar düşürebiliyor. Sözde gradyanın boyutunu küçültmek için sıkça niceleme ve hata geri bildirimi uygulanıyor olsa da, LLM ön eğitimi bağlamında mevcut yaklaşımlar ek olarak seyreltmeden yararlanamıyor ve sınırlı niceleme elde edebiliyordu. Bu çalışmada, Top-k seyreltme ve nicelemeyi etkili biçimde kullanarak %1-3 seyreklik ve 2 bit niceleme gibi son derece yüksek sıkıştırma oranlarına ulaşırken tam hassasiyetli DiLoCo'dan daha iyi performans gösteren, LLM'ler için iletişim açısından verimli bir eğitim algoritması olan SparseLoCo tanıtılıyor. Temel gözlemimiz, dış momentumun agresif seyreklikle birleştirilmiş hata geri bildirimiyle yerel olarak yaklaşık hesaplanabileceği ve seyrek toplulaştırmanın model performansını gerçekten artırabileceğidir. Çeşitli iletişim kısıtlı LLM eğitim ortamlarında SparseLoCo'nun hem performans hem de iletişim maliyeti açısından kayda değer avantajlar sunduğunu deneysel olarak gösteriyoruz.
> Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across data centers and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization and error feedback are often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages Top-k sparsification and quantization to reach extreme compression ratios of up to 1-3% sparsity and 2-bit quantization while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback combined with aggressive sparsity and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.

Makale bağlantısı

https://arxiv.org/abs/2508.15706

Bütçe Kısıtları Altında Uyarlanabilir LLM Yönlendirmesi / Adaptive LLM Routing under Budget Constraints

Makale tanıtımı

Büyük dil modellerindeki (LLM) gelişmeler doğal dil işleme alanında devrim yarattı, ancak bu modellerin yüksek maliyeti ve farklı sorgu türlerine uygun şekilde yanıt verme konusu hâlâ bir zorluk olmaya devam ediyor. Bu çalışma, LLM yönlendirme problemini bağlamsal bandit problemi olarak yeniden formüle ederek, bütçe kısıtları altında en uygun LLM'yi seçen Preference-prior Informed LinUCB for Adaptive Routing (PILOT) adlı yeni bir algoritma öneriyor. Mevcut denetimli öğrenme yaklaşımları büyük ölçekli etiketli veri kümeleri gerektirme sınırlamasına sahipken, bu çalışma bu sınırı aşmak için kullanıcı geri bildirimi yoluyla LLM seçimini dinamik olarak ayarlayan bir yöntem geliştirdi.

PILOT iki ana aşamadan oluşur. İlk aşamada, çevrimdışı insan tercih verileri kullanılarak sorgular ile LLM'ler arasındaki yakınlığı yansıtan ortak bir gömme uzayı oluşturulur. Bu süreçte triplet loss en aza indirilerek sorgu ile LLM arasındaki ilişki etkili biçimde öğrenilir. İkinci aşamada ise çevrimiçi bandit geri bildirimi entegre edilerek her sorgu için uygun LLM seçilir ve buna karşılık gelen ödül gözlemlenerek performans sürekli iyileştirilir. Bu yaklaşım, bütçe dikkate alınarak esnek kaynak tahsisini mümkün kılar ve farklı kullanıcı gereksinimlerine uyum sağlayabilme yeteneğine sahiptir.

Bu çalışmanın başlıca katkıları, bütçe kısıtlarını dikkate alan LLM yönlendirme probleminin formüle edilmesi ve bunu çözmek için PILOT algoritmasının önerilmesidir. Deney sonuçları, PILOT'un çeşitli veri kümelerinde mevcut bandit temel çizgilerinden daha üstün performans gösterdiğini ve maliyet verimliliğini en üst düzeye çıkarmada başarılı olduğunu ortaya koymuştur. Bu bulgular, LLM'lerin pratikte dağıtımı ve kullanımına önemli katkılar sunarken, gelecekteki araştırma yönü olarak farklı kullanıcı ihtiyaçlarına uyum yeteneğinin artırılması ve daha fazla veri kümesine uygulanabilirlik önerilmektedir.

Makale özeti (Abstract)

Büyük dil modelleri (LLM'ler) doğal dil işlemeyi kökten değiştirdi, ancak farklı yetenekleri ve maliyetleri pratik uygulamalarda zorluk yaratıyor. LLM yönlendirme, her sorgu/görev için en uygun LLM'yi dinamik olarak seçerek bunu ele alır. Önceki yaklaşımlar, en iyi sorgu-LLM eşleşmelerine dair tam bilgi olduğunu varsayıp bunu denetimli öğrenme problemi olarak ele alıyordu. Ancak gerçek dünya senaryolarında bu kadar kapsamlı eşlemeler bulunmaz ve sürekli değişen kullanıcı sorgularıyla karşılaşılır. Bu nedenle, LLM yönlendirmesini bağlamsal bandit problemi olarak incelemeyi öneriyoruz; bu yaklaşım, denetimli yönlendirmeden farklı olarak her sorgu için tüm LLM'lerde kapsamlı çıkarım gerektirmeden, bandit geri bildirimiyle uyarlanabilir karar vermeyi mümkün kılar. Bu problemi çözmek için, sorgu ve LLM gömmeleri arasındaki yakınlığı yansıtacak şekilde hizalanmış sorgu ve LLM gömmeleri için paylaşımlı bir gömme uzayı geliştiriyoruz. Bu uzay başlangıçta çevrimdışı insan tercih verilerinden öğreniliyor ve çevrimiçi bandit geri bildirimiyle iyileştiriliyor. Bu fikri, uyarlanabilir yönlendirme için LinUCB'nin yeni bir uzantısı olan Preference-prior Informed Linucb fOr adaptive rouTing (PILOT) ile somutlaştırıyoruz. Model yönlendirmede farklı kullanıcı bütçelerini karşılamak için, kaynak açısından verimli yönlendirme sağlayan ve çoktan seçmeli sırt çantası problemi olarak modellenen çevrimiçi bir maliyet politikası sunuyoruz.
> Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.

Makale bağlantısı

https://arxiv.org/abs/2508.21141

Metinden görüntüye difüzyonda hesaplamayı yeniden kullanarak görüntü kümelerinin verimli üretimi / Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

Makale tanıtımı

Metinden görüntüye difüzyon modelleri, yüksek kaliteli görüntüler üretmede son derece etkilidir; ancak bu süreçte ortaya çıkan yüksek hesaplama maliyeti büyük bir zorluk oluşturmaktadır. Mevcut çalışmalar çoğunlukla tekil görüntü üretimindeki verimliliği artırmaya odaklanmışken, bu çalışma ilişkili prompt'lar arasındaki fazlalığı azaltan yeni bir yaklaşım önermektedir. Önerilen yöntem, difüzyon modelinin kabadan inceye ilerleyen yapısından yararlanarak ilk gürültü giderme aşamalarında benzer prompt'lar arasındaki ortak yapıları yakalar.

Bu çalışma, eğitim gerektirmeyen bir yaklaşımla prompt'ları anlamsal benzerliğe göre kümeleyip ilk difüzyon aşamalarında hesaplamayı paylaşma stratejisini benimsemektedir. Deney sonuçları, görüntü gömmelerine koşullandırılmış modellerde bu yöntemin hesaplama maliyetini en az %50 azaltırken görüntü kalitesini koruyabildiğini veya iyileştirebildiğini göstermiştir. Ayrıca, UnClip'in metinden görüntüye önsel bilgisinden yararlanarak difüzyon adımı tahsisini optimize etmiş ve böylece verimliliği daha da artırmıştır.

Önerilen yöntem, mevcut metinden görüntüye üretim işlem hatlarına sorunsuz şekilde entegre edilebilir ve büyük ölçekli prompt kümelerine ölçeklenebilir olduğundan çevresel ve finansal yükü azaltmaya katkı sağlayabilir. Bu çalışma, difüzyon modellerinin üretim dinamiklerine dair önemli içgörüler sunmakta ve gelecekte sürdürülebilir optimizasyon stratejilerinin araştırılması için önemli bir temel oluşturması beklenmektedir.

Makale özeti (Abstract)

Metinden görüntüye difüzyon modelleri yüksek kaliteli görüntü üretimini mümkün kılar, ancak hesaplama açısından pahalıdır. Önceki çalışmalar çıkarım başına verimliliği optimize etmeye odaklanırken, biz buna dik bir yaklaşımı inceliyoruz: ilişkili prompt'lar arasındaki fazlalığı azaltmak. Yöntemimiz, difüzyon modellerinin kabadan inceye doğasını kullanır; burada ilk gürültü giderme adımları benzer prompt'lar arasındaki ortak yapıları yakalar. Anlamsal benzerliğe dayalı olarak prompt'ları kümeleyen ve ilk difüzyon adımlarında hesaplamayı paylaşan eğitim gerektirmeyen bir yaklaşım öneriyoruz. Deneyler, görüntü gömmelerine koşullu olarak eğitilmiş modeller için yaklaşımımızın görüntü kalitesini iyileştirirken hesaplama maliyetini önemli ölçüde düşürdüğünü göstermektedir. UnClip'in metinden görüntüye önsel bilgisinden yararlanarak daha yüksek verimlilik için difüzyon adımı tahsisini geliştiriyoruz. Yöntemimiz mevcut işlem hatlarıyla sorunsuz biçimde entegre olur, prompt kümeleriyle birlikte ölçeklenir ve büyük ölçekli metinden görüntüye üretimin çevresel ve finansal yükünü azaltır. Proje sayfası: https://ddecatur.github.io/hierarchical-diffusion/
> Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/

Makale bağlantısı

https://arxiv.org/abs/2508.21032

Daha fazla oku

https://ddecatur.github.io/hierarchical-diffusion/

Attention, yumuşatılmış bir kübik spline'dır / Attention is a smoothed cubic spline

Makale tanıtımı

Transformer mimarisinde attention modülü, önemine rağmen hâlâ büyük ölçüde bilinmeyen bir alan olarak kalıyor. Bu çalışma, attention modülünü yumuşak bir kübik spline olarak yorumlayarak klasik yaklaşım teorisi perspektifinden yeni içgörüler sunuyor. Yazarlar, ReLU aktivasyon fonksiyonu kullanıldığında attention, masked attention ve encoder-decoder attention'ın tümünün kübik spline olarak ifade edilebildiğini gösterdi. Bu yaklaşım, transformer'ın tüm bileşenlerinin çeşitli attention modülleri ile feed-forward sinir ağlarının birleşiminden oluşması açısından önemli bir anlam taşıyor.

Araştırma, Pierce-Birkhoff varsayımına dayanarak tüm spline'ların ReLU aktivasyonlu encoder ile ifade edilebileceğini vurguluyor. Bu sayede attention modülünün matematiksel özü netleştiriliyor ve kübik spline üzerinden transformer'ın yapısal anlayışı derinleştiriliyor. Ayrıca, yumuşak bir $C^\infty$ sürümü elde etmek için ReLU'nun SoftMax gibi yumuşak bir aktivasyon fonksiyonuyla değiştirilmesi durumunda mevcut transformer modelinin yeniden elde edilebileceği öne sürülüyor.

Bu çalışma, attention mekanizmasına dair matematiksel bir yorum aracılığıyla mevcut makine öğrenmesi modellerine ilişkin anlayışı derinleştiriyor ve transformer mimarisinin özünü spline gibi iyi bilinen bir matematiksel nesneyle açıklıyor. Deney sonuçları, önerilen kübik spline modelinin mevcut modellerden daha iyi performans gösterdiğini ve attention modülünün matematiksel yorumunun gerçek performans üzerinde olumlu etkisi olduğunu kanıtlıyor. Bu bulguların gelecekte attention mekanizmalarının gelişimine katkı sağlaması bekleniyor. Çalışma, transformer'ın attention modülüne yeni bir bakış açısı kazandırıyor ve ilgili alandaki araştırmacılar için önemli bir temel kaynak niteliği taşıyor.

Makale özeti (Abstract)

Muhtemelen önemli ancak şimdiye kadar fark edilmemiş bir içgörüyü vurguluyoruz: bir transformer içindeki attention modülü, yumuşatılmış bir kübik spline'dır. Bu şekilde bakıldığında, transformer'ın bu gizemli ama kritik bileşeni, klasik yaklaşım teorisine derinden kök salmış eski bir kavramın doğal bir gelişimi hâline gelir. Daha kesin olarak, ReLU aktivasyonu altında attention, masked attention ve encoder-decoder attention'ın tümünün kübik spline olduğunu gösteriyoruz. Transformer içindeki her bileşen, çeşitli attention modülleri (= kübik spline'lar) ile feed-forward sinir ağlarının (= doğrusal spline'lar) bileşimlerinden inşa edildiği için, onun tüm bileşenleri -- encoder, decoder ve encoder-decoder blokları; çok katmanlı encoder ve decoder'lar; transformer'ın kendisi -- kübik ya da daha yüksek dereceli spline'lardır. Pierce-Birkhoff varsayımını kabul edersek, tersi de geçerlidir; yani her spline, ReLU aktivasyonlu bir encoder'dır. Bir spline genel olarak yalnızca $C^2$ olduğundan, yumuşatılmış bir $C^\infty$ sürüm elde etmenin bir yolu ReLU'yu yumuşak bir aktivasyonla değiştirmektir; bu aktivasyon SoftMax olarak seçilirse, Vaswani ve arkadaşlarının önerdiği özgün transformer'ı yeniden elde ederiz. Bu içgörü, transformer'ın doğasını tamamen spline'lar cinsinden ifade ederek ona ışık tutar; spline'lar, uygulamalı matematikte en iyi bilinen ve en kapsamlı şekilde anlaşılmış nesnelerden biridir.
> We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.

Makale bağlantısı

https://arxiv.org/abs/2408.09624

$Mem^p$: Ajan prosedürel belleğinin keşfi / $Mem^p$: Exploring Agent Procedural Memory

Makale tanıtımı

Büyük dil modeli (LLM) tabanlı ajanlar çeşitli görevlerde üstün performans sergilese de, mevcut prosedürel bellekler manuel olarak tasarlanmış ya da statik parametrelere bağımlı olduğu için kırılgan özellikler gösteriyor. Bu çalışmada, ajanlara öğrenilebilir ve güncellenebilir yaşam boyu prosedürel bellek kazandırmak için yenilikçi bir yöntem olan $Mem^p$ öneriliyor. $Mem^p$, geçmiş ajan izlerini ayrıntılı adım adım talimatlar ve yüksek seviyeli betikler biçiminde damıtarak prosedürel belleğin inşa (Build), erişim (Retrieval) ve güncelleme (Update) stratejilerini inceliyor.

$Mem^p$'nin özü, dinamik bir rejim aracılığıyla prosedürel belleği sürekli güncellemek, düzeltmek ve elden çıkarmaktır. Bu sayede ajan, yeni deneyimlere göre bellek deposunu geliştirebilir ve ampirik değerlendirmeler TravelPlanner ile ALFWorld üzerinde ajanların başarı oranı ve verimliliğinin kademeli olarak arttığını gösterdi. Özellikle, daha güçlü modellerde inşa edilen prosedürel belleğin değerini koruduğu ve bunun daha zayıf modellere aktarılması durumunda da performansı önemli ölçüde iyileştirdiği görüldü.

Prosedürel belleğin erişim süreci, ajanın yeni bir görev için en benzer deneyimi etkili biçimde bulabilmesi açısından kritik öneme sahiptir. Bu süreç, benzerliği ölçmek için vektör embedding modellerinin kullanılması ve en uygun belleğin getirilmesi şeklinde uygulanır. Ayrıca, prosedürel belleğin güncelleme mekanizması, ajanın gerçekleştirdiği görev sayısı arttıkça dinamik olarak ekleme, silme ve düzeltme yapılabilecek şekilde tasarlanmıştır. Bu kapsamlı yaklaşım, ajanın öğrenme kapasitesini en üst düzeye çıkarmaya ve çeşitli ortamlardaki görev yürütme becerisini iyileştirmeye katkı sağlar.

$Mem^p$, ajanın prosedürel belleğini sürekli iyileştirerek gelecekteki ajan sistemlerinin geliştirilmesi için önemli çıkarımlar sunuyor ve öğrenilebilir prosedürel belleğin önemini vurguluyor. Bu araştırma sonuçlarının, ajan performansını en üst düzeye çıkarmada yenilikçi bir katkı sağlaması bekleniyor.

Makale özeti (Abstract)

Büyük dil modellerine (LLM) dayalı ajanlar, çeşitli görevlerde üstün performans sergilese de, elle tasarlanmış veya statik parametrelere dolanmış kırılgan prosedürel bellek nedeniyle zorluk yaşar. Bu çalışma, ajanlara öğrenilebilir, güncellenebilir ve ömür boyu kullanılabilecek bir prosedürel bellek kazandırmaya yönelik stratejileri inceliyor. Geçmiş ajan izlerini hem ince ayrıntılı adım adım talimatlara hem de üst düzey betik benzeri soyutlamalara damıtan $Mem^p$ öneriliyor ve prosedürel belleğin oluşturulması (Build), geri getirilmesi (Retrieval) ve güncellenmesi (Update) için farklı stratejilerin etkisi araştırılıyor. İçeriğini sürekli güncelleyen, düzelten ve kullanımdan kaldıran dinamik bir düzenle bir araya getirildiğinde, bu depo yeni deneyimlerle eşzamanlı olarak evriliyor. TravelPlanner ve ALFWorld üzerindeki ampirik değerlendirmeler, bellek deposu rafine edildikçe ajanların benzer görevlerde istikrarlı biçimde daha yüksek başarı oranları ve daha yüksek verimlilik elde ettiğini gösteriyor. Ayrıca, daha güçlü bir modelden oluşturulan prosedürel bellek değerini koruyor; prosedürel belleğin daha zayıf bir modele aktarılması kayda değer performans artışları sağlıyor.
> Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose $Mem^p$ that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, Retrieval, and Update of procedural memory. Coupled with a dynamic regimen that continuously updates, corrects, and deprecates its contents, this repository evolves in lockstep with new experience. Empirical evaluation on TravelPlanner and ALFWorld shows that as the memory repository is refined, agents achieve steadily higher success rates and greater efficiency on analogous tasks. Moreover, procedural memory built from a stronger model retains its value: migrating the procedural memory to a weaker model yields substantial performance gains.

Makale bağlantısı

https://arxiv.org/abs/2508.06433

Model mimarisi keşfi için AlphaGo anı / AlphaGo Moment for Model Architecture Discovery

Makale tanıtımı

ASI-Arch, sinir ağı mimarisi arama alanında tamamen otonom biçimde yenilikçi mimariler keşfeden bir yapay süperzekâ (ASI4AI) sistemidir. İnsan tarafından tanımlanmış arama alanlarıyla sınırlı mevcut sinir ağı mimarisi aramasının (NAS) ötesine geçerek, otomatik optimizasyondan otomatik inovasyona bir paradigma değişimi gerçekleştirir ve yeni mimari kavramlarını hipotez kurma, uygulama, eğitme ve doğrulamaya kadar bağımsız şekilde yürütür. 20.000 GPU saati boyunca yapılan 1.773 deneyle, insan tasarımına dayalı temelleri aşan yeni tasarım ilkeleri sunan 106 adet son teknoloji doğrusal attention (linear attention) mimarisi keşfetmiştir. Ayrıca bilimsel keşfin kendisine dair ampirik ölçekleme yasaları ortaya koyarak, araştırma ilerlemesinin insan bilişsel sınırlarının ötesinde hesaplama kaynaklarıyla ölçeklenebilir bir sürece dönüştüğünü göstermiştir.

Makale özeti (Abstract)

Yapay zeka sistemleri katlanarak gelişen yetenekler sergilerken, yapay zeka araştırmasının hızı insan bilişsel kapasitesi tarafından doğrusal olarak sınırlı kalıyor ve giderek daha ciddi bir geliştirme darboğazı yaratıyor. Bu makale, sinir ağı mimarisi keşfi gibi kritik bir alanda yapay zeka araştırması için yapay süperzekânın (ASI4AI) ilk gösterimi olan ASI-Arch’ı sunuyor. ASI-Arch, yapay zekânın kendi başına mimari inovasyon yapmasını sağlayarak bu temel kısıtı aşan tamamen otonom bir sistemdir. İnsan tarafından tanımlanmış arama alanlarıyla sınırlı geleneksel Neural Architecture Search (NAS) yaklaşımının ötesine geçerek, otomatik optimizasyondan otomatik inovasyona bir paradigma değişimi getiriyor. ASI-Arch, mimari keşfi alanında uçtan uca (end-to-end) bilimsel araştırma yürütebilir; yeni mimari kavramları otonom olarak varsayar, bunları çalıştırılabilir kod olarak uygular, eğitir ve performanslarını sıkı deneyler ile geçmiş deneyimlerden öğrenme yoluyla ampirik olarak doğrular. ASI-Arch, 20.000 GPU saatinde 1.773 otonom deney gerçekleştirdi ve bunun sonucunda 106 yenilikçi, son teknoloji (SOTA) linear attention mimarisi keşfetti. İnsan oyuncuların göremediği beklenmedik stratejik içgörüleri ortaya koyan AlphaGo’nun 37. hamlesi (Move 37) gibi, bu yapay zekâ tarafından keşfedilen mimariler de insan tasarımı temel ölçütleri sistematik biçimde aşan ortaya çıkan tasarım ilkeleri sergiliyor ve mimari inovasyon için daha önce bilinmeyen yolları aydınlatıyor. Özellikle, bilimsel keşfin kendisine ilişkin ilk ampirik ölçeklenme yasasını ortaya koyarak, mimari atılımların hesaplama yoluyla ölçeklenebilir olduğunu gösteriyor; böylece araştırma ilerlemesini insan sınırlarıyla kısıtlı bir süreçten hesaplama ile ölçeklenebilen bir sürece dönüştürüyor. Makale, bu atılımları mümkün kılan ortaya çıkan tasarım örüntüleri ile otonom araştırma yeteneklerine dair kapsamlı bir analiz sunuyor ve kendi kendini hızlandıran yapay zeka sistemleri için bir yol haritası ortaya koyuyor.
> Yapay zeka sistemleri katlanarak gelişen yetenekler sergilerken, yapay zeka araştırmasının hızı insan bilişsel kapasitesi tarafından doğrusal olarak sınırlı kalıyor ve giderek daha ciddi bir geliştirme darboğazı yaratıyor. Sinir ağı mimarisi keşfi gibi kritik bir alanda yapay zeka araştırması için yapay süperzekânın (ASI4AI) ilk gösterimi olan ASI-Arch’ı sunuyoruz; bu, yapay zekânın kendi mimari inovasyonunu gerçekleştirmesini sağlayarak bu temel kısıtı yıkan tamamen otonom bir sistemdir. İnsan tarafından tanımlanmış alanları keşfetmekle temelden sınırlı geleneksel Neural Architecture Search (NAS) yaklaşımının ötesine geçerek, otomatik optimizasyondan otomatik inovasyona bir paradigma değişimi sunuyoruz. ASI-Arch, mimari keşfi alanında uçtan uca bilimsel araştırma yürütebilir; yeni mimari kavramları otonom biçimde varsayar, bunları çalıştırılabilir kod olarak uygular, eğitir ve sıkı deneyler ile geçmiş deneyim aracılığıyla performanslarını ampirik olarak doğrular. ASI-Arch, 20.000 GPU saati boyunca 1.773 otonom deney yürüttü ve bunun sonucunda 106 yenilikçi, son teknoloji (SOTA) linear attention mimarisi keşfetti. İnsan oyuncular için görünmeyen beklenmedik stratejik içgörüleri ortaya çıkaran AlphaGo’nun Move 37’si gibi, yapay zekâ tarafından keşfedilen mimarilerimiz de insan tasarımı temel ölçütleri sistematik olarak aşan ortaya çıkan tasarım ilkeleri sergiliyor ve mimari inovasyon için daha önce bilinmeyen yolları aydınlatıyor. Kritik olarak, bilimsel keşfin kendisi için ilk ampirik ölçeklenme yasasını ortaya koyuyoruz; bu da mimari atılımların hesaplama yoluyla ölçeklenebileceğini göstererek araştırma ilerlemesini insanla sınırlı bir süreçten hesaplama ile ölçeklenebilir bir sürece dönüştürüyor. Bu atılımları mümkün kılan ortaya çıkan tasarım örüntüleri ve otonom araştırma yeteneklerine dair kapsamlı bir analiz sunuyor, kendi kendini hızlandıran yapay zeka sistemleri için bir yol haritası oluşturuyoruz.

Makale bağlantısı

https://arxiv.org/abs/2507.18074

Denetimsiz Öğrenme Yoluyla Dil Modellerinin Yeteneklerini Ortaya Çıkarma / Unsupervised Elicitation of Language Models

Makale tanıtımı

Önceden eğitilmiş dil modelleri belirli görevlere uyarlanırken, mevcut yöntemler insan denetimi gerektirir; ancak insanüstü yeteneklere sahip modellerde yüksek kaliteli insan denetimi zor ya da imkânsız olabilir. Bunu çözmek için, dış denetim olmadan modelin kendi ürettiği etiketleri kullanarak ince ayar yapan denetimsiz bir öğrenme algoritması olan Internal Coherence Maximization (ICM) önerilmektedir. ICM, çeşitli benchmark’larda insan denetimine dayalı öğrenmeyle eşdeğer ya da daha iyi performans gösterir; özellikle insanüstü yetenek gerektiren görevlerde insan etiketleriyle yapılan öğrenmeden daha üstün sonuçlar verir. Ayrıca bu yöntem kullanılarak son teknoloji dil modellerinin ödül modeli ve yardımcı sistemleri eğitilmiş, insan denetimli modellere kıyasla performans artışı gösterilmiştir.

Makale özeti (Abstract)

Önceden eğitilmiş dil modellerini alt görevlere yönlendirmek için günümüzdeki post-training paradigması, istenen davranışları insanların tanımlamasına dayanıyor. Ancak insanüstü (superhuman) yeteneklere sahip modeller söz konusu olduğunda, yüksek kaliteli insan denetimi elde etmek zor ya da imkânsızdır. Bu sorunu çözmek için, önceden eğitilmiş dil modellerini kendi ürettikleri etiketler üzerinde, dış denetim olmadan (without external supervision) ince ayar yapmak üzere yeni bir denetimsiz öğrenme algoritması olan İç Tutarlılık Maksimizasyonu'nu (Internal Coherence Maximization, ICM) öneriyoruz. GSM8k-verification, TruthfulQA ve Alpaca ödül modelleme görevlerinde bu yöntem, altın standart denetimle (golden supervision) eğitilen performansla eşdeğer sonuç verirken, kitlesel kaynaklı insan denetimiyle eğitimi geride bırakıyor. Dil modellerinin yeteneklerinin belirgin biçimde insanüstü olduğu görevlerde ise bu yöntem, insan etiketleriyle eğitime kıyasla bu yetenekleri çok daha etkili biçimde ortaya çıkarabiliyor. Son olarak, yöntemimizin en ileri düzey LLM'lerin eğitimini iyileştirebildiğini gösteriyoruz. Bu yöntemi kullanarak denetimsiz bir ödül modeli eğittik ve pekiştirmeli öğrenme ile Claude 3.5 Haiku tabanlı bir asistan eğittik. Hem ödül modeli hem de asistan, insan denetimli muadillerinden daha iyi performans gösteriyor.
> Önceden eğitilmiş dil modellerini alt görevlere yönlendirmek için günümüzün post-training paradigması, istenen davranışları insanların tanımlamasına dayanır. Ancak insanüstü yeteneklere sahip modeller için yüksek kaliteli insan denetimi elde etmek zor veya imkânsızdır. Bu zorluğu aşmak için, önceden eğitilmiş dil modellerini kendi ürettikleri etiketler üzerinde, dış denetim olmadan, ince ayar yapmak üzere yeni bir denetimsiz algoritma olan Internal Coherence Maximization'ı (ICM) tanıtıyoruz. GSM8k-verification, TruthfulQA ve Alpaca ödül modelleme görevlerinde yöntemimiz, altın standart denetimle eğitimin performansına ulaşıyor ve kitlesel kaynaklı insan denetimiyle eğitimi aşıyor. Dil modellerinin yeteneklerinin güçlü biçimde insanüstü olduğu görevlerde yöntemimiz, bu yetenekleri insan etiketleriyle eğitime kıyasla belirgin ölçüde daha iyi ortaya çıkarabiliyor. Son olarak, yöntemimizin frontier dil modellerinin eğitimini geliştirebildiğini gösteriyoruz: yöntemimizi kullanarak denetimsiz bir ödül modeli eğitiyor ve pekiştirmeli öğrenme ile Claude 3.5 Haiku tabanlı bir asistan eğitiyoruz. Hem ödül modeli hem de asistan, insan denetimli karşılıklarından daha iyi performans gösteriyor.

Makale bağlantısı

https://arxiv.org/abs/2506.10139

Bu yazı, GPT modeliyle özetlenmiş bir metne dayanmaktadır; bu nedenle içerik, özgün metnin içeriği veya niyetinden farklı biçimde düzenlenmiş olabilir. İlginizi çektiyse lütfen özgün metne de göz atın! Okurken garip ya da hatalı bir bölüm fark ederseniz, lütfen yorumda bize bildirin. 🤗
⚠️Reklam⚠️ 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)

[2025/09/01 ~ 07] Bu hafta göz atmaya değer AI/ML makaleleri derlemesi