[2025/09/15 ~ 21] Bu Hafta Göz Atmaya Değer AI/ML Makaleleri Derlemesi
(discuss.pytorch.kr)PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Multimodal modellerin bütünleştirilmesi ve optimizasyonu: Son dönemdeki makaleler, birleşik multimodal modellerin (UMM) performansını artırmak için çeşitli yaklaşımlar öneriyor. Örneğin, "Reconstruction Alignment" görüntü ve metin birleşimi üzerinden modelin anlama ve üretme yeteneklerini yeniden hizalamanın bir yolunu tanıtırken, "AToken" görüntü, video ve 3D varlıklar için birleşik bir tokenizer geliştirerek farklı görsel girdileri işliyor. Bu çalışmalar, multimodal yapay zeka sistemlerinin gelişimi için temel oluşturuyor.
2️⃣ Ajan merkezli veri sistemi tasarımı: "Supporting Our AI Overlords" ve "Scaling Agents via Continual Pre-training" makaleleri, büyük dil modeli (LLM) ajanlarının veri sistemlerinde önemli bir rol oynayacağını savunuyor. Bu çalışmalar, ajanların veri işleme ve analiz yapabilmesi için gerekli yetenekleri geliştirmek amacıyla çeşitli ortamlardaki etkileşimler üzerinden öğrenmesi gerektiğini vurguluyor. Bu da ajan öncelikli veri sistemi mimarisi tasarımı için yeni araştırma fırsatları sunuyor.
3️⃣ Özerk öğrenme ve evrilen modeller: "R-Zero" makalesi, veriyi özerk biçimde üreten ve öğrenen modellere duyulan ihtiyacı öne çıkarıyor. Mevcut yöntemler insan tarafından rafine edilmiş görev ve etiketlere dayanırken, R-Zero kendi kendine görev önerip çözen iki model aracılığıyla kendi kendini evrimleştiren bir öğrenme müfredatı oluşturuyor. Bu yaklaşımın, yapay zeka sistemlerinin insan zekasını aşan yeteneklere doğru gelişmesinde önemli rol oynaması bekleniyor.
Reconstruction Alignment birleşik multimodal modelleri iyileştiriyor / Reconstruction Alignment Improves Unified Multimodal Models
Makale tanıtımı
Unified Multimodal Models (UMMs), görsel anlama ve üretim yeteneklerini birleştirerek çeşitli görevleri yerine getirebilme potansiyeli sunan yenilikçi bir yaklaşımdır. Ancak mevcut eğitim yöntemleri görüntü-metin çiftlerine dayanır ve bu nedenle caption'lar ayrıntılı görsel bilgileri kaçırma eğiliminde olduğundan performans düşüşüne yol açar. Bu sınırlamayı aşmak için önerilen yöntem Reconstruction Alignment (RecA)'dır. RecA, görsel anlama encoder embedding'lerini yoğun "metin prompt"ları olarak kullanarak caption olmadan da zengin denetim sinyali sağlayan, kaynak açısından verimli bir post-training tekniğidir.
RecA'nın özü, UMM'in kendi görsel anlama embedding'lerine koşullandırılarak giriş görüntüsünü yeniden oluşturacak şekilde optimize edilmesidir. Bu süreçte self-supervised reconstruction loss kullanılarak modelin anlama ve üretme yetenekleri hizalanır ve böylece görsel bilgi daha etkili biçimde kullanılabilir. RecA; autoregressive, masked autoregressive ve diffusion tabanlı UMM'ler dahil olmak üzere farklı mimarilere uygulanabilir ve üretim ile düzenleme sadakatini tutarlı biçimde iyileştirir.
Deney sonuçlarına göre RecA uygulandıktan sonra GenEval'de görüntü üretim performansı 0.73'ten 0.90'a, DPGBench'te ise 80.93'ten 88.15'e yükseldi. Ayrıca görüntü düzenleme benchmark'larında da ImgEdit ve GEdit için sırasıyla 3.38'den 3.75'e ve 6.94'ten 7.25'e artış sağlandı. Bu sonuçlar, RecA'nın mevcut büyük açık kaynaklı modelleri aşan bir performans sergilediğini ve farklı UMM mimarilerine geniş ölçekte uygulanabileceğini gösteriyor.
RecA, UMM'lerin anlama ve üretim yeteneklerini etkili şekilde hizalayan bir yöntem olarak, kaynak verimliliği yüksek bir post-training stratejisi olma potansiyeli taşıyor. Gelecek çalışmalarda RecA'nın uygulama alanını genişletmek ve diğer multimodal görevlerdeki performansını değerlendirmek önemli olacaktır. Bu tür araştırmaların, multimodal modellerin gelişimine katkı sunması bekleniyor.
Makale özeti (Abstract)
Birleşik multimodal modeller (UMM), tek bir mimari içinde görsel anlama ve üretimi bir araya getirir. Ancak geleneksel eğitim yaklaşımı genellikle caption'ları seyrek olan ve ince görsel ayrıntıları kaçıran görüntü-metin çiftlerine (veya dizilerine) dayanır; basit bir görüntüyü açıklamak için yüzlerce kelime kullanıldığında bile durum böyledir. Biz, görsel anlama encoder embedding'lerini yoğun "metin prompt"ları olarak kullanan ve caption olmadan zengin denetim sağlayan, kaynak verimli bir post-training yöntemi olan Reconstruction Alignment'ı (RecA) tanıtıyoruz. Daha somut olarak RecA, bir UMM'i kendi görsel anlama embedding'leri üzerinde koşullandırır ve self-supervised reconstruction loss ile giriş görüntüsünü yeniden üretmesi için optimize ederek anlama ve üretimi yeniden hizalar. Basitliğine rağmen RecA; autoregressive, masked autoregressive ve diffusion tabanlı UMM'lerde geniş biçimde uygulanabilir ve üretim ile düzenleme sadakatini tutarlı şekilde artırır. Yalnızca 27 GPU-saat ile RecA kullanılarak yapılan post-training, GenEval'de görüntü üretim performansını önemli ölçüde artırır (0.73$\rightarrow$0.90) ve DPGBench'te (80.93$\rightarrow$88.15) iyileşme sağlar; aynı zamanda düzenleme benchmark'larını da yükseltir (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Özellikle RecA, çok daha büyük açık kaynaklı modelleri geride bırakır ve farklı UMM mimarilerinde geniş ölçekte uygulanabilir; böylece UMM'ler için verimli ve genel bir post-training hizalama stratejisi olarak konumlanır.
> Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs
Makale bağlantısı
https://arxiv.org/abs/2509.07295
Yapay zeka efendilerimizi desteklemek: veri sistemlerini ajan öncelikli olacak şekilde yeniden tasarlamak / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First
Makale tanıtımı
Büyük dil modeli (LLM) ajanlarının veri işleme ve analiz gerçekleştirme biçiminin, veri sistemlerinin geleceğinde önemli bir değişim yaratması bekleniyor. Bu ajanlar, kullanıcının isteğine göre yüksek hızda keşif yapıp çözümler sundukları ajanik spekülasyon (agentic speculation) süreciyle çalışır. Ancak ajanik spekülasyonun büyük ölçekte ortaya çıkması ve verimsizlikleri, mevcut veri sistemleri için zorluk oluşturabilir. Bu nedenle veri sistemlerinin, bu tür ajanik iş yüklerini doğal biçimde destekleyebilecek şekilde evrilmesi gerekir.
Bu çalışma, ajanik spekülasyonun ölçek, heterojenlik, tekrar ve yönlendirilebilirlik gibi özelliklerinden yararlanarak yeni bir ajan öncelikli veri sistemi mimarisi için araştırma fırsatları sunuyor. Bu kapsamda yeni sorgu arayüzleri, sorgu işleme teknikleri ve ajanik bellek depoları gibi yenilikçi yaklaşımlar inceleniyor. Özellikle ajanların verilerle etkileşimin temel mekanizması haline gelmesi durumunda, veri sistemlerinde verimlilik artışının önü açılabilir.
Vaka incelemeleriyle ajanik iş yüklerinin özellikleri analiz edildi ve buna bağlı optimizasyon fırsatları belirlendi. İlk çalışmada, BIRD veri kümesi kullanılarak LLM’nin istek sayısını artırarak doğruluğu nasıl yükseltebildiği araştırıldı; ikinci çalışmada ise iki veritabanındaki bilgilerin birleştirildiği karmaşık bir görev yürütüldü. Bu sonuçlar, ajanik spekülasyonun veri sistemlerinin verimliliğini artırma potansiyeline sahip olduğunu gösteriyor.
Son olarak, ajanik spekülasyonun keşif aşamasında ortaya çıkan tekrar ve heterojenlik sorunlarını çözmek için ajanik bellek deposu ve yeni bir işlem çerçevesi önerildi. Bu yaklaşım, veri sistemlerinin ajan merkezli olarak yeniden tasarlanması gerektiğini vurgularken, gelecekteki araştırmalar için yeni bir vizyon da ortaya koyuyor.
Makale Özeti (Abstract)
Büyük dil modeli (LLM) ajanları, kullanıcıları adına veriyi işleyip analiz eder ve gelecekte veri sistemleri için baskın iş yükü haline gelme olasılığı yüksektir. Veriyle çalışırken ajanlar, verilen görev için keşif ve çözüm üretimini yüksek verimli bir süreçle yürütür; biz buna ajanik spekülasyon (agentic speculation) diyoruz. Ajanik spekülasyonun çok büyük hacmi ve verimsizlikleri, günümüz veri sistemleri için zorluk yaratabilir. Biz, veri sistemlerinin ajanik iş yüklerini daha doğal biçimde destekleyecek şekilde uyum sağlaması gerektiğini savunuyoruz. Belirlediğimiz ajanik spekülasyon özellikleri olan ölçek, heterojenlik, tekrar ve yönlendirilebilirlikten yararlanarak; yeni sorgu arayüzlerinden yeni sorgu işleme tekniklerine, yeni ajanik bellek depolarına kadar uzanan, ajan öncelikli yeni bir veri sistemi mimarisi için çeşitli araştırma fırsatları ortaya koyuyoruz.
> Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.
Makale Bağlantısı
https://arxiv.org/abs/2509.00997
AToken: Görüntü için birleşik bir tokenizer / AToken: A Unified Tokenizer for Vision
Makale Tanıtımı
AToken, görüntü, video ve 3D varlıklar genelinde hem yüksek doğruluklu yeniden yapılandırma hem de anlamsal kavrayışı aynı anda sağlayan ilk birleşik görsel tokenizer'dır. Mevcut tokenizer'lar tek bir modalite için yeniden yapılandırma veya kavrayışa odaklanırken, AToken çeşitli görsel girdileri ortak bir 4D gizil uzaya kodlayarak bu iki görevi ve farklı modaliteleri tek bir çerçevede birleştirir. Sistem, keyfi çözünürlük ve zaman uzunluğundaki görsel girdileri işlemek için 4D rotary positional embedding içeren tamamen Transformer tabanlı bir mimari sunar. Kararlı eğitimi güvence altına almak için AToken, algısal kayıp ile Gram matrix kaybını birleştiren adversarial olmayan bir eğitim hedefi önererek son teknoloji yeniden yapılandırma kalitesine ulaşıyor. Kademeli eğitim müfredatı sayesinde AToken, tekil görüntülerden videoya ve 3D'ye doğru aşamalı olarak genişler ve hem sürekli hem ayrık gizil token'ları destekler. AToken; görüntülerde 0.21 rFID ve %82.2 ImageNet doğruluğu, videolarda 3.01 rFVD ve %32.6 MSRVTT arama performansı, 3D için ise 28.19 PSNR ve %90.9 sınıflandırma doğruluğu elde eder. Aşağı akış uygulamalarında AToken, görüntü üretimi, metinden videoya üretim, görüntüden 3D sentezi gibi görsel üretim görevlerinin yanı sıra multimodal büyük dil modelleri (LLM) gibi anlama görevlerini de mümkün kılarak tüm benchmark'larda rekabetçi performans gösterir. Bu sonuçlar, birleşik görsel tokenization temelli yeni nesil multimodal yapay zeka sistemlerinin potansiyeline işaret ediyor.
Makale Özeti (Abstract)
Görüntü, video ve 3D varlıklar genelinde hem yüksek doğruluklu yeniden yapılandırma hem de anlamsal kavrayışı sağlayan ilk birleşik görsel tokenizer olan AToken'ı tanıtıyoruz. Mevcut tokenizer'lar tek bir modalite için yeniden yapılandırma veya kavrayışa özelleşmişken, AToken bu çeşitli görsel girdileri ortak bir 4D gizil uzaya kodlayarak iki görevi ve farklı modaliteleri tek bir çerçevede birleştirir. Özellikle, keyfi çözünürlük ve zamansal uzunluğa sahip görsel girdileri işlemek için 4D rotary positional embedding içeren tamamen Transformer tabanlı bir mimari sunuyoruz. Kararlı eğitimi sağlamak için, algısal kayıp ile Gramian matris kaybını birleştiren adversarial olmayan bir eğitim hedefi sunuyor ve böylece son teknoloji yeniden yapılandırma kalitesine ulaşıyoruz. Kademeli bir eğitim müfredatından yararlanan AToken, tekil görüntüden video ve 3D'ye doğru aşamalı olarak genişlerken hem sürekli hem ayrık gizil token'ları destekler. AToken; görüntüler için 0.21 rFID ve %82.2 ImageNet doğruluğu, videolar için 3.01 rFVD ve %32.6 MSRVTT erişim oranı, 3D için ise 28.19 PSNR ve %90.9 sınıflandırma doğruluğu elde eder. Aşağı akış uygulamalarında AToken, hem görsel üretim görevlerini (ör. sürekli ve ayrık token'larla görüntü üretimi, metinden videoya üretim, görüntüden 3D sentezi) hem de anlama görevlerini (ör. multimodal büyük dil modelleri) mümkün kılar ve tüm benchmark'larda rekabetçi performans elde eder. Bu sonuçlar, birleşik görsel tokenization temeli üzerine kurulu yeni nesil multimodal yapay zeka sistemlerine dair içgörüler sunuyor.
> Görüntüler, videolar ve 3D varlıklar genelinde hem yüksek doğruluklu yeniden yapılandırma hem de anlamsal kavrayış sağlayan ilk birleşik görsel tokenizer olan AToken'ı sunuyoruz. Mevcut tokenizer'ların tekil modalitelerde ya yeniden yapılandırma ya da kavrayışa odaklanmasının aksine, AToken bu çeşitli görsel girdileri paylaşılan bir 4D latent uzayında kodlayarak hem görevleri hem de modaliteleri tek bir çatı altında birleştirir. Özellikle, keyfi çözünürlükler ve zamansal sürelerdeki görsel girdileri işlemek için 4D rotary position embedding'lere sahip tamamen transformer tabanlı bir mimari sunuyoruz. Kararlı eğitimi sağlamak için algısal ve Gram matrix kayıplarını birleştiren, adversarial içermeyen bir eğitim hedefi tanımlıyoruz ve bu sayede son teknoloji yeniden yapılandırma kalitesine ulaşıyoruz. Aşamalı bir eğitim müfredatı kullanarak AToken tekil görüntülerden, videolardan ve 3D'den kademeli olarak genişler ve hem sürekli hem de ayrık latent token'ları destekler. AToken; görüntüler için 0.21 rFID ve %82.2 ImageNet doğruluğu, videolar için 3.01 rFVD ve %32.6 MSRVTT retrieval, 3D için ise 28.19 PSNR ve %90.9 sınıflandırma doğruluğu elde eder. Aşağı akış uygulamalarında AToken, hem görsel üretim görevlerini (ör. sürekli ve ayrık token'larla görüntü üretimi, text-to-video üretimi, image-to-3D sentezi) hem de kavrayış görevlerini (ör. multimodal LLM'ler) mümkün kılar ve tüm benchmark'larda rekabetçi performans gösterir. Bu sonuçlar, birleşik görsel tokenization üzerine kurulu yeni nesil multimodal yapay zeka sistemlerine ışık tutmaktadır.
Makale bağlantısı
https://arxiv.org/abs/2509.14476
Ortam Ölçeklendirme Yoluyla Genel Ajanik Zekaya Doğru / Towards General Agentic Intelligence via Environment Scaling
Makale tanıtımı
Gelişmiş ajanik zeka, büyük dil modellerini (LLM) gerçek dünya uygulamalarına etkili biçimde dağıtabilmek için temel bir unsur haline gelmiştir. Çeşitli gerçek dünya API'leri, doğru ve güçlü function calling zekası gerektirir; bu da ajanların bu yetenekleri farklı ortamlarda etkileşim yoluyla geliştirmesi gerektiği anlamına gelir. Bu çalışma, genel ajanik zekayı geliştirmeye yönelik bir adım olarak ortamları ölçeklendirmeyi öneriyor ve bu yolla iki temel zorluğu çözmeyi amaçlıyor. Birincisi, ortamların ilkeli bir şekilde nasıl ölçeklendirileceği; ikincisi ise bu ortamlarla etkileşim üzerinden ajan yeteneklerinin nasıl etkili biçimde öğrenileceğidir.
Bu sorunları çözmek için araştırmacılar, heterojen ortamları otomatik olarak kuran ölçeklenebilir bir çerçeve tasarladı. Bu çerçeve, tamamen simüle edilmiş ortamları sistematik biçimde ölçeklendirerek function calling senaryolarının alanını genişletmeye odaklanıyor. Ayrıca iki aşamalı bir ajan fine-tuning stratejisi sunuluyor; ilk aşamada ajana temel ajanik yetenekler kazandırılıyor, ikinci aşamada ise bunlar alan-özel bağlama göre uzmanlaştırılıyor.
Bu çalışmada önerilen ortam kurma ve ölçeklendirme metodolojisi, 30.000'den fazla API'nin toplanmasını ve araç bağımlılık grafiği modellemesi yoluyla alan bölümlendirmeleri ile dağılımların türetilmesini içeren sistematik bir pipeline barındırıyor. Bu sayede ajan, ortam durumunu başlatabiliyor ve alan-özel araç grafiğinden mantıksal olarak tutarlı araç dizilerini örnekleyerek geçerli diziler üretebiliyor. Bu süreç, veritabanı düzeyinde durum tutarlılığı ile araç dizilerinin doğru eşleşmesini garanti ederek ajanın function calling yeteneğini önemli ölçüde artırıyor.
Sonuç olarak, bu çalışmada geliştirilen AgentScaler modeli, ajanların function calling yeteneğini çarpıcı biçimde iyileştiriyor ve bunun gelecekte ajanik zekanın gelişimine önemli katkı sağlaması bekleniyor. Bu yaklaşım, ajanların farklı ortamlarda etkili biçimde çalışabilmesini desteklerken ajanik zekanın pratik uygulama alanını da daha da genişletecektir.
Makale özeti (Abstract)
Gelişmiş ajan zekası, büyük dil modellerini gerçek dünya uygulamalarına dağıtmanın ön koşuludur. Çeşitli gerçek dünya API'leri doğru ve güçlü function calling zekası gerektirir; bu da ajanların bu yetenekleri farklı ortamlarda etkileşim yoluyla geliştirmesi gerektiği anlamına gelir. Function calling yeteneğinin kapsamı, ajanların eğitildiği ortamların çeşitliliğiyle yakından ilişkilidir. Bu çalışmada genel ajan zekasını geliştirmeye yönelik bir adım olarak ortamları ölçeklendiriyoruz. Bu da iki temel zorluğu ortaya çıkarıyor: (i) ortamların ilkeli biçimde nasıl ölçeklendirileceği, (ii) bu ortamlarla etkileşimden elde edilen deneyimlerden ajan yeteneklerinin nasıl etkili biçimde eğitileceği. Bunu çözmek için, function calling senaryolarının alanını sistematik olarak genişletmek üzere heterojen ortamları otomatik biçimde yapılandıran ölçeklenebilir bir çerçeve tasarlıyoruz. Ayrıca ajana temel ajan yetenekleri kazandırdıktan sonra bunları alan-özel bağlama göre uzmanlaştıran iki aşamalı bir ajan fine-tuning stratejisi uyguluyoruz. Ajan benchmark'ları olan tau-bench, tau2-Bench ve ACEBench üzerinde yapılan kapsamlı deneyler, eğitilmiş modelimiz AgentScaler'ın modelin function calling yeteneğini önemli ölçüde geliştirdiğini göstermektedir.
> Gelişmiş agentik zeka, Büyük Dil Modellerini gerçek dünyadaki pratik uygulamalarda devreye almak için bir ön koşuldur. Gerçek dünyadaki çeşitli API'ler, hassas ve sağlam bir function-calling zekası gerektirir; bu da agent'ların bu yetenekleri farklı ortamlardaki etkileşimler yoluyla geliştirmesini zorunlu kılar. Function-calling yetkinliğinin kapsamı, agent'ların eğitildiği ortamların çeşitliliğiyle yakından ilişkilidir. Bu çalışmada, genel agentik zekayı ilerletmeye yönelik bir adım olarak ortamları ölçeklendiriyoruz. Bu da iki temel zorluğu ortaya çıkarıyor: (i) ortamları ilkeli bir şekilde nasıl ölçeklendireceğimiz ve (ii) bu ortamlarla etkileşimlerden elde edilen deneyimlerden agentik yetenekleri nasıl etkili biçimde eğiteceğimiz. Bunları ele almak için, tamamen simüle edilen heterojen ortamları otomatik olarak kuran ve function-calling senaryoları uzayını sistematik biçimde genişleten ölçeklenebilir bir çerçeve tasarlıyoruz. Ayrıca iki aşamalı bir agent ince ayar stratejisini uyarlıyoruz: önce agent'lara temel agentik yetenekleri kazandırıyor, ardından onları alana özgü bağlamlar için uzmanlaştırıyoruz. Agent benchmark'ları, tau-bench, tau2-Bench ve ACEBench üzerindeki kapsamlı deneyler, eğitilmiş modelimiz AgentScaler'ın modellerin function-calling yeteneğini anlamlı ölçüde artırdığını gösteriyor.
Makale bağlantısı
https://arxiv.org/abs/2509.13311
Daha fazlasını oku
https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Bağlam içi öğrenme gerçekten öğrenme mi? / Is In-Context Learning Learning?
Makale tanıtımı
In-Context Learning (ICL), otoregresif modellerin ek eğitime ihtiyaç duymadan bir sonraki token tahmini yoluyla çeşitli görevleri çözebilme yeteneğini gösterir. Bu yaklaşım, modelin yalnızca birkaç örnekle daha önce görmediği görevleri çözebildiği iddialarını doğurmuştur; ancak ICL'nin gerçekten öğrenme gerçekleştirip gerçekleştirmediği konusunda tartışmalar vardır. Bu çalışma, ICL'nin matematiksel olarak öğrenme teşkil ettiğini savunurken, özelliklerini tam olarak anlayabilmek için ampirik analizin gerekli olduğunu vurgular.
Araştırma, büyük ölçekli analiz yoluyla ICL'nin performansını değerlendirirken ezberleme, ön eğitim, dağılım kayması, prompt stili ve sözdizimine duyarlılığı dikkate aldı. Sonuçlar, ICL'nin etkili bir öğrenme paradigması olarak işlediğini, ancak görülmemiş görevlere genelleme yeteneğinde sınırlamalar bulunduğunu ortaya koydu. Özellikle örnek sayısı arttıkça doğruluk, örneklerin dağılımına, modele veya prompt stiline karşı daha az duyarlı hale gelirken; bunun yerine prompt'taki düzenliliklerden örüntü çıkarma eğilimi görüldü. Bu durum, özellikle Chain-of-Thought gibi belirli prompt stillerinde dağılımsal duyarlılığa yol açtı.
Biçimsel olarak benzer görevlerde görülen doğruluk farkları, otoregresif modellerin geçici kodlamasının güçlü bir öğrenme mekanizması olmadığını ve sınırlı genel amaçlı genelleme sunduğunu düşündürüyor. Bu çalışma, ICL'nin bir öğrenme mekanizması olarak işlediğini gösterirken aynı zamanda sınırlarını ve davranışını da açık biçimde ortaya koyuyor; ayrıca Büyük Dil Modellerinin (LLM) performansının veri dağılımına göre değişebileceğini gösteriyor. Bu bulgular, ICL'nin potansiyelini araştırmaya önemli bir katkı sunuyor ve gelecekteki çalışmaların ICL'nin özelliklerini ve sınırlarını daha derinlemesine anlamasına yardımcı olabilir.
Makale özeti (Abstract)
Bağlam içi öğrenme (In-Context Learning, ICL), bazı otoregresif modellerin ek eğitime ihtiyaç duymadan, bir sonraki token tahmini yoluyla görevleri çözmesine olanak tanır. Bu durum, bu tür modellerin prompt içindeki yalnızca birkaç örnek (shot) ile daha önce görülmemiş görevleri çözebildiği (öğrenebildiği) yönündeki iddialara yol açmıştır. Ancak çıkarım her zaman öğrenme anlamına gelmez; çünkü ICL, verilen bir gözlemi açıkça kodlamaz. Bunun yerine modeller, varsa kendilerine verilen örneklerle birlikte önceki bilgilerine dayanır. Biz, matematiksel olarak ICL'nin gerçekten öğrenme teşkil ettiğini savunuyoruz; ancak bunun tam karakterizasyonu ampirik çalışma gerektirir. Ardından, ezberleme, ön eğitim, dağılımsal kaymalar, prompt stili ve ifade biçimini dışlayarak ya da hesaba katarak ICL üzerine büyük ölçekli bir analiz gerçekleştiriyoruz. ICL'nin etkili bir öğrenme paradigması olduğunu, ancak görülmemiş görevleri öğrenme ve onlara genelleme yeteneğinin sınırlı olduğunu buluyoruz. Örnek sayısı arttığında doğruluğun örnek dağılımına, modele, prompt stiline ve girdinin dilsel özelliklerine duyarsız hale geldiğini gözlemliyoruz. Bunun yerine model, prompt'taki düzenliliklerden örüntüler çıkarıyor; bu da özellikle chain-of-thought gibi prompt stillerinde dağılımsal duyarlılığa yol açıyor. Biçimsel olarak benzer görevlerdeki farklı doğruluklar göz önüne alındığında, otoregresyonun geçici kodlamasının sağlam bir mekanizma olmadığı ve sınırlı genel amaçlı genellenebilirliğe işaret ettiği sonucuna varıyoruz.
> Bağlam içi öğrenme (ICL), bazı otoregresif modellerin bir sonraki token tahmini yoluyla ve ek eğitime ihtiyaç duymadan görevleri çözmesine olanak tanır. Bu da, bu modellerin prompt içinde yalnızca birkaç shot (örnek) ile daha önce görülmemiş görevleri çözebildiği (öğrenebildiği) yönünde iddialara yol açmıştır. Ancak çıkarım her zaman öğrenme anlamına gelmez; çünkü ICL, verilen bir gözlemi açıkça kodlamaz. Bunun yerine modeller, varsa kendilerine verilen örneklere ve önceki bilgilerine dayanır. Biz, matematiksel olarak ICL'nin öğrenme teşkil ettiğini savunuyoruz; ancak bunun tam karakterizasyonu ampirik çalışma gerektirir. Daha sonra, ezberlemeyi, ön eğitimi, dağılımsal kaymaları, prompt stilini ve ifade biçimini dışlayarak ya da hesaba katarak ICL üzerine büyük ölçekli bir analiz gerçekleştiriyoruz. ICL'nin etkili bir öğrenme paradigması olduğunu, ancak görülmemiş görevleri öğrenme ve onlara genelleme yeteneğinin sınırlı olduğunu görüyoruz. Örneklerin sayıca arttığı sınır durumda, doğruluğun örnek dağılımına, modele, prompt stiline ve girdinin dilsel özelliklerine duyarsız hale geldiğini not ediyoruz. Bunun yerine model, prompt'taki düzenliliklerden örüntüler çıkarıyor; bu da özellikle chain-of-thought gibi prompt stillerinde dağılımsal duyarlılığa yol açıyor. Biçimsel olarak benzer görevlerdeki çeşitli doğruluklar göz önüne alındığında, otoregresyonun geçici kodlamasının sağlam bir mekanizma olmadığı ve sınırlı genel amaçlı genellenebilirliğe işaret ettiği sonucuna varıyoruz.
Makale bağlantısı
https://arxiv.org/abs/2509.10414
DeepDive: Bilgi Grafikleri ve Çok Turlu RL ile Derin Arama Ajanlarını Geliştirme / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL
Makale tanıtımı
DeepDive, büyük dil modellerini (LLM) derin arama ajanlarına dönüştürmek için bilgi grafikleri (Knowledge Graph, KG) ve çok turlu pekiştirmeli öğrenmeden (Multi-Turn Reinforcement Learning, RL) yararlanan yenilikçi bir yaklaşım öneriyor. Mevcut LLM'ler, tarama araçlarıyla entegrasyonda uzun ufuklu akıl yürütme yeteneğinin yetersiz olması ve karmaşık soruları çözmek için yeterli gözetimli verinin bulunmaması nedeniyle düşük performans gösteriyor. DeepDive, bu sorunları çözmek için iki temel teknik sunuyor.
İlk olarak, karmaşık ve bulunması zor soruları otomatik olarak sentezlemek için KG kullanan bir yöntem geliştirildi. KG, varlıkları ve bunlar arasındaki ilişkileri yapısal olarak temsil ederek ajanın uzun ufuklu akıl yürütme yapabileceği bir ortam sağlıyor. Bu süreçte, random walk ile soruların karmaşıklığı ve belirsizliği artırılıyor; ardından LLM kullanılarak zorlu soru-cevap çiftleri üretiliyor. Bu otomatik veri sentezi, derin arama ajanlarının eğitimi için gerekli yüksek kaliteli veriyi sağlıyor.
İkinci olarak, DeepDive, LLM'lerin uzun ufuklu akıl yürütme yeteneğini artırmak için uçtan uca çok turlu RL uyguluyor. Bu yöntem, ajanın nasıl arama yapacağını, neyi arayacağını ve aramayı ne zaman sonlandıracağını adım adım öğrenmesini sağlayan sıkı bir ödül yapısı içeriyor. Çok turlu RL, yinelemeli akıl yürütme ve araç çağrıları aracılığıyla ajanın nihai yanıta ulaşmasını destekliyor; bu da derin arama yeteneklerini önemli ölçüde güçlendiriyor.
DeepDive'ın deney sonuçları, BrowseComp'ta açık kaynak dünyasında yeni bir rekabetçi sonuç elde ettiğini ve mevcut birçok modeli geride bıraktığını gösteriyor. Bu çalışma, derin arama ajanlarının performansını geliştirmeye önemli katkı sağlıyor; açık olarak yayımlanan veri setleri ve kodlarla araştırmanın yeniden üretilebilirliğini artırıyor ve gelecekteki çalışmalar için temel kaynak sunuyor. DeepDive, karmaşık bilgi erişimi problemlerini çözmek için yeni bir yaklaşım ortaya koyarken LLM'lerin kullanım potansiyelini daha da genişletiyor.
Makale özeti (Abstract)
Büyük dil modellerine (LLM) tarama araçları eklemek, karmaşık gerçek dünya görevlerini çözebilen derin arama ajanları olarak potansiyellerini önemli ölçüde artırır. Ancak açık LLM'ler, tarama araçlarıyla birlikte kullanıldığında sınırlı uzun ufuklu akıl yürütme kapasitesi ve yeterince zor gözetimli verinin eksikliği nedeniyle bu ortamlarda hâlâ düşük performans göstermektedir. Bu zorlukları ele almak için, derin arama ajanlarını geliştirmek amacıyla DeepDive'ı sunuyoruz. İlk olarak, açık bilgi grafiklerinden karmaşık, zor ve bulunması güç soruları otomatik olarak sentezlemeye yönelik bir strateji öneriyoruz. İkinci olarak, LLM'lerin derin arama ile uzun ufuklu akıl yürütmesini geliştirmek için uçtan uca çok turlu pekiştirmeli öğrenme (RL) uyguluyoruz. Deneyler, DeepDive-32B'nin BrowseComp'ta açık kaynak tarafında yeni bir rekabetçi sonuç elde ettiğini ve WebSailor, DeepSeek-R1-Browse ve Search-o1'i geride bıraktığını gösteriyor. Çok turlu RL eğitiminin derin arama yeteneğini geliştirdiğini ve birden çok benchmark genelindeki performans artışlarına anlamlı katkı sağladığını gösteriyoruz. Ayrıca DeepDive'ın araç çağrılarında test zamanı ölçeklendirmesi ve paralel örnekleme sağladığını gözlemledik. Tüm veri setleri, modeller ve kodlar https://github.com/THUDM/DeepDive adresinde herkese açık olarak sunulmaktadır.
> Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.
Makale bağlantısı
https://arxiv.org/abs/2509.10446
Daha fazlası
https://github.com/THUDM/DeepDive
Multimodal Büyük Dil Modelleri ile Video Temporal Grounding Üzerine Bir İnceleme / A Survey on Video Temporal Grounding with Multimodal Large Language Model
Makale tanıtımı
Video Temporal Grounding (VTG) alanı, videolardaki belirli zamansal olayların tanımlanması ve anlaşılmasında önemli bir rol oynar; son dönemde Multimodal Large Language Models (MLLMs) alanındaki ilerlemeler sayesinde bu alandaki performans da büyük ölçüde artmaktadır. MLLM'ler, güçlü multimodal anlama ve akıl yürütme yetenekleriyle VTG yaklaşımlarında geleneksel fine-tuning yöntemlerini aşan sonuçlar ortaya koymaktadır. Bu çalışma, VTG-MLLM'lere dair kapsamlı bir inceleme sunarak alandaki güncel araştırma eğilimlerini sistematik biçimde analiz ediyor ve bunları üç boyutta ele alıyor: MLLM'lerin işlevsel rolü, öğrenme paradigmaları ve video özellik işleme teknikleri.
MLLM'ler, VTG içinde iki temel rol üstlenir. Birincisi, kolaylaştırıcı olarak video ile dil arasındaki etkileşimi destekler; ikincisi ise yürütücü olarak doğrudan VTG görevini yerine getiren model işlevi görür. Bu roller sayesinde çeşitli modeller, VTG görevlerindeki performansı en üst düzeye çıkarıyor. Öğrenme paradigmaları ön eğitim, fine-tuning ve eğitimsiz kullanım olarak ayrılır; her paradigma modelin performansı ve genelleme yeteneği üzerinde önemli etkiye sahiptir. Özellikle eğitimsiz kullanım paradigması, az veriyle de etkili performans elde etme potansiyelini ortaya koyuyor.
Video özellik işleme teknikleri de VTG-MLLM'lerin performansını ciddi biçimde etkiler. Görsel ve zamansal özellikleri etkili şekilde işleme yöntemleri, videonun uzamsal ve zamansal temsillerini belirlemede kritik öneme sahiptir. Bununla birlikte benchmark veri setleri ve değerlendirme protokolleri, VTG-MLLM'lerin performansını ölçmede ve modellerin genelleme yeteneğini doğrulamada önemli rol oynar.
Son olarak bu çalışma, VTG-MLLM'lerin mevcut sınırlamalarını belirliyor ve gelecekteki araştırma yönlerini öneriyor. Veri seti çeşitliliğinin yetersizliği, model karmaşıklığı ve gerçek zamanlı işlem zorlukları çözülmesi gereken başlıca sorunlar arasında yer alıyor. Bu sınırlamaların aşılması için yapılacak çalışmaların yeni veri setlerinin geliştirilmesi ve model optimizasyonuna odaklanması gerekiyor. Makale, VTG-MLLM'lere ilişkin kapsamlı bir değerlendirme sunarak bu alandaki araştırmacılar için yararlı bilgiler sağlıyor.
Makale özeti (Abstract)
Video Temporal Grounding (VTG) alanındaki son ilerlemeler, başta Multimodal Large Language Models (MLLMs) tarafından yönlendirilerek ince ayrıntılı video anlama yeteneklerini önemli ölçüde geliştirdi. Güçlü multimodal anlama ve akıl yürütme kabiliyetlerine sahip MLLM tabanlı VTG yaklaşımları (VTG-MLLMs), giderek geleneksel fine-tuning yöntemlerini geride bırakıyor. Bu yaklaşımlar yalnızca rekabetçi performans sunmakla kalmıyor, aynı zamanda zero-shot, multi-task ve multi-domain ortamlarda genelleme konusunda da öne çıkıyor. Genel video-dil anlama üzerine kapsamlı araştırmalar bulunmasına rağmen, özellikle VTG-MLLMs’i ele alan kapsamlı incelemeler hâlâ sınırlı. Bu boşluğu doldurmak için bu derleme, VTG-MLLMs üzerine mevcut çalışmaları üç boyutlu bir sınıflandırma çerçevesinde sistematik olarak inceliyor: 1) MLLM’lerin işlevsel rolleri ve mimari önemleri, 2) zamansal akıl yürütme ve görev uyarlaması stratejilerini analiz eden eğitim paradigmaları, 3) uzay-zamansal temsilin etkinliğini belirleyen video özellik işleme teknikleri. Ayrıca benchmark veri kümeleri ve değerlendirme protokolleri ele alınıyor, ampirik bulgular özetleniyor. Son olarak mevcut sınırlamalar belirleniyor ve umut vadeden araştırma yönleri öneriliyor. Ek kaynaklar ve ayrıntılar için okuyucuların https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding adresini ziyaret etmesi önerilir.
> Video temporal grounding (VTG) alanındaki son ilerlemeler, başlıca multimodal large language models (MLLMs) tarafından yönlendirilerek ince ayrıntılı video anlamayı önemli ölçüde geliştirmiştir. Üstün multimodal anlama ve akıl yürütme yetenekleri sayesinde, MLLM tabanlı VTG yaklaşımları (VTG-MLLMs) giderek geleneksel fine-tuning yöntemlerini aşmaktadır. Bu yöntemler yalnızca rekabetçi performans elde etmekle kalmaz, aynı zamanda zero-shot, multi-task ve multi-domain ayarlarda genelleme konusunda da başarılıdır. Genel video-dil anlama üzerine kapsamlı araştırmalar olmasına rağmen, özellikle VTG-MLLMs’i ele alan kapsamlı incelemeler hâlâ az sayıdadır. Bu boşluğu doldurmak için bu derleme, VTG-MLLMs üzerine güncel araştırmaları üç boyutlu bir taksonomi üzerinden sistematik biçimde inceler: 1) MLLM’lerin işlevsel rolleri ve mimari önemleri; 2) zamansal akıl yürütme ve görev uyarlaması stratejilerini inceleyen eğitim paradigmaları; 3) uzay-zamansal temsillerin etkinliğini belirleyen video özellik işleme teknikleri. Ayrıca benchmark veri kümelerini ve değerlendirme protokollerini tartışıyor, ampirik bulguları özetliyoruz. Son olarak mevcut sınırlamaları belirliyor ve umut verici araştırma yönleri öneriyoruz. Ek kaynaklar ve ayrıntılar için okuyucuların https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding adresindeki depomuza göz atması önerilir.
Makale bağlantısı
https://arxiv.org/abs/2508.10922
Daha fazlası
https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding
Sürekli ön eğitim yoluyla ajanları ölçeklendirmek / Scaling Agents via Continual Pre-training
Makale tanıtımı
Large Language Model’ler (LLM), otonom araç kullanımı ve karmaşık problem çözümü için çok adımlı akıl yürütme gerçekleştirebilen ajan sistemlerine evrildi. Ancak genel amaçlı foundation model’lere dayanan post-training yaklaşımları, ajan görevlerinde tutarlı biçimde düşük performans gösteriyor. Bu sorunun temel nedeni, güçlü bir ajan foundation model’inin yokluğu; çünkü post-training sürecinde model hem çeşitli ajan davranışlarını öğrenmek hem de bunları uzman gösterimlerine uydurmak zorunda kaldığı için optimizasyon gerilimi ortaya çıkıyor. Bunu çözmek için, Agentic Continual Pre-training (Agentic CPT) yaklaşımını derin araştırma ajanı eğitim hattına entegre etmeyi ilk kez öneriyoruz. Bu yaklaşım temelinde AgentFounder adlı bir derin araştırma ajan modeli geliştirdik. AgentFounder-30B, 10 benchmark üzerinde değerlendirildi ve state-of-the-art performans elde etti; özellikle BrowseComp-en’de %39,9, BrowseComp-zh’de %43,3 ve HLE’de Pass@1 %31,5 seviyelerini koruyarak güçlü araç kullanım yetenekleri gösterdi.
Makale özeti (Abstract)
Large Language Model’ler (LLM), otonom araç kullanımı ve karmaşık problem çözümü için çok adımlı akıl yürütme yapabilen ajan sistemlerine evrildi. Ancak genel amaçlı foundation model’lere dayalı post-training yaklaşımı, özellikle açık kaynak uygulamalarda, ajan görevlerinde tutarlı biçimde düşük performans sergilemektedir. Bunun kök nedenini ortaya koyuyoruz: güçlü bir ajan foundation model’inin yokluğu nedeniyle model, post-training sürecinde çeşitli ajan davranışlarını aynı anda öğrenirken bunları uzman gösterimlerine de hizalamak zorunda kalıyor ve bu durum temel bir optimizasyon gerilimi yaratıyor. Bunu çözmek için, güçlü bir ajan foundation model’i oluşturmak amacıyla Agentic Continual Pre-training (Agentic CPT) yaklaşımını derin araştırma ajanı eğitim hattına entegre etmeyi ilk kez öneriyoruz. Bu yaklaşım temelinde AgentFounder adlı bir derin araştırma ajan modeli geliştirdik. AgentFounder-30B’yi 10 benchmark üzerinde değerlendirdik; model, güçlü araç kullanım yeteneklerini korurken state-of-the-art performans elde etti ve özellikle BrowseComp-en’de %39,9, BrowseComp-zh’de %43,3, HLE’de ise Pass@1 %31,5 skoruna ulaştı.
Large language models (LLM'ler), karmaşık problem çözümü için otonom araç kullanımı ve çok adımlı akıl yürütme yeteneğine sahip ajan tabanlı sistemlere dönüştü. Ancak genel amaçlı temel modeller üzerine inşa edilen post-training yaklaşımları, özellikle açık kaynak uygulamalarda, ajan görevlerinde sürekli olarak düşük performans gösteriyor. Temel nedeni tespit ediyoruz: Güçlü ajan tabanlı temel modellerin yokluğu, modelleri post-training sırasında hem çeşitli ajan davranışlarını öğrenmeye hem de bunları uzman gösterimlerine hizalamaya zorluyor; bu da temel optimizasyon gerilimleri yaratıyor. Bu amaçla, güçlü ajan tabanlı temel modeller oluşturmak için derin araştırma ajanları eğitim hattına Agentic Continual Pre-training (Agentic CPT) eklenmesini ilk kez öneriyoruz. Bu yaklaşıma dayanarak AgentFounder adlı bir derin araştırma ajan modeli geliştiriyoruz. AgentFounder-30B modelimizi 10 benchmark üzerinde değerlendiriyor ve güçlü araç kullanma yeteneğini korurken son teknoloji performans elde ediyoruz; özellikle BrowseComp-en'de %39,9, BrowseComp-zh'de %43,3 ve HLE'de Pass@1 olarak %31,5.
Makale bağlantısı
https://arxiv.org/abs/2509.13310
Daha fazlası
https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
Diferansiyel Olarak Gizliliği Korunan Dil Modelleri için Ölçekleme Yasaları / Scaling Laws for Differentially Private Language Models
Makale tanıtımı
Diferansiyel gizlilik (Differential Privacy, DP) uygulanmış büyük dil modeli (Large Language Model, LLM) eğitiminin ölçekleme yasalarına ilişkin araştırma, modern yapay zeka alanında önemli bir ilerlemeyi temsil ediyor. Bu çalışmanın temel amacı, DP LLM eğitiminin karmaşıklığını doğru biçimde modelleyen ölçekleme yasaları kurarak hesaplama, gizlilik ve fayda arasındaki ödünleşimleri netleştirmek ve en uygun eğitim yapılandırmasını ortaya koymaktır. Mevcut LLM eğitiminde ölçekleme yasaları, performans artışını öngörmek ve hiperparametre seçimleri için rehberlik sağlamakta önemli rol oynasa da, DP eğitiminin dinamikleri bir miktar farklıdır ve bu ölçekleme yasaları henüz yeterince anlaşılmış değildir.
Bu çalışmada, kaybı tahmin eden (L(M,T,\bar{\sigma})) fonksiyonunun uydurulması süreciyle DP LLM eğitiminin ölçekleme yasaları oluşturulmuştur. Burada (M) modelin parametre sayısını, (T) eğitim yineleme sayısını, (\bar{\sigma}) ise gürültü-batch oranını ifade eder ve bu fonksiyon doğrusal enterpolasyon yoluyla uydurulur. Python'un scipy.interpolate.RegularGridInterpolator aracıyla uygulanan bu fonksiyon, log uzayında doğal olarak değişen parametreler dikkate alınarak tanımlanır. Bu yaklaşım, DP LLM eğitiminin karmaşık dinamiklerini anlamaya katkı sağlar ve deneysel kurulum aralığı içinde iyi tanımlanmış sonuçlar üretir.
Ayrıca çalışma, uydurulan fonksiyonun formülü ve uygulama ayrıntıları üzerinden değerlendirme noktalarındaki düzgün veriyi tam olarak eşleştiren ve aradaki değerleri de yaklaşık hesaplayan bir yöntem sunmaktadır. Bu sayede DP LLM eğitiminin ölçekleme yasalarını anlamak için önemli bir temel sağlanmakta; gelecekteki çalışmalarda önerilen ölçekleme yasalarına dayanarak çeşitli DP LLM mimarileri üzerinde deneyler yapılması ve kuramsal modelin daha da geliştirilmesi gerekmektedir.
Sonuç olarak bu çalışma, diferansiyel gizlilik uygulanmış büyük dil modeli eğitiminin ölçekleme yasalarını ortaya koyarak DP LLM eğitiminin karmaşıklığını anlamaya yardımcı olmakta ve gelecekte LLM eğitimi ile optimizasyonu için önemli bir rehber sunmaktadır. Bu bulguların, DP LLM'lerin pratik kullanımını artırmaya katkı sağlaması beklenmektedir.
Makale özeti (Abstract)
Ölçekleme yasaları, ölçek aracılığıyla performans kazanımlarını öngörebilmeleri ve aksi takdirde maliyetli olacak önemli hiperparametre seçimleri için rehberlik sağlayabilmeleri nedeniyle büyük dil modeli (LLM) eğitiminin önemli bileşenleri olarak öne çıkmıştır. LLM'ler ayrıca, bazen hassas kullanıcı verilerinden elde edilenler gibi büyük ve yüksek kaliteli eğitim veri kümelerine dayanır. Modelleri bu hassas kullanıcı verileri üzerinde eğitmek, diferansiyel gizlilik (Differential Privacy, DP) gibi dikkatli gizlilik korumaları gerektirir. Ancak DP eğitiminin dinamikleri önemli ölçüde farklıdır ve sonuç olarak bunların ölçekleme yasaları henüz tam olarak anlaşılmamıştır. Bu çalışmada, DP LLM eğitiminin inceliklerini doğru biçimde modelleyen ölçekleme yasaları kuruyor; çok sayıda ortamda hesaplama-gizlilik-fayda ödünleşimlerinin ve en uygun eğitim yapılandırmalarının tam bir resmini sunuyoruz.
Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.
Makale bağlantısı
https://arxiv.org/abs/2501.18914
Daha fazlası
https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf
https://huggingface.co/google/vaultgemma-1b
https://research.google/blog/…
https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…
https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…
R-Zero: Sıfır Veriden Kendi Kendini Evrimleştiren Akıl Yürütme LLM'i / R-Zero: Self-Evolving Reasoning LLM from Zero Data
Makale tanıtımı
Kendi kendine evrimleşen büyük dil modelleri (LLM), otonom olarak deneyim üretip öğrenerek süper zekaya giden ölçeklenebilir bir yol sunuyor. Mevcut eğitim yöntemleri, büyük ölçekte insan kürasyonuna ve etiketlere dayanıyor; bu da yapay zeka sistemlerinin gelişimine sınır koyuyor. Bunu aşmak için, R-Zero adlı tamamen otonom bir çerçeve öneriliyor; bu çerçeve temel bir LLM ile başlayıp Challenger ve Solver adlı iki bağımsız modeli başlatıyor. Bu modeller etkileşim yoluyla optimize ediliyor ve R-Zero, mevcut görevler ve etiketler olmadan hedef odaklı, kendini geliştiren bir müfredat oluşturarak çeşitli LLM'lerin akıl yürütme yeteneğini önemli ölçüde artırıyor.
Makale Özeti (Abstract)
Kendi kendine evrimleşen büyük dil modelleri (LLM), kendi deneyimlerini otonom biçimde üretip, arındırıp ve bunlardan öğrenerek süper zekaya giden ölçeklenebilir bir yol sunar. Ancak bu tür modelleri eğitmeye yönelik mevcut yöntemler hâlâ büyük ölçüde insanlar tarafından küratörlüğü yapılmış görevler ve etiketlere dayanmakta; genellikle fine-tuning veya reinforcement learning yoluyla uygulanmakta ve bu durum, yapay zeka sistemlerinin insan zekasını aşan yeteneklere doğru ilerlemesinde temel bir darboğaz oluşturmaktadır. Bu sınırlamayı aşmak için R-Zero'yu tanıtıyoruz. R-Zero, eğitim verisini sıfırdan kendisi üreten tamamen otonom bir çerçevedir. Tek bir temel LLM'den başlayarak, R-Zero farklı rollere sahip iki bağımsız modeli, Challenger ve Solver'ı başlatır. Bu modeller ayrı ayrı optimize edilir ve etkileşim yoluyla birlikte evrimleşir: Challenger, Solver'ın yetenek sınırının yakınında görevler önerdiğinde ödüllendirilir; Solver ise Challenger'ın sunduğu giderek daha zorlu görevleri çözdüğünde ödüllendirilir. Bu süreç, önceden var olan herhangi bir görev ve etiket olmadan hedefli, kendini geliştiren bir müfredat üretir. Deneysel olarak, R-Zero farklı backbone LLM'lerde akıl yürütme yeteneğini anlamlı biçimde iyileştirir; örneğin Qwen3-4B-Base'i matematiksel akıl yürütme benchmark'larında +6.49 ve genel alan akıl yürütme benchmark'larında +7.54 artırır.
> Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.
Makale bağlantısı
https://arxiv.org/abs/2508.05004
🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan olarak Weekly, ancak Daily olarak da değiştirebilirsiniz.)
🎁 Aşağıda↘️ beğen❤️ tuşuna basarsanız haber yayınına destek olursunuz~ 🤗
Bu yazı, GPT modeliyle derlenmiş bir metne dayanmaktadır; bu nedenle içeriğin özeti, orijinal metnin içeriği veya niyetinden farklı olabilir. İlginizi çeken bir konuysa lütfen orijinal metne de göz atın! Okurken kulağa tuhaf gelen veya hatalı olduğunu düşündüğünüz bir bölüm fark ederseniz, yorumlarda bize bildirmenizi rica ederiz. 🤗
⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan olarak Weekly, ancak Daily olarak da değiştirebilirsiniz.)
Henüz yorum yok.