5 puan yazan ninebow 2025-09-17 | Henüz yorum yok. | WhatsApp'ta paylaş

[2025/09/08 ~ 14] Bu hafta göz atmaya değer AI/ML makaleleri derlemesi

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Dil modellerinde halüsinasyon olgusu: Son araştırmalar, büyük dil modellerinin belirsiz olduklarında tahmin yürüterek kulağa makul gelen ama yanlış ifadeler ürettiği bir "halüsinasyon" olgusu sergilediğini vurguluyor. Bunun nedeni, eğitim ve değerlendirme süreçlerinin belirsizliği kabul etmekten ziyade tahmini ödüllendirme eğiliminde olması; bu nedenle de bu halüsinasyonları çözmek için mevcut benchmark’ların puanlama sisteminin değiştirilmesi gerektiği savunuluyor.

2️⃣ Anlamsal yapının anlaşılması: Büyük dil modellerinin embedding matrislerinde anlamsal ilişkilerin nasıl yapılandığını inceleyen araştırmaların sayısı artıyor. Bu çalışmalar, insanın anlam değerlendirmelerine benzer düşük boyutlu yapılar keşfedildiğini ve sözcüklerin anlam yönlerine göre yapılan projeksiyonların insan değerlendirmeleriyle yüksek korelasyon gösterdiğini vurguluyor. Bu da dil modellerinin anlamsal bilgiyi insan diline benzer bir şekilde işlediğini düşündürüyor.

3️⃣ Pekiştirmeli öğrenme ile gelişmiş akıl yürütme yeteneklerinin artırılması: Büyük dil modellerinin karmaşık akıl yürütme kabiliyetlerini pekiştirmeli öğrenme (RL) ile geliştirmeyi amaçlayan çalışmalar yoğun biçimde sürüyor. Özellikle RL algoritmalarının verimliliğini artırmak için derinlik ve genişliği ayarlama yöntemleri öneriliyor; bunların modelin gelişmiş stratejik planlamayı keşfetmesi ve ustalaşmasında önemli rol oynadığı gösteriliyor. Bu yaklaşım, RLVR (doğrulanabilir ödül pekiştirmeli öğrenmesi) gibi yeni paradigmalar üzerinden ilerliyor.


Dil Modelleri Neden Halüsinasyon Görür / Why Language Models Hallucinate (feat. OpenAI)

Makale tanıtımı

Büyük dil modelleri, belirsiz durumlarda doğru cevabı tahmin etme eğilimindedir; bu da kulağa makul gelen ancak yanlış bilgi üreten "halüsinasyon" olgusuna yol açar. Bu halüsinasyonlar en yeni modellerde bile hâlâ bir sorun olmaya devam etmekte ve güvenilirliği zedeleyen başlıca nedenlerden biri olarak görülmektedir. Bu çalışma, dil modellerinin neden halüsinasyon ürettiğini; eğitim ve değerlendirme süreçlerinin belirsizliği kabul etmek yerine tahmini ödüllendirmesinde aramaktadır. Özellikle halüsinasyonların, ikili sınıflandırmadaki hatalardan kaynaklandığını ve yanlış ifadeler gerçeklerden ayırt edilemediğinde doğal istatistiksel baskılar sonucu ortaya çıktığını öne sürmektedir.

Ön eğitim aşamasında dil modelleri, büyük ölçekli metin verisinden dilin dağılımını öğrenir ve bu süreçte hatalar oluşabilir. Bu hatalar, belirsiz yanıtları cezalandıran değerlendirme biçimleri tarafından sürekli pekiştirilir. Araştırmacılar, dil modellerinin sınavlarda iyi not almak için belirsizlikten kaçınıp tahmin yürütme eğiliminde olduğunu ve bu eğilimin halüsinasyonların sürmesine neden olduğunu belirtiyor.

OpenAI tarafından yayımlanan bu makale, halüsinasyonların istatistiksel nedenlerini ortaya koyuyor; ön eğitimdeki kökenlerini ve sonrasındaki eğitimde neden kalıcı olduğunu analiz ediyor. Ayrıca mevcut değerlendirme yöntemlerinin değiştirilmesinin, halüsinasyon olgusunu hafifletmek için etkili bir yöntem olabileceğini öne sürüyor. Bu yaklaşım, dil modellerinin güvenilirliğini artırmanın yanı sıra daha güvenilir yapay zeka sistemlerine giden yolu da işaret ediyor. Araştırmanın sonuçları, dil modellerindeki halüsinasyon olgusunu anlamak ve iyileştirmek için önemli bir temel kaynak olarak kullanılabilir.

Makale özeti (Abstract)

Öğrenciler zor sınav sorularıyla karşılaştıklarında olduğu gibi, büyük dil modelleri de belirsiz olduklarında belirsizliği kabul etmek yerine tahmin yürütür ve kulağa makul gelen ama yanlış ifadeler üretir. Bu tür "halüsinasyonlar", en gelişmiş sistemlerde bile sürmekte ve güveni zedelemektedir. Biz, dil modellerinin halüsinasyon üretmesinin nedeninin eğitim ve değerlendirme prosedürlerinin belirsizliği kabul etmek yerine tahmini ödüllendirmesi olduğunu savunuyor ve modern eğitim hattında halüsinasyonların istatistiksel nedenlerini analiz ediyoruz. Halüsinasyonların gizemli olması gerekmez. Bunlar basitçe ikili sınıflandırmada ortaya çıkan hatalardan kaynaklanır. Eğer yanlış ifadeler gerçeklerden ayırt edilemiyorsa, önceden eğitilmiş dil modellerinde halüsinasyonlar doğal istatistiksel baskılar yoluyla ortaya çıkacaktır. Ardından, çoğu değerlendirmenin puanlanma biçimi nedeniyle halüsinasyonların sürdüğünü ileri sürüyoruz -- dil modelleri iyi sınav çözen sistemler olacak şekilde optimize edilmiştir ve belirsiz olduklarında tahmin yürütmek sınav performansını artırır. Belirsiz yanıtları cezalandıran bu "salgın", ek halüsinasyon değerlendirmeleri getirmek yerine, liderlik tablolarına hâkim olan ancak hizasız mevcut benchmark’ların puanlamasını değiştiren sosyo-teknik bir hafifletme yoluyla ancak ele alınabilir. Bu değişiklik, alanı daha güvenilir AI sistemlerine doğru yönlendirebilir.
> Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.

Makale bağlantısı

https://arxiv.org/abs/2509.04664


Büyük Dil Modeli Embedding’lerinde Anlamsal Yapı / Semantic Structure in Large Language Model Embeddings

Makale tanıtımı

Büyük dil modellerinin (LLM) embedding yapısı, anlamsal bilgiyi insanın dil bilişine benzer bir biçimde temsil etmesi bakımından dikkat çekicidir. Bu çalışma, psikolojideki bulgulardan hareketle LLM’lerin embedding matrislerinde sözcükler arasındaki anlamsal ilişkileri analiz etmiş ve bunun üzerinden insanın sözcük değerlendirmeleri ile LLM’lerin iç temsilleri arasındaki korelasyonu incelemiştir. Araştırma sonuçları, LLM embedding’lerindeki sözcük projeksiyonlarının değerlendirme (iyi vs. kötü), güç/şiddet (güçlü vs. zayıf) ve etkinlik (aktif vs. pasif) olmak üzere üç temel boyuta indirgenebildiğini göstermiştir.

Bu çalışma, 360 sözcük için anket yoluyla toplanan veriler ile LLM embedding’lerini karşılaştırarak, insanın anlamsal değerlendirmeleri ile LLM embedding’leri arasındaki korelasyonu nicel olarak analiz etti. Özellikle sözcüklerin anlamsal özellik yönleri çıkarıldı ve buna dayalı müdahaleler yoluyla hedef dışı etkiler ölçülerek, LLM özelliklerinin birbirine dolaşmış olduğu vurgulandı. Bu bulgular, LLM embedding’lerinin insan dilinin karmaşıklığını yansıttığını ve anlamsal bilginin görece düşük boyutlu olduğunu düşündürmektedir.

Ayrıca çalışma, LLM’lerin iç işleyişini anlamada tek tek özellikler arasındaki ilişkileri ölçmenin önemli olduğunu vurguluyor; bunun AI güvenliği ve işlevsel hizalama üzerinde olumlu etkileri olabilir. Bu yaklaşım, LLM’lerde feature steering sürecinde ortaya çıkabilecek istenmeyen sonuçların önlenmesine de katkı sağlayabilir. Bu çalışma, LLM’lerin anlamsal yapısını anlamaya ve bu sayede model davranışını daha net kavramaya önemli bir katkı sunmaktadır.

Makale özeti (Abstract)

Psikoloji araştırmaları, çeşitli anlamsal ölçeklerde kelimelere verilen insan değerlendirmelerinin görece az bilgi kaybıyla düşük boyutlu bir biçime indirgenebildiğini tutarlı biçimde ortaya koyuyor. Biz de büyük dil modellerinin (LLM) gömme matrislerine kodlanan anlamsal ilişkilerin benzer bir yapı sergilediğini bulduk. Zıt anlamlı çiftlerle (ör. nazik - acımasız) tanımlanan anlamsal yönler üzerindeki kelime izdüşümlerinin insan değerlendirmeleriyle yüksek korelasyon gösterdiğini ve bu izdüşümlerin LLM gömmeleri içinde etkili biçimde 3 boyutlu bir alt uzaya indirgenebildiğini gösteriyoruz. Bu durum, insan anket yanıtlarından türetilen kalıplarla yakından benzeşiyor. Ayrıca, bir anlamsal yön boyunca token'ları kaydırmanın, geometrik olarak hizalanmış özelliklerde kosinüs benzerliğiyle orantılı hedef dışı etkilere yol açtığını bulduk. Bu bulgular, LLM'lerdeki anlamsal özelliklerin, insan dilinde birbirleriyle bağlantılı olma biçimine benzer şekilde iç içe geçtiğini ve görünürde karmaşık olmasına rağmen çok miktarda anlamsal bilginin şaşırtıcı derecede düşük boyutlu olduğunu gösteriyor. Dahası, bu anlamsal yapıyı hesaba katmak, özellikleri yönlendirirken istenmeyen sonuçlardan kaçınmak için kritik olabilir.
> Psychological research consistently finds that human ratings of words across diverse semantic scales can be reduced to a low-dimensional form with relatively little information loss. We find that the semantic associations encoded in the embedding matrices of large language models (LLMs) exhibit a similar structure. We show that the projections of words on semantic directions defined by antonym pairs (e.g. kind - cruel) correlate highly with human ratings, and further find that these projections effectively reduce to a 3-dimensional subspace within LLM embeddings, closely resembling the patterns derived from human survey responses. Moreover, we find that shifting tokens along one semantic direction causes off-target effects on geometrically aligned features proportional to their cosine similarity. These findings suggest that semantic features are entangled within LLMs similarly to how they are interconnected in human language, and a great deal of semantic information, despite its apparent complexity, is surprisingly low-dimensional. Furthermore, accounting for this semantic structure may prove essential for avoiding unintended consequences when steering features.

Makale bağlantısı

https://arxiv.org/abs/2508.10003


rStar2-Agent: Ajanik akıl yürütme teknik raporu / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)

Makale tanıtımı

rStar2-Agent, agentic reinforcement learning yoluyla son teknoloji performansa ulaşacak şekilde tasarlanmış 14 milyar parametreli bir matematiksel akıl yürütme modelidir. Bu model, mevcut Long Chain-of-Thought (Long-CoT) yaklaşımının ötesine geçerek karmaşık problem çözme süreçlerinde ileri düzey bilişsel davranışlar sergiler. Özellikle Python kodlama aracını kullanırken dikkatli düşünme, kod çalıştırma geri bildirimini yansıtma ve ara adımları otonom biçimde keşfedip doğrulama yeteneğine sahiptir. Bu yenilikler üç temel unsur sayesinde mümkün olmuştur.

İlk olarak, rStar2-Agent verimli bir RL altyapısı üzerinden güvenilir bir Python kod ortamı kurarak yüksek hacimli yürütmeyi destekler. Bu altyapı, sınırlı GPU kaynaklarında da etkili eğitim sağlayacak şekilde tasarlanmış olup yüksek rollout maliyetini hafifletir. İkinci olarak, GRPO-RoC adlı agentic RL algoritması, Resample-on-Correct rollout stratejisinden yararlanarak kodlama aracının ortam gürültüsünü çözer ve modelin kod ortamında daha etkili biçimde akıl yürütmesini sağlar. Üçüncü olarak, akıl yürütme içermeyen SFT (Supervised Fine-Tuning) ile başlayıp çok aşamalı RL ile ilerleyen verimli ajan eğitim reçetesi, asgari hesaplama maliyetiyle gelişmiş bilişsel yetenekler sunar.

Bu metodoloji sayesinde rStar2-Agent, önceden eğitilmiş 14 milyar parametreli modeli yalnızca 510 RL adımı içinde son teknoloji seviyesine taşımış ve AIME24'te ortalama %80,6, AIME25'te ise %69,8 pass@1 skoru elde etmiştir. Bu sonuç, DeepSeek-R1(671B)'den daha iyi performans gösterirken yanıt süresini de önemli ölçüde kısaltmaktadır. Ayrıca rStar2-Agent, matematiksel problem çözmenin ötesinde hizalama, bilimsel akıl yürütme ve agentic araç kullanımı görevlerinde de güçlü genelleme kabiliyeti sergiler. Bu başarılar, agentic RL yaklaşımının karmaşık problem çözmede bilişsel davranışları güçlendirmeye önemli katkı sağladığını göstermektedir.

Makale özeti (Abstract)

Biz, sınır düzeyi performansa ulaşmak için agentic reinforcement learning ile eğitilmiş 14B matematiksel akıl yürütme modeli rStar2-Agent'i tanıtıyoruz. Mevcut uzun Chain of Thought (CoT) yaklaşımının ötesine geçen bu model, Python kodlama araçlarını kullanmadan önce dikkatlice düşünme ve kod yürütme geri bildirimleri üzerine düşünerek karmaşık problem çözme süreçlerinde ara adımları otonom biçimde keşfetme, doğrulama ve iyileştirme gibi gelişmiş bilişsel davranışlar sergiliyor. Bu yetenek, agentic RL'yi büyük ölçekte etkili kılan üç temel yenilik sayesinde mümkün oluyor: (i) yüksek aktarım hızlı yürütmeyi destekleyen ve yüksek rollout maliyetlerini azaltan güvenilir bir Python kod ortamına sahip verimli bir RL altyapısı; bu sayede sınırlı GPU kaynaklarıyla (64 MI300X GPU) eğitim mümkün hale geliyor; (ii) kodlama araçlarından kaynaklanan doğal ortam gürültüsünü ele alan, Resample-on-Correct rollout stratejisine sahip bir agentic RL algoritması olan GRPO-RoC; bu da modelin kod ortamında daha etkili akıl yürütmesini sağlıyor; (iii) akıl yürütme içermeyen SFT ile başlayıp çok aşamalı RL üzerinden ilerleyen verimli bir ajan eğitim reçetesi; bu yaklaşım da asgari hesaplama maliyetiyle gelişmiş bilişsel yetenekler sunuyor. Bu doğrultuda rStar2-Agent, önceden eğitilmiş 14B bir modeli yalnızca 510 RL adımı içinde, bir hafta içerisinde son teknoloji seviyesine taşıyor; AIME24'te ortalama pass@1 skoru olarak %80,6 ve AIME25'te %69,8 elde ederek DeepSeek-R1'i (671B) çok daha kısa yanıtlarla geride bırakıyor. Matematiğin ötesinde, rStar2-Agent-14B; hizalama, bilimsel akıl yürütme ve agentic araç kullanımı görevlerinde de güçlü genelleme yeteneği gösteriyor. Kod ve eğitim reçetelerine https://github.com/microsoft/rStar adresinden ulaşılabilir.
> We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.

Makale bağlantısı

https://arxiv.org/abs/2508.20722

Daha fazlası

https://github.com/microsoft/rStar


uGMM-NN: Tek değişkenli Gaussian karışım modeli sinir ağı / uGMM-NN: Univariate Gaussian Mixture Model Neural Network

Makale tanıtımı

Tek değişkenli Gaussian karışım modeli sinir ağı (Univariate Gaussian Mixture Model Neural Network, uGMM-NN), derin sinir ağlarının hesaplama birimlerine olasılıksal çıkarımı doğrudan entegre eden yenilikçi bir mimaridir; her nöron, kendi aktivasyonunu tek değişkenli bir Gaussian karışımı olarak parametreleştirir. Bu yaklaşım, geleneksel nöronların ağırlıklı toplam ve sabit doğrusal olmayanlık sınırlamalarını aşar ve öğrenilebilir ortalama, varyans ve karışım katsayıları aracılığıyla tek tek nöronlarda çok modluluğu ve belirsizliği etkili biçimde yakalamayı mümkün kılar. Bu tasarım, modele karmaşık veri dağılımlarını öğrenmek için gereken esnekliği sağlarken standart feedforward ağların ölçeklenebilirliğini korur.

uGMM-NN, mevcut çok katmanlı algılayıcılarla (Multilayer Perceptron, MLP) karşılaştırıldığında rekabetçi ayırt edici performans elde edebilir ve aktivasyonlara olasılıksal bir yorum getirilmesini mümkün kılar. Bunun sonucunda model, basit karar sınırlarının ötesine geçerek verinin karmaşık yapısını anlama ve temsil etme yeteneği kazanır. Önerilen çerçeve, modern sinir ağı mimarilerine belirsizlik farkındalığına sahip bileşenlerin entegre edilmesi için bir temel oluşturur; bu da hem ayırt edici hem de üretici modelleme için yeni araştırma yönleri sunar.

uGMM-NN'nin yapısı, her nöronun aktivasyonu karışım katsayıları, ortalamalar ve varyanslar dahil olacak şekilde temsil etmesi üzerine kuruludur ve bu bileşenler eğitim sürecinde optimize edilir. Eğitim yöntemi olarak parametreleri güncellemek için backpropagation algoritması kullanılır ve kayıp fonksiyonu, her nöronun aktivasyonu ile gerçek etiketler arasındaki farkı en aza indirecek şekilde tasarlanmıştır. Bu süreçte, model performansını en üst düzeye çıkarmak için gradyan tabanlı optimizasyon teknikleri uygulanır.

Deney sonuçları, uGMM-NN'nin çeşitli benchmark veri kümelerinde mevcut MLP'lere kıyasla daha yüksek doğruluk kaydettiğini ve belirsizliği etkili biçimde ele alma yeteneğini kanıtladığını göstermiştir. Bu sonuçlar, uGMM-NN'nin üstünlüğünü ortaya koyarken gelecekte belirsizlik farkındalığına sahip modellemenin yönüne işaret eden önemli bir temel kaynak niteliği taşır. Bu araştırma, çeşitli uygulama alanlarında kullanım olasılıklarını inceler ve uGMM-NN'nin ölçeklenebilirliği ile diğer modellerle entegrasyon potansiyeline dair tartışmalara kapı aralar.

Makale özeti (Abstract)

Bu makale, olasılıksal çıkarımı derin ağların hesaplama birimlerine doğrudan gömen yeni bir sinir ağı mimarisi olan Tek Değişkenli Gaussian Mixture Model Neural Network'ü (uGMM-NN) tanıtıyor. Geleneksel nöronlar ağırlıklı toplamların ardından sabit doğrusal olmayanlıklar uygularken, her uGMM-NN düğümü aktivasyonlarını öğrenilebilir ortalamalar, varyanslar ve karışım katsayılarına sahip tek değişkenli bir Gaussian karışımı olarak parametrize eder. Bu tasarım, standart feedforward ağların ölçeklenebilirliğini korurken, tek tek nöronlar düzeyinde çok modluluğu ve belirsizliği yakalayarak daha zengin temsiller sağlar. uGMM-NN'nin geleneksel çok katmanlı perceptron'lara kıyasla rekabetçi ayrımcı performans elde edebildiğini, ayrıca aktivasyonlara olasılıksal bir yorum da sunduğunu gösteriyoruz. Önerilen çerçeve, belirsizlik farkındalığına sahip bileşenlerin modern sinir ağı mimarilerine entegre edilmesi için bir temel sunuyor ve hem ayrımcı hem de üretici modelleme için yeni yönlerin önünü açıyor.
> This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling.

Makale bağlantısı

https://arxiv.org/abs/2509.07569


Büyük dil modellerinde pekiştirmeli öğrenme yoluyla ortaya çıkan hiyerarşik akıl yürütme / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

Makale tanıtımı

Büyük dil modellerinin (LLM'ler) karmaşık akıl yürütme yeteneklerini geliştirmeye yönelik araştırmalar son dönemde yapay zeka alanında önemli bir konu olarak öne çıkıyor. Bu çalışma, pekiştirmeli öğrenmenin (Reinforcement Learning, RL) LLM'lerin bu yeteneklerini nasıl geliştirdiğini inceliyor ve bu süreçte ortaya çıkan çeşitli olguların birbiriyle bağlantılı olduğunu ortaya koyuyor. Özellikle "aha anı" gibi deneyimler, üst düzey stratejik düşünmeyle yakından ilişkilidir ve bu durum, insan bilişsel süreçlerinde üst düzey planlama ile alt düzey yürütmenin ayrılmasına benzer, kendiliğinden ortaya çıkan bir akıl yürütme hiyerarşisinin özelliği olarak yorumlanır.

Araştırma iki aşamalı bir dinamik ortaya koyuyor. İlk aşamada model, prosedürel doğruluk tarafından sınırlandırılır ve alt düzey becerilerini geliştirmesi gerekir. Daha sonra öğrenme darboğazı değişir ve performans artışı, üst düzey stratejik planlamanın keşfi ve ustalaşılması tarafından yönlendirilir. Bu içgörü, mevcut RL algoritmalarının, özellikle de GRPO'nun (Generalized Reinforcement Policy Optimization), verimsizliğini ortaya koyuyor ve bu algoritmanın optimizasyon baskısını ayrım gözetmeden uygulayarak öğrenme sinyalini seyreltmesine dikkat çekiyor.

Yazarlar bu sorunu çözmek için HICRA (HIerarchy-Aware Credit Assignment) adlı yeni bir algoritma öneriyor. HICRA, yüksek etkili planlama token'larına optimizasyon çabasını yoğunlaştırarak stratejik darboğazları çözmeye odaklanıyor. Bu algoritma, güçlü baseline'ları aşan performans sergiliyor ve ileri düzey akıl yürütmenin kapısını açabilecek bir anahtar işlevi gördüğünü kanıtlıyor. Ayrıca yazarlar, stratejik keşfi ölçmek için anlamsal entropiyi, token düzeyi entropi gibi yanıltıcı metriklere kıyasla daha üstün bir gösterge olarak öneriyor.

Bu çalışma, LLM'lerin öğrenme ve akıl yürütme süreçlerindeki verimliliği artırmaya yönelik yeni bir yaklaşım sunuyor ve HICRA algoritması aracılığıyla stratejik planlamaya odaklı optimizasyonun gerekliliğini vurguluyor. Bu katkıların, LLM'lerin karmaşık akıl yürütme yeteneklerini daha da ileri taşıması ve gelecekteki araştırmalar için önemli bir temel oluşturması bekleniyor.

Makale özeti(Abstract)

Pekiştirmeli öğrenmenin (RL), büyük dil modellerinin (LLM) karmaşık akıl yürütme yeteneklerini geliştirmede son derece etkili olduğu kanıtlandı; ancak bu başarının arkasındaki temel mekanizmalar hâlâ büyük ölçüde belirsiz. Analizimiz, "aha anları", "uzunluk ölçekleme" ve entropi dinamikleri gibi kafa karıştırıcı olguların birbirinden bağımsız olaylar değil, insan bilişindeki üst düzey stratejik planlama ile alt düzey prosedürel yürütmenin ayrımına benzeyen ortaya çıkan bir akıl yürütme hiyerarşisinin ayırt edici özellikleri olduğunu ortaya koyuyor. İkna edici bir iki aşamalı dinamik tespit ettik: başlangıçta model, prosedürel doğruluk tarafından kısıtlanır ve alt düzey becerilerini geliştirmek zorundadır. Ardından öğrenme darboğazı belirleyici biçimde yer değiştirir ve performans artışları, üst düzey stratejik planlamanın keşfi ve ustalaşılması tarafından yönlendirilir. Bu içgörü, GRPO gibi mevcut RL algoritmalarındaki temel bir verimsizliği açığa çıkarıyor; bu algoritmalar optimizasyon baskısını ayrım yapmadan uygular ve öğrenme sinyalini tüm token’lara yayarak seyreltir. Bunu çözmek için, optimizasyon çabasını etkisi yüksek planlama token’larına yoğunlaştıran HIerarchy-Aware Credit Assignment (HICRA) algoritmasını öneriyoruz. HICRA, güçlü baseline’lara kıyasla belirgin biçimde daha iyi performans göstererek, bu stratejik darboğaza odaklanmanın ileri düzey akıl yürütmenin kilidini açmanın anahtarı olduğunu ortaya koyuyor. Ayrıca, anlamsal entropinin; token düzeyi entropi gibi yanıltıcı metriklere kıyasla stratejik keşfi ölçmek için daha üstün bir pusula olduğunu doğruluyoruz.

Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.

Makale bağlantısı

https://arxiv.org/abs/2509.03646


OpenVision 2: Çok modlu öğrenme için üretici ön eğitimli görsel kodlayıcı ailesi / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)

Makale tanıtımı

OpenVision 2, çok modlu öğrenme için üretici ön eğitimli görsel kodlayıcıların yeni bir ailesini öneriyor ve mevcut OpenVision’ın mimarisini ve kayıp tasarımını sadeleştirerek eğitim verimliliğini önemli ölçüde artırıyor. Bu çalışma, CapPa ve AIMv2 gibi önceki görsel-dil ön eğitim çalışmalarını ve LLaVA gibi modern çok modlu tasarımları temel alıyor; metin kodlayıcıyı kaldırıp yalnızca captioning kaybını koruyan bir yaklaşıma dayanıyor. Bu sadeleştirilmiş yapı, görüntü kodlayıcı ve metin çözücü olmak üzere iki modülden oluşuyor ve üretici öğrenme sinyali aracılığıyla görsel temsilleri etkili biçimde öğrenebiliyor.

OpenVision 2’nin ilk deney sonuçları, özgün modelin performansını korurken eğitim süresini ve bellek tüketimini önemli ölçüde azaltmayı başardı. Örneğin ViT-L/14 omurgası kullanıldığında eğitim süresi 1,5 kat kısaldı ve bellek kullanımı 1,8 kat azalarak azami batch boyutu 2.000’den 8.000’e çıkarılabildi. Bu iyileştirmeler, OpenVision 2’nin 1 milyardan fazla parametreye ölçeklenebilmesinin önünü açıyor ve hafif, yalnızca üretime dayalı paradigmanın çok modlu temel model geliştirmede cazip olduğunu gösteriyor.

Bu araştırma, CLIP tarzı karşıtsal öğrenmenin görsel kodlayıcı inşası için vazgeçilmez olduğu yönündeki mevcut inancın yeniden düşünülmesi gerektiğini savunuyor. OpenVision 2, saf üretici hedeflerin çok modlu performansta karşıtsal yöntemlerle rekabet edebildiğini gösterirken hesaplama maliyetini önemli ölçüde düşürüyor ve daha büyük model ölçeklemelerini mümkün kılıyor. Araştırmacılar, OpenVision 2’nin tam eğitim seti ve önceden eğitilmiş checkpoint’lerinden yararlanarak görsel kodlayıcılarda üretici ön eğitimin potansiyelini daha derinlemesine inceleme fırsatı elde ediyor. Bu yenilik, çok modlu öğrenme alanında yeni bir yön ortaya koyuyor ve gelecekteki araştırmalara önemli katkılar sunması bekleniyor.

Makale özeti (Abstract)

Bu makale, OpenVision'ın mimarisini ve kayıp tasarımını sadeleştirerek eğitim verimliliğini artırmanın bir yolunu sunuyor. Önceki görsel-dil ön eğitim çalışmaları CapPa ve AIMv2 ile LLaVA gibi modern çok modlu tasarımları temel alan değişikliklerimiz oldukça basit: metin kodlayıcıyı (dolayısıyla karşıtlık kaybını) kaldırıyor, saf üretici eğitim sinyali olarak yalnızca açıklama yazma kaybını koruyoruz. Bu yeni sürüme OpenVision 2 adını veriyoruz. İlk sonuçlar umut verici: bu sadeleştirmeye rağmen OpenVision 2, geniş bir çok modlu kıyaslama setinde orijinal modelin performansını rekabetçi biçimde yakalarken eğitim süresini ve bellek tüketimini önemli ölçüde azaltıyor. Örneğin ViT-L/14 ile eğitim süresini yaklaşık 1,5 kat kısaltıyor (83 saatten 57 saate) ve bellek kullanımını yaklaşık 1,8 kat azaltıyor (24,5GB'den 13,8GB'ye; buna karşılık azami batch boyutunun 2k'den 8k'ye çıkmasına olanak tanıyor). Bu üstün eğitim verimliliği, OpenVision'da kullanılan en büyük görsel kodlayıcının çok ötesine ölçeklenmemizi ve 1 milyardan fazla parametreye ulaşmamızı da sağlıyor. Bu hafif, yalnızca üretici yaklaşımlı paradigmanın, çok modlu temel modellerde gelecekteki görsel kodlayıcı geliştirmeleri için son derece cazip olduğuna güçlü biçimde inanıyoruz.
> This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.

Makale bağlantısı

https://arxiv.org/abs/2509.01644

Daha fazlasını okuyun

https://ucsc-vlaa.github.io/OpenVision2

https://github.com/UCSC-VLAA/OpenVision

https://huggingface.co/collections/UCSC-VLAA/…

https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B


Backprompting: Sağlık Tavsiyesi Guardrail'leri için Sentetik Prodüksiyon Verisinden Yararlanma / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)

Makale tanıtımı

Büyük dil modellerinin (LLM) kurumsal ortamlarda kullanımı yaygınlaştıkça, buna bağlı çeşitli risk unsurları da öne çıkıyor. Özellikle, LLM çıktılarının yanlış bilgi içerebilme olasılığı, sağlık tavsiyesi gibi hassas alanlarda ciddi sonuçlara yol açabilir. Bu riskleri azaltmak için Guardrails teknolojilerine ihtiyaç vardır; bunlar, LLM'nin girdi ve çıktı metinlerini çeşitli algılayıcılar aracılığıyla filtreleyerek çalışır. Ancak güçlü algılayıcılar geliştirme ve sürdürmenin önündeki en büyük engellerden biri, gerçek LLM çıktıları için prodüksiyon kalitesinde etiketli veriye ulaşmanın zor olmasıdır.

Bu çalışma, bu sorunu çözmek için Backprompting adlı yenilikçi bir metodoloji öneriyor. Backprompting, kullanıcının girdiği soruya dayanarak LLM'nin ürettiği metne yeniden soru sorarak prodüksiyona benzer etiketli veri üreten bir yaklaşımdır. Bu süreçte, üretilen veriyi etiketlemek için seyrek human-in-the-loop kümeleme tekniğinden yararlanılır. Bu sayede, orijinal veri setini kabaca temsil ederken aynı zamanda gerçek LLM çıktılarına benzeyen paralel bir korpus oluşturulabilir.

Araştırmanın temel amacı, mevcut veri setlerine sentetik örnekler enjekte ederek algılayıcılar için güçlü eğitim verisi oluşturmaktır. Böylece sağlık tavsiyesini tanımlayan Guardrail'lerin kurulmasında performansın artırılması hedeflenmektedir. Deney sonuçları, önerilen algılayıcının mevcut yöntemlere kıyasla performansta en fazla %3,73 iyileşme sağladığını ve GPT-4o ile karşılaştırıldığında da üstün sonuçlar verdiğini gösteriyor. Bu bulgular, Backprompting ile üretilen verinin algılayıcı eğitimi üzerinde olumlu etki yarattığını ortaya koyuyor.

Sonuç olarak bu çalışma, LLM çıktılarının güvenliğini artırmaya yönelik yeni bir veri üretim metodolojisi sunarken bunun gelecekte çeşitli alanlara uygulanabileceğini de gösteriyor. Backprompting'in, sağlık tavsiyesi Guardrail'leri geliştirmede etkili olduğu ve LLM'lerin güvenli kullanımı için önemli bir katkı sağlayacağı öngörülüyor.

Makale özeti (Abstract)

Büyük dil modellerinin (LLM) kurumsal ortamlarda yaygınlaşması, bunların kullanımıyla ilişkili ciddi riskleri de beraberinde getirdi. Guardrail teknolojileri, çeşitli dedektörler aracılığıyla LLM’lerin giriş/çıkış metinlerini filtreleyerek bu riskleri azaltmayı amaçlar. Ancak güçlü dedektörler geliştirmek ve sürdürmek birçok zorluğu beraberinde getirir; bunlardan biri de dağıtımdan önce gerçek LLM çıktıları üzerinde üretim kalitesinde etiketli veri edinmenin zor olmasıdır. Bu çalışma, sağlık tavsiyesi guardrail’leri geliştirmek için üretime benzer etiketli veri üretmeye yönelik basit ama sezgisel bir çözüm olan backprompting’i öneriyor. Ayrıca, üretilen veriyi etiketlemek için sparse human-in-the-loop kümeleme tekniğini backprompting yöntemiyle birleştiriyoruz. Amacımız, özgün veri kümesini kabaca temsil ederken gerçek LLM çıktısına da benzeyen paralel bir korpus oluşturmaktır. Ardından, dedektörümüz için güçlü eğitim verisi üretmek amacıyla mevcut veri kümelerine sentetik örneklerimizi enjekte ediyoruz. Tekniğimizi, LLM çıktılarında sağlık tavsiyesini belirleme gibi en zor ve en incelikli guardrail görevlerinden birinde test ediyor ve diğer çözümlere kıyasla iyileşme gösteriyoruz. Dedektörümüz, 400 kat daha az parametreye sahip olmasına rağmen GPT-4o’dan %3,73’e kadar daha iyi performans gösterebiliyor.
> Büyük dil modellerinin (LLM) kurumsal ortamlarda yaygınlaşması, bunların kullanımıyla ilişkili önemli miktarda riski de beraberinde getirmiştir. Guardrail teknolojileri, çeşitli dedektörler aracılığıyla LLM’lerin giriş/çıkış metinlerini filtreleyerek bu riski azaltmayı amaçlar. Ancak sağlam dedektörler geliştirmek ve sürdürmek birçok zorlukla karşı karşıyadır; bunlardan biri de dağıtımdan önce gerçek LLM çıktıları üzerinde üretim kalitesinde etiketli veri edinmenin zor olmasıdır. Bu çalışmada, sağlık tavsiyesi guardrail geliştirme için üretime benzer etiketli veri üretmeye yönelik basit ama sezgisel bir çözüm olan backprompting’i öneriyoruz. Ayrıca, üretilen veriyi etiketlemek için backprompting yöntemimizi sparse human-in-the-loop kümeleme tekniğiyle eşleştiriyoruz. Amacımız, özgün veri kümesini kabaca temsil ederken gerçek LLM çıktısına benzeyen paralel bir korpus oluşturmaktır. Ardından, dedektörümüz için sağlam eğitim verisi üretmek üzere mevcut veri kümelerine sentetik örneklerimizi ekliyoruz. Tekniğimizi, LLM çıktısında sağlık tavsiyesinin belirlenmesi gibi en zor ve nüanslı guardrail görevlerinden birinde test ediyor ve diğer çözümlere kıyasla iyileşme gösterdiğimizi ortaya koyuyoruz. Dedektörümüz, 400 kat daha az parametreye sahip olmasına rağmen GPT-4o’yu %3,73’e kadar geride bırakabilmektedir.

Makale bağlantısı

https://arxiv.org/abs/2508.18384


RLVR’de derinlik-genişlik sinerjisi: Uyarlanabilir keşifle LLM akıl yürütme yeteneklerinin açığa çıkarılması / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Makale tanıtımı

Reinforcement Learning with Verifiable Reward (RLVR), büyük dil modellerinin (LLM) akıl yürütme yeteneklerini en üst düzeye çıkarmada önemli bir rol oynasa da, potansiyeli henüz keşfedilmemiş iki boyut tarafından sınırlandırılıyor: Depth (modelin örnekleyebileceği en zor problem) ve Breadth (tek bir yinelemede tüketilen örnek sayısı). Bu çalışma, mevcut GRPO (Generalized Relative Preference Optimization) algoritmasını analiz ederek, cumulative advantage’ın orta doğruluktaki örneklere orantısız biçimde ağırlık verdiğini ve düşük doğruluklu örnekleri küçümseyen sistematik bir yanlılık yarattığını ortaya koyuyor. Bunu çözmek için, hedef odaklı çok aşamalı rollout aracılığıyla zor problemlerin ağırlığını yeniden ayarlayan ve pozitif rollout sayısını artıran Difficulty Adaptive Rollout Sampling (DARS) metodolojisini öneriyoruz.

DARS, yalnızca rollout boyutunu artırmakla kalmayıp Pass@K performansını iyileştirmeye de katkı sağlar. Ayrıca, eğitim verisinin genişliğini agresif biçimde artırmanın akıl yürütme gelişimine katkı sağlayabileceğini inceliyoruz; bunun için batch boyutunu büyük ölçüde artırıyor ve Proximal Policy Optimization (PPO) içindeki mini-batch yinelemesini, birden fazla epoch boyunca tam batch güncellemeleriyle değiştiriyoruz. Bu yaklaşım Pass@1 performansını önemli ölçüde artırırken, büyük ölçekli genişlik eğitiminin yüksek token düzeyi entropiyi koruyarak sürekli keşif ve azalan gradyan gürültüsüne işaret ettiğini gösteriyor.

DARS-B, DARS’a büyük ölçekli genişliği ekleyerek Pass@K ve Pass@1’de aynı anda performans artışı elde eden bir metodolojidir; bu da genişlik ve derinlik için uyarlanabilir keşfin, RLVR’nin akıl yürütme kapasitesini ortaya çıkarmada kritik rol oynadığını gösterir. Bu çalışma, söz konusu metodolojiler aracılığıyla RLVR’nin akıl yürütme yeteneklerini en üst düzeye çıkarmak için yeni bir yön öneriyor ve derinlik ile genişliğin uyarlanabilir keşfinin RLVR performansını artırdığını deneysel olarak kanıtlıyor.

Makale özeti (Abstract)

Pekiştirmeli öğrenme ve doğrulanabilir ödül (Reinforcement Learning with Verifiable Reward, RLVR), büyük dil modellerinin akıl yürütme yeteneklerini ortaya çıkarmak için güçlü bir paradigma olarak öne çıktı; ancak tam potansiyeli, yeterince incelenmemiş iki boyut tarafından sınırlandırılıyor: derinlik (Depth) - modelin örnekleyebileceği en zor problem; genişlik (Breadth) - tek bir yinelemede tüketilen örnek sayısı. Popüler GRPO algoritmasını inceliyor ve sistematik bir önyargıyı ortaya koyuyoruz: kümülatif avantaj (cumulative-advantage), orta doğruluktaki örneklere orantısız ağırlık verirken, akıl yürütmenin sınırlarını zorlamak için kritik olan düşük doğruluklu örneklerin ağırlığını azaltıyor. Derinliğin ihmal edilmesini düzeltmek için, zorlu problemlere yönelik pozitif rollout sayısını artırmak amacıyla hedef odaklı çok aşamalı rollout'lar üzerinden zor problemlerin ağırlığını yeniden dengeleyen Zorluk Uyarlamalı Rollout Örnekleme'yi (Difficulty Adaptive Rollout Sampling, DARS) sunuyoruz. Deneysel olarak, rollout boyutunu naif biçimde büyütmek yalnızca yakınsamayı hızlandırmakla kalmıyor, hatta Pass@K'ye zarar veriyor. Buna karşılık DARS, yakınsama anında ek çıkarım maliyeti olmadan tutarlı Pass@K kazanımları sağlıyor. Keşfin derinliğini uyarlamalı olarak genişlettiğimiz gibi, şimdi de eğitim verisinin genişliğini agresif biçimde ölçeklendirmenin akıl yürütme kazanımlarını daha da artırıp artıramayacağını soruyoruz. Bu amaçla, batch boyutunu büyük ölçüde büyütüyor ve PPO'nun mini-batch yinelemelerini birden fazla epoch boyunca tam batch güncellemeleriyle değiştiriyoruz. Genişliğin artırılması, Pass@1 performansını anlamlı biçimde iyileştiriyor. Büyük genişlikli eğitim, yüksek token düzeyi entropisini koruyarak keşfin sürdüğünü ve gradyan gürültüsünün azaldığını gösteriyor. Ayrıca DARS'ı büyük genişlikle güçlendiren DARS-B'yi sunuyor ve Pass@K ile Pass@1'de eşzamanlı kazanımlar gösteriyoruz. Sonuçlar, genişlik ile derinlik boyunca uyarlamalı keşfin RLVR içinde birbirine dik iki boyut olarak çalıştığını ve bunun RLVR'nin akıl yürütme gücünü açığa çıkarmanın anahtarı olduğunu doğruluyor.
> Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.

Makale bağlantısı

https://arxiv.org/abs/2508.13755


FlowVLA: Görsel düşünce zinciriyle hareketi düşünmek / FlowVLA: Thinking in Motion with a Visual Chain of Thought

Makale tanıtımı

Vision-Language-Action (VLA) modelleri, bir sonraki kare tahminiyle eğitilen iç dünya modellerine dayanır; ancak bu yöntem, statik görünüm ile dinamik hareketin iç içe geçmesi nedeniyle fiziksel akıl yürütmede zorlanır. Bunu çözmek için, sahnenin evrimini akıl yürüttükten sonra tahmin yapmaya yönlendiren Visual Chain of Thought (Visual CoT) adlı bir ön eğitim çerçevesi sunuluyor. FlowVLA, önce ara optik akış gösterimlerini üretip ardından gelecekteki kareleri tahmin eden bir yaklaşımla çalışır; bu süreç, dinamik unsurları ayrıştırarak öğrenmek üzere tek bir otoregresif Transformer içinde gerçekleştirilir. Deney sonuçları, FlowVLA'nın tutarlı görsel tahminler ürettiğini ve politika öğreniminin verimliliğini önemli ölçüde artırarak dünya modelleme için daha ilkeli bir temel sunduğunu gösteriyor.

Makale özeti (Abstract)

Birçok Vision-Language-Action (VLA) modeli, bir sonraki kare tahminiyle eğitilmiş dahili bir dünya modeline dayanır. Ancak bu yaklaşım, statik görünüm ile dinamik hareketi iç içe geçirdiği için fiziksel akıl yürütmede zorlanır; çoğu zaman gerçekçi olmayan görsel tahminlere ve verimsiz politika öğrenimine yol açar. Bu sınırlamaları gidermek için Visual Chain of Thought (Visual CoT) yaklaşımını sunuyoruz: bu, modelin bir sahnenin nasıl geliştiği üzerine akıl yürütmesini teşvik eden bir ön eğitim çerçevesidir. Bu ilkeyi FlowVLA içinde hayata geçiriyoruz; model, dinamik hareketi kodlayan ara bir optik akış gösterimi ($f_t$) ürettikten sonra gelecekteki kareyi ($v_{t+1}$) tahmin eder. Bu "$v_t \rightarrow f_t \rightarrow v_{t+1}$" düşünme süreci, tek bir otoregresif Transformer içinde uygulanır ve modeli ayrıştırılmış dinamik özellikleri öğrenmeye yönlendirir. Sonuç olarak FlowVLA, tutarlı görsel tahminler üretir ve daha verimli politika öğrenimini kolaylaştırır. Zorlu robotik manipülasyon benchmark'larında yapılan deneyler, state-of-the-art performans sergilediğini ve örnek verimliliğinin kayda değer ölçüde iyileştiğini göstererek dünya modellemesi için daha ilkeli bir temel sunduğuna işaret etmektedir. Proje sayfası: https://irpn-lab.github.io/FlowVLA/
> Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/

Makale bağlantısı

https://arxiv.org/abs/2508.18269

Daha fazla bilgi

https://irpn-lab.github.io/FlowVLA/


Uzun videoları anlamak için epizodik bellek gösterimi / Episodic Memory Representation for Long-form Video Understanding

Makale tanıtımı

Video anlama alanındaki zorluklardan biri, uzun videoların bağlamını etkili biçimde işlemektir. Mevcut Video Large Language Models (Video-LLMs), genel video anlama konusunda başarılı olsa da uzun videolarda bağlam penceresi sınırlamaları nedeniyle zorlanır. Bu sorunu çözmek için önerilen Video-EM (Episodic Memory Representation) çerçevesi, eğitim gerektirmeyen yenilikçi bir yaklaşım sunar.

Video-EM, videonun temel olaylarını zamansal olarak sıralanmış epizotlar şeklinde modelleyerek dinamik uzamsal-zamansal ilişkileri ve anlatıyı yakalar. Bu çerçeve üç temel bileşenden oluşur: Key Event Selection, Episodic Memory Representation ve Chain of Thought (CoT) Video Reasoning. Key Event Selection modülü, sorguyla ilgili bilgileri belirler ve zamansal olarak komşu temel olayları çıkararak videodaki tekrarları giderir.

Episodic Memory Representation modülü, her olayın zamansal sırasını açık biçimde modelleyerek dinamik uzamsal-zamansal bağlamı zengin şekilde ifade eder. Bu sayede videonun anlatısını etkili biçimde yeniden kurabilir. Son olarak CoT Video Reasoning, ilgili epizodik belleklerin en küçük kümesini yinelemeli olarak seçerek doğru ve bağlama dayalı yanıtlar üretir.

Bu çalışma, Video-EM performansını çeşitli benchmark'larda değerlendirmiş ve mevcut modellere kıyasla %4-9 performans artışı elde ettiğini göstermiştir. Bu sonuçlar, daha az sayıda kare kullanırken yüksek doğruluğu korumayı başardığını ortaya koymaktadır. Video-EM, video soru-cevap doğruluğunu önemli ölçüde artırır ve video anlama alanında yeni olanakların önünü açan önemli bir katkı sunar. Bu yaklaşım, gelecekteki araştırmalar için önemli bir temel oluşturabilir.

Makale özeti (Abstract)

Video-LLM’ler genel video anlama konusunda üstün performans gösterse de, bağlam penceresi sınırları nedeniyle uzun videolarda zorlanır. Bu nedenle son yaklaşımlar, uzun videoları az sayıda bilgilendirici kareye sıkıştırmak için anahtar kare getirimine odaklanır. Bu yöntemler pratik olsa da, problemi statik metin-görüntü eşleştirmesine indirger; sahne geçişlerini ve bağlamsal sürekliliği yakalamak için kritik olan uzamsal-zamansal ilişkileri göz ardı eder ve sınırlı bilgi içeren, birbirini tekrar eden anahtar kareler üretebilir. Bu da doğru video soru-cevap için gerekli önemli ipuçlarını zayıflatabilir. Bu sınırlamaları gidermek için, insanın epizodik bellek ilkelerinden ilham alan ve eğitim gerektirmeyen bir çerçeve olan Video-EM’i tanıtıyoruz. Bu çerçeve, güçlü ve bağlama dayalı akıl yürütmeyi teşvik edecek şekilde tasarlanmıştır. Video-EM, anahtar kareleri yalıtılmış görsel varlıklar olarak ele almak yerine, bunları zamansal olarak sıralanmış epizodik olaylar olarak açıkça modeller; böylece altta yatan anlatıyı doğru biçimde yeniden kurmak için gerekli uzamsal ilişkileri ve zamansal dinamikleri yakalar. Ayrıca bu çerçeve, LLM’lerle birlikte chain of thought (CoT) düşünme yaklaşımını kullanarak, bilgi açısından zengin ama asgari düzeyde bir epizodik bellek alt kümesini yinelemeli olarak belirler; böylece Video-LLM’lerin verimli ve doğru soru-cevap üretmesini mümkün kılar. Video-MME, EgoSchema, HourVideo ve LVBench kıyaslamalarında yapılan kapsamlı değerlendirmeler, Video-EM’in üstünlüğünü doğruluyor; yöntem, ilgili temel modellere kıyasla %4-9 performans artışı sağlarken daha az kare kullanarak son derece rekabetçi sonuçlar elde ediyor.
> Video Large Language Models (Video-LLMs) genel video anlama konusunda başarılıdır ancak bağlam penceresi sınırları nedeniyle uzun biçimli videolarda zorlanır. Bu nedenle son yaklaşımlar, uzun videoları az sayıda bilgilendirici kareye yoğunlaştıran anahtar kare getirimine odaklanır. Pratik olmalarına rağmen bu yöntemler, problemi statik metin-görüntü eşleştirmesine indirger; sahne geçişlerini ve bağlamsal sürekliliği yakalamak için kritik olan uzamsal-zamansal ilişkileri göz ardı eder ve sınırlı bilgi içeren tekrar eden anahtar kareler üreterek doğru video soru-cevap için gerekli belirgin ipuçlarını zayıflatabilir. Bu sınırlamaları gidermek için, insan epizodik belleğinin ilkelerinden ilham alan ve eğitim gerektirmeyen bir çerçeve olan Video-EM’i sunuyoruz; bu çerçeve, sağlam ve bağlama dayalı akıl yürütmeyi kolaylaştırmak üzere tasarlanmıştır. Video-EM, anahtar kareleri izole görsel varlıklar olarak ele almak yerine, bunları zamansal olarak sıralanmış epizodik olaylar olarak açıkça modeller ve altta yatan anlatıyı doğru biçimde yeniden kurmak için gerekli hem uzamsal ilişkileri hem de zamansal dinamikleri yakalar. Ayrıca çerçeve, LLM’lerle chain of thought (CoT) düşünmeyi kullanarak, asgari fakat son derece bilgilendirici bir epizodik bellek alt kümesini yinelemeli olarak belirler; böylece Video-LLM’ler tarafından verimli ve doğru soru-cevap sağlanır. Video-MME, EgoSchema, HourVideo ve LVBench kıyaslamalarında yapılan kapsamlı değerlendirmeler, Video-EM’in üstünlüğünü doğrulamaktadır; yöntem, ilgili temel modellere göre %4-9 performans artışı elde ederken daha az kare kullanarak son derece rekabetçi sonuçlara ulaşmaktadır.

Makale bağlantısı

https://arxiv.org/abs/2508.09486


Bu yazı, GPT modeliyle derlenmiş bir metne dayanmaktadır; bu nedenle özgün metnin içeriği veya niyetinden farklı biçimde özetlenmiş kısımlar olabilir. Konu ilginizi çekiyorsa lütfen özgün metne de göz atın! Okurken garip ya da hatalı bir ifade fark ederseniz, yorumlarda bildirmenizi rica ederiz. 🤗

⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan olarak Weekly’dir, ancak Daily olarak da değiştirebilirsiniz.)

Henüz yorum yok.

Henüz yorum yok.