10 puan yazan ninebow 2025-12-29 | Henüz yorum yok. | WhatsApp'ta paylaş

[2025/12/22 ~ 28] Bu Hafta Göz Atmaya Değer AI/ML Makaleleri Derlemesi

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Derinlemesine halüsinasyon tespiti ve azaltma stratejileri (Deep Hallucination Detection & Mitigation): Bu hafta seçilen makalelere bakıldığında, yalnızca model boyutunu büyütmenin ötesine geçip, LLM'lerin kronik sorunu olan halüsinasyon (Hallucination) problemini kökten çözmeye yönelik girişimlerin öne çıktığı görülüyor. QuCo-RAG, model içindeki öznel güven düzeyi yerine ön eğitim verilerinin istatistikleri gibi nesnel bir göstergeyi kullanarak arama zamanını belirliyor; H-Neurons ise halüsinasyona yol açan belirli nöronları tanımlayıp kökenlerini izleyen mikroskobik bir yaklaşım benimsiyor. Ayrıca Model-First Reasoning, problem çözmeden önce açık bir modelleme aşamasından geçilmesini sağlayarak yapısal hataları azaltıyor. Bu da yapay zeka araştırmalarının yalnızca “makul görünen yanıtlar” üretmekten çıkıp, “doğrulanabilir ve güvenilir mekanizmalara” sahip olma yönünde evrildiğini gösteriyor.

2️⃣ Çıkarım verimliliği ve gerçek zamanlı işleme teknolojilerinin evrimi (Evolution of Inference Efficiency & Real-Time Processing): Modeller büyüdükçe, çıkarım hızı ve bellek verimliliğini en üst düzeye çıkarmaya yönelik araştırmalar da hız kazanıyor. WorldPlay, hız ile bellek arasındaki trade-off'u çözerek gerçek zamanlı video üretimini mümkün kıldı; Jacobi Forcing ise sıralı üretim yönteminin (AR) sınırlarını aşarak paralel decoding sayesinde çıkarım hızını çarpıcı biçimde artırdı. Ayrıca qTTT, uzun bağlam işlenirken ortaya çıkan performans düşüşünü (score dilution) önlemek için çıkarım aşamasında hafifletilmiş bir eğitim gerçekleştiren yeni bir yaklaşım sundu. Bu, yüksek performanslı modelleri gerçek hizmet seviyesinde (Real-time application) kullanabilmek için gerekli bir optimizasyon süreci olarak yorumlanabilir.

3️⃣ Dinamik dünya anlayışı ve yapısal akıl yürütme yeteneğinin güçlendirilmesi (Enhanced Dynamic World Understanding & Structured Reasoning): Statik görüntü veya metin analizinin ötesinde, zaman akışını (4D) ve fiziksel/mantıksal yapıları anlamaya yönelik eğilim güçleniyor. 4D-RGPT, videonun zamansal dinamiklerini anlamak için 3D uzaya zaman eksenini ekleyen 4D algıyı deniyor; WorldPlay ise geometrik tutarlılığı koruyarak dünya modellemesi gerçekleştiriyor. NEPA da piksel geri yükleme yerine embedding tahminiyle görsel anlayışı geliştirmeye çalışıyor. Bu, yapay zekanın basit örüntü eşleştirmenin ötesine geçip, insanlar gibi fizik yasaları ve mantıksal nedenselliği de içeren “dünyanın çalışma prensiplerini” içselleştirme aşamasına ilerlediğine işaret ediyor.


WorldPlay: Gerçek zamanlı etkileşimli dünya modellemesi için uzun vadeli geometrik tutarlılığa doğru / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Makale tanıtımı

WorldPlay, gerçek zamanlı etkileşimli dünya modellemesi için geliştirilen yenilikçi bir streaming video diffusion modeli olup, uzun vadeli geometrik tutarlılığı korurken hız ile bellek arasındaki trade-off'u çözmeye odaklanır. Bu model, performansı en üst düzeye çıkarmak için üç temel yenilikten yararlanır. İlk olarak, Dual Action Representation sayesinde kullanıcı girdisine yönelik güçlü hareket kontrolü sağlar ve farklı ölçeklerdeki sahnelerde fiziksel olarak makul hareketler üretir. İkinci olarak, Reconstituted Context Memory, geçmiş karelerin bilgisini dinamik olarak yeniden oluşturarak uzun vadeli tutarlılığın korunmasına katkı sağlar. Bu sayede geometrik açıdan önemli eski kareler erişilebilir kalırken bellek verimliliği de artar. Üçüncü olarak, Context Forcing adlı yeni bir distillation yöntemi sunarak bellek farkındalığına sahip modelin performansını iyileştirir. Bu yöntem, öğretmen ve öğrenci model arasındaki bellek bağlamını hizalayarak öğrenci modelin uzun vadeli bilgiyi etkili biçimde kullanmasını destekler.

WorldPlay, saniyede 24 kare hızında 720p video üretir ve mevcut tekniklerle karşılaştırıldığında üstün tutarlılık gösterir. Bu model, gerçek zamanlı video üretiminde hem hız hem de uzun vadeli geometrik tutarlılığı aynı anda sağlamayı başarmış, ayrıca çeşitli sahnelerde güçlü genelleme sergilemiştir. Bunun yanında, yüksek kaliteli 3D yeniden yapılandırmayı mümkün kılarak dinamik dünya olaylarını tetikleyebilen prompt tabanlı etkileşimleri destekler. Bu özellikleri sayesinde WorldPlay, gerçek zamanlı etkileşimli video üretimi alanına önemli bir katkı sunmakta ve gelecekte çeşitli uygulama olasılıklarının önünü açmaktadır.

Makale özeti (Abstract)

Bu makale, gerçek zamanlı etkileşimli dünya modellemeyi mümkün kılan bir akış video difüzyon modeli olan WorldPlay'i sunuyor. WorldPlay, mevcut yöntemleri sınırlayan hız ve bellek arasındaki ödünleşimi çözerek uzun vadeli geometrik tutarlılığı koruyor. WorldPlay gücünü üç temel yenilikten alıyor. 1) Kullanıcının klavye ve fare girdilerine yanıt olarak güçlü eylem kontrolü sağlamak için İkili Eylem Temsili'ni (Dual Action Representation) kullanıyoruz. 2) Uzun vadeli tutarlılığı sağlamak için, Yeniden Oluşturulmuş Bağlam Belleğimiz (Reconstituted Context Memory) geçmiş karelerden bağlamı dinamik olarak yeniden kuruyor ve geometrik açıdan önemli ancak çok önceki kareleri erişilebilir tutmak için zamansal yeniden çerçeveleme kullanarak bellek zayıflamasını etkili biçimde hafifletiyor. 3) Ayrıca, bellek farkındalıklı model için tasarlanmış yeni bir damıtma yöntemi olan Bağlam Zorlamayı (Context Forcing) öneriyoruz. Öğretmen ve öğrenci arasındaki bellek bağlamını hizalamak, öğrencinin uzun menzilli bilgiyi kullanma kapasitesini koruyarak hata sürüklenmesini önlerken gerçek zamanlı hızlara olanak tanıyor. Tüm bunlar birlikte, WorldPlay'in mevcut tekniklerle karşılaştırıldığında daha üstün tutarlılıkla 24 FPS'de 720p videoyu uzun süreli olarak akış halinde üretebildiğini ve farklı sahnelerde güçlü genelleme gösterdiğini ortaya koyuyor. Proje sayfası ve çevrimiçi demo şu adreslerde bulunabilir: https://3d-models.hunyuan.tencent.com/world/ ve https://3d.hunyuan.tencent.com/sceneTo3D.
> This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

Makale bağlantısı

https://arxiv.org/abs/2512.14614

Daha fazla oku

https://3d-models.hunyuan.tencent.com/world/

https://3d.hunyuan.tencent.com/sceneTo3D


QuCo-RAG: Ön eğitim verilerinden belirsizliği nicelleştirerek dinamik retrieval-augmented generation için bir yöntem / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Makale tanıtımı

QuCo-RAG, büyük dil modellerinin (LLM) üretim sürecinde aramanın ne zaman yapılacağını dinamik olarak belirleyerek halüsinasyonları azaltan yenilikçi bir yöntemdir. Mevcut yaklaşımlar model içi sinyallere dayanıyordu, ancak bu durum LLM'lerin çoğu zaman iyi kalibre edilmemesi ve hatalı çıktılara yüksek güven göstermesi sorununu taşıyor. Bu çalışma, bu sınırlamayı aşmak için öznel güven yerine ön eğitim verilerinden hesaplanan nesnel istatistiklerle belirsizliği nicelleştiren yeni bir yöntem öneriyor.

QuCo-RAG'in belirsizlik nicelleştirmesi iki ana aşamadan oluşur. İlk aşamada, üretimden önce uzun kuyruklu bilgi boşluklarını gösteren düşük frekanslı varlıklar belirlenir. İkinci aşamada, üretim sırasında ön eğitim verilerinde varlıkların birlikte görülmesi doğrulanır; birlikte görülme sayısı 0 ise bu, halüsinasyon riskine işaret eder. Bu iki aşama, Infini-gram'dan yararlanarak 4 trilyon token üzerinde milisaniye gecikmeli sorgular gerçekleştirir ve belirsizliğin yüksek olduğu durumlarda aramayı tetikler.

Deney sonuçlarında QuCo-RAG, çok adımlı soru yanıtlama (QA) benchmark'larında OLMo-2 modeliyle en güncel baseline'lara kıyasla doğrulukta (EM) 5-12 puanlık artış sağladı. Ayrıca, resmi olmayan ön eğitim verilerine sahip modellerde (Llama, Qwen, GPT) de etkili biçimde aktarılıp EM'i 14 puana kadar yükseltti. Biyomedikal QA'deki alan genelleme deneyleri de QuCo-RAG'in sağlamlığını ek olarak doğruladı.

QuCo-RAG, ön eğitim corpus'una dayalı doğrulama üzerinden dinamik retrieval-augmented generation için yeni bir paradigma sunuyor ve bu, modelden bağımsız bir yaklaşım olarak çeşitli LLM'lere uygulanabiliyor. Bu araştırma, halüsinasyon riskini azaltmaya katkı sağlıyor ve gelecekte farklı alanlara uygulanma olasılığını araştırmayı hedefliyor.

Makale özeti (Abstract)

Dinamik Arama Destekli Üretim (Dynamic Retrieval-Augmented Generation), büyük dil modellerinde (LLM'ler) halüsinasyonu azaltmak için üretim sırasında ne zaman arama yapılacağını uyarlamalı olarak belirler. Ancak mevcut yöntemler model içi sinyallere (örn. logit'ler, entropi) dayanır; bu yaklaşım temelde güvenilmezdir çünkü LLM'ler genellikle iyi kalibre edilmemiştir ve hatalı çıktılarda sık sık yüksek güven sergiler. Biz, öznel güvenden ön eğitim verilerinden hesaplanan nesnel istatistiklere geçiş yapan QuCo-RAG'i öneriyoruz. Yöntemimiz belirsizliği iki aşamada nicelleştirir: (1) üretimden önce, uzun kuyruklu bilgi boşluklarını gösteren düşük frekanslı varlıkları belirleriz; (2) üretim sırasında, ön eğitim külliyatında varlıkların birlikte görülmesini doğrularız; sıfır birlikte görülme durumu çoğu zaman halüsinasyon riskine işaret eder. Her iki aşama da 4 trilyon token üzerinde milisaniye gecikmeli sorgular için Infini-gram'dan yararlanır ve belirsizlik yüksek olduğunda aramayı tetikler. Çok adımlı QA kıyaslamalarında yapılan deneyler, QuCo-RAG'in OLMo-2 modelleriyle en ileri düzey başlangıçlara göre EM'de 5--12 puan artış sağladığını ve ön eğitim verisi açıklanmamış modellerde (Llama, Qwen, GPT) de etkili biçimde aktarılıp EM'i 14 puana kadar iyileştirdiğini gösteriyor. Biyomedikal QA üzerindeki alan genellemesi de paradigmamızın sağlamlığını ayrıca doğruluyor. Bu sonuçlar, külliyat temelli doğrulamayı dinamik RAG için ilkesel ve pratikte modelden bağımsız bir paradigma olarak konumlandırıyor. Kodumuz herkese açık olarak https://github.com/ZhishanQ/QuCo-RAG adresinde kullanılabilir.
> Dynamic Retrieval-Augmented Generation, büyük dil modellerinde (LLM'ler) halüsinasyonu azaltmak için üretim sırasında ne zaman arama yapılacağını uyarlamalı olarak belirler. Ancak mevcut yöntemler model içi sinyallere (örn. logit'ler, entropi) dayanır; bu sinyaller temelde güvenilmezdir çünkü LLM'ler tipik olarak kötü kalibre edilmiştir ve hatalı çıktılarda sık sık yüksek güven gösterir. Ön eğitim verilerinden hesaplanan nesnel istatistiklere yönelen QuCo-RAG'i öneriyoruz. Yöntemimiz belirsizliği iki aşamada nicelleştirir: (1) üretimden önce, uzun kuyruklu bilgi boşluklarını gösteren düşük frekanslı varlıkları belirleriz; (2) üretim sırasında, ön eğitim külliyatında varlıkların birlikte görülmesini doğrularız; burada sıfır birlikte görülme çoğu zaman halüsinasyon riskine işaret eder. Her iki aşama da 4 trilyon token üzerinde milisaniye gecikmeli sorgular için Infini-gram'dan yararlanır ve belirsizlik yüksek olduğunda aramayı tetikler. Çok adımlı QA kıyaslamalarında yapılan deneyler, QuCo-RAG'in OLMo-2 modelleriyle en ileri düzey başlangıçlara göre EM'de 5--12 puan artışı sağladığını ve ön eğitim verisi açıklanmamış modellere (Llama, Qwen, GPT) de etkili biçimde aktarılarak EM'i 14 puana kadar iyileştirdiğini gösteriyor. Biyomedikal QA üzerindeki alan genellemesi de paradigmamızın sağlamlığını ayrıca doğruluyor. Bu sonuçlar, külliyata dayalı doğrulamayı dinamik RAG için ilkesel ve pratikte modelden bağımsız bir paradigma olarak ortaya koyuyor. Kodumuz herkese açık olarak https://github.com/ZhishanQ/QuCo-RAG adresinde mevcuttur.

Makale bağlantısı

https://arxiv.org/abs/2512.19134

Daha fazla oku

https://github.com/ZhishanQ/QuCo-RAG


4D-RGPT: Bölge düzeyinde 4D anlayışa yönelik algısal damıtma yaklaşımı / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Makale tanıtımı

4D-RGPT, video girdilerinden 4D temsilleri etkili biçimde yakalamak için tasarlanmış uzmanlaşmış bir çok modlu büyük dil modelidir (MMLM). Mevcut 3D ve 4D video soru yanıtlama (VQA) kıyaslamaları statik sahnelere odaklanıyor ve bölge düzeyinde istemler içermediği için zamansal dinamiklerin anlaşılmasını sınırlıyordu. Bu sorunu çözmek için bu çalışma, dondurulmuş uzman modellerden 4D temsilleri 4D-RGPT'ye aktararak kapsamlı 4D algıyı mümkün kılan Perceptual 4D Distillation (P4D) adlı yenilikçi bir eğitim çerçevesi sunuyor.

R4D-Bench adlı yeni bir kıyaslama da öneriliyor; bu kıyaslama, derinlik farkındalığına sahip dinamik sahneler için bölge düzeyinde istemler içeriyor. R4D-Bench, hibrit otomasyon ve insan doğrulama hattı üzerinden oluşturuldu ve mevcut bölgesel olmayan 4D VQA kıyaslamalarının sınırlamalarını aşmayı amaçlıyor. Bu kıyaslama, 4D anlayışın çeşitli yönlerini değerlendirmek için 9 soru kategorisi içeriyor ve her kategori MMLM performansını kapsamlı biçimde değerlendiren bir ölçüt sunuyor.

Soru seçenekleri biçimi, MMLM'nin doğru yanıtlar verebilmesi için gerekli hassasiyeti talep eder; bu da nesnelerin konumunu ve yönelimini anlamak açısından kritiktir. Bu yaklaşım, MMLM'nin 4D anlayış yeteneğini geliştirir ve bölge tabanlı sorular aracılığıyla daha derinlemesine değerlendirmeyi mümkün kılar. Bu çalışma, 4D-RGPT ve R4D-Bench aracılığıyla mevcut VQA sistemlerinin sınırlamalarını aşan, 4D algı ve zamansal anlayışı geliştiren önemli katkılar sunuyor.

Makale özeti (Abstract)

Çeşitli multimodal büyük dil modeli (MLLM) gelişmelerine rağmen, 3D yapılar ve zamansal dinamikler üzerinde akıl yürütme yetenekleri hâlâ sınırlı; bu durum zayıf 4D algı ve zamansal anlama tarafından kısıtlanıyor. Mevcut 3D ve 4D video soru yanıtlama (VQA) benchmark'ları statik sahnelere odaklanıyor ve bölge düzeyinde prompt'lardan yoksun. Bu sorunları çözmek için şunları sunuyoruz: (a) gelişmiş zamansal algı ile video girdilerinden 4D temsiller yakalamak için tasarlanmış özelleşmiş bir MLLM olan 4D-RGPT; (b) kapsamlı 4D algı için sabitlenmiş bir uzman modelden 4D temsilleri 4D-RGPT'ye aktaran bir eğitim çerçevesi olan Perceptual 4D Distillation (P4D); ve (c) hibrit otomasyon ve insan doğrulama hattı ile oluşturulmuş, bölge düzeyinde prompt'lara sahip derinlik farkındalıklı dinamik sahneler için bir benchmark olan R4D-Bench. 4D-RGPT'miz hem mevcut 4D VQA benchmark'larında hem de önerilen R4D-Bench benchmark'ında kayda değer iyileştirmeler elde etti.
> Multimodal LLM'lerdeki (MLLM'ler) ilerlemelere rağmen, 3D yapılar ve zamansal dinamikler üzerinde akıl yürütme yetenekleri hâlâ sınırlıdır; bunun temel nedeni zayıf 4D algı ve zamansal anlayıştır. Mevcut 3D ve 4D Video Question Answering (VQA) benchmark'ları da statik sahneleri öne çıkarır ve bölge düzeyinde prompting içermez. Bu sorunları çözmek için şunları sunuyoruz: (a) gelişmiş zamansal algıyla video girdilerinden 4D temsilleri yakalamak üzere tasarlanmış uzmanlaşmış bir MLLM olan 4D-RGPT; (b) kapsamlı 4D algı için sabitlenmiş bir uzman modelden 4D temsillerini 4D-RGPT'ye aktaran bir eğitim çerçevesi olan Perceptual 4D Distillation (P4D); ve (c) hibrit otomatik ve insan tarafından doğrulanan bir pipeline ile oluşturulmuş, bölge düzeyinde prompting'e sahip derinlik farkındalıklı dinamik sahneler için bir benchmark olan R4D-Bench. 4D-RGPT'miz hem mevcut 4D VQA benchmark'larında hem de önerilen R4D-Bench benchmark'ında dikkat çekici iyileştirmeler elde etmektedir.

Makale bağlantısı

https://arxiv.org/abs/2512.17012

Daha fazla oku

https://ca-joe-yang.github.io/resource/projects/4D_RGPT


H-Neurons: Büyük dil modellerinde halüsinasyonla ilişkili nöronların varlığı, etkisi ve kökeni üzerine bir araştırma / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

Makale tanıtımı

Büyük dil modellerinde (LLM'ler) ortaya çıkan halüsinasyon sorunu, model güvenilirliğini zedeleyen başlıca etkenlerden biridir ve kulağa makul gelse de gerçekte yanlış olan çıktılar üretme olgusunu ifade eder. Bu çalışmada halüsinasyonla ilişkili nöronların, yani H-Neurons'un varlığı, etkisi ve kökeni sistematik olarak analiz edildi. H-Neurons'u belirleme sürecinde, tüm nöronların %0,1'inden azını oluşturan seyrek bir nöron kümesinin halüsinasyon oluşumunu güvenilir biçimde tahmin edebildiği gösterildi. Bu nöronlar farklı senaryolarda güçlü genelleme yeteneği sergiledi.

Davranışsal etki açısından, kontrollü müdahaleler yoluyla H-Neurons'un aşırı uyum davranışıyla nedensel olarak bağlantılı olduğu bulundu. Bu, halüsinasyon oluşumuna katkıda bulunan nöronların yalnızca tesadüfen etkinleşmediğini, belirli davranış kalıplarıyla yakından ilişkili olduğunu gösterir. Köken açısından ise H-Neurons'un önceden eğitilmiş temel modelden kaynaklandığı ve bu nöronların halüsinasyon tespitindeki öngörü gücünü koruduğu doğrulandı. Bu, H-Neurons'un modelin ilk öğrenme sürecinde şekillendiğine dair önemli bir içgörü sunuyor.

Araştırma metodolojisinde, halüsinasyonla ilişkili nöronları güçlü biçimde belirlemek için TriviaQA veri kümesi kullanılarak güvenilir çıktılar ile halüsinasyonlu çıktıları ayıran yüksek kaliteli bir karşılaştırma kümesi oluşturuldu. Ardından her nöronun katkısını nicel olarak ölçmek için doğrusal bir sınıflandırıcı eğitildi ve bunun üzerinden halüsinasyon olup olmadığını tahmin eden ikili etiketler üretildi. Bu yaklaşım, H-Neurons'un işlevsel etkisini açık biçimde değerlendirebilmek için bir temel oluşturdu.

Son olarak bu çalışma, LLM'lerde halüsinasyonla ilişkili nöronların sinirsel mekanizmalarını anlamaya katkı sağlıyor ve gelecekte daha güvenilir LLM'ler geliştirmek için önemli bir temel sunuyor. Bu bulgular, LLM güvenilirliğini artırmaya yönelik araştırmalar için kritik içgörüler sağlarken gelecekteki araştırma yönleri için de önemli bir zemin hazırlıyor.

Makale özeti(Abstract)

Büyük dil modelleri (LLM'ler) sık sık halüsinasyon üretir; yani kulağa makul gelen ancak olgusal olarak yanlış çıktılar oluşturarak güvenilirliklerini zedeler. Önceki çalışmalar halüsinasyonları eğitim verisi ve hedefler gibi makro perspektiflerden incelemiş olsa da, altta yatan nöron düzeyindeki mekanizmalar büyük ölçüde keşfedilmemiştir. Bu makalede, LLM'lerdeki halüsinasyonla ilişkili nöronları (H-Neurons) üç açıdan sistematik olarak inceliyoruz: tanımlama, davranışsal etki ve kökenler. Tanımlama açısından, toplam nöronların $0.1%$'inden daha azını oluşturan dikkat çekici derecede seyrek bir nöron alt kümesinin, farklı senaryolarda güçlü genelleme ile halüsinasyon oluşumlarını güvenilir şekilde tahmin edebildiğini gösteriyoruz. Davranışsal etki açısından, kontrollü müdahaleler bu nöronların aşırı uyum davranışlarıyla nedensel olarak bağlantılı olduğunu ortaya koyuyor. Kökenleri açısından ise bu nöronların önceden eğitilmiş temel modellere kadar izlenebildiğini ve halüsinasyon tespiti için öngörü gücünü koruduklarını buluyoruz; bu da ön eğitim sırasında ortaya çıktıklarını gösteriyor. Bulgularımız, makro davranış kalıpları ile mikro sinirsel mekanizmalar arasında köprü kurarak daha güvenilir LLM'ler geliştirmek için içgörüler sunuyor.
> Büyük dil modelleri (LLM'ler) sıklıkla halüsinasyon üretir -- yani kulağa makul gelen ama olgusal olarak yanlış çıktılar -- ve bu da güvenilirliklerini zedeler. Önceki çalışmalar halüsinasyonları eğitim verileri ve hedefler gibi makroskopik perspektiflerden incelemiş olsa da, altta yatan nöron düzeyindeki mekanizmalar büyük ölçüde keşfedilmemiş durumda. Bu makalede, LLM'lerdeki halüsinasyonla ilişkili nöronları (H-Neurons) üç açıdan sistematik biçimde inceliyoruz: tanımlama, davranışsal etki ve kökenler. Tanımlanmaları açısından, toplam nöronların $0.1%$'inden daha azını oluşturan son derece seyrek bir nöron alt kümesinin, farklı senaryolar arasında güçlü genelleme ile halüsinasyon oluşumlarını güvenilir şekilde tahmin edebildiğini gösteriyoruz. Davranışsal etki bakımından, kontrollü müdahaleler bu nöronların aşırı uyum davranışlarıyla nedensel olarak bağlantılı olduğunu ortaya koyuyor. Kökenleri açısından, bu nöronları önceden eğitilmiş temel modellere kadar izliyor ve bu nöronların halüsinasyon tespiti için öngörücü kalmaya devam ettiğini buluyoruz; bu da ön eğitim sırasında ortaya çıktıklarını gösteriyor. Bulgularımız, makroskopik davranış kalıpları ile mikroskobik sinirsel mekanizmalar arasında köprü kurarak daha güvenilir LLM'ler geliştirmek için içgörüler sunuyor.

Makale bağlantısı

https://arxiv.org/abs/2512.01797


Sonraki Gömme Tahmini Güçlü Görsel Öğreniciler Oluşturur / Next-Embedding Prediction Makes Strong Vision Learners

Makale tanıtımı

Kendinden denetimli öğrenme (self-supervised learning), büyük ölçekli etiketsiz veri kümelerinden yararlanarak temsil öğrenmenin önemli bir yöntemi olarak yerleşmiş durumda; son dönemde contrastive learning ve self-distillation gibi çeşitli yaklaşımlar da gelişti. Ancak bu yöntemler çoğu zaman büyük batch boyutları veya memory bank gerektiriyor; hafif decoder’lar üzerinden kurulan reconstruction objective’leri de kendi sınırlarını ortaya koyuyor. Buna alternatif olarak önerilen predictive representation learning, ham girdiler yerine anlamsal embedding’leri tahmin eden bir yaklaşım ve özellikle JEPA (Just-Embedding Predictive Autoregression) gibi yöntemler dikkat çekiyor. Ancak JEPA, temsil odaklı yapısı nedeniyle, önceden eğitilmiş encoder’ın downstream modüller tarafından ayrı ayrı tüketilen özellikler üretmesi gibi bir sınıra sahip.

Bu arka planda önerilen Next-Embedding Predictive Autoregression (NEPA) yaklaşımı, geçmiş patch embedding’lerini koşul olarak kullanıp gelecekteki patch embedding’lerini tahmin ediyor; bunun için causal masking ve stop gradient tekniklerinden yararlanıyor. NEPA, modelin downstream görevler için özellik üretmesine değil, tahmin görevini doğrudan yerine getirecek şekilde eğitilmesine odaklanıyor. Bu metodoloji, basit bir Transformer mimarisi üzerine kurulu ve ImageNet-1k veri kümesinde ön eğitimle yüksek performans gösteriyor. Özellikle piksel yeniden oluşturma, ayrık token’lar, contrastive loss veya göreve özel head’ler olmadan da güçlü performansını koruması dikkat çekici.

NEPA, ViT-B ve ViT-L backbone’larını kullanarak ImageNet-1K üzerinde sırasıyla %83,8 ve %85,3 top-1 doğruluğa ulaştı; ayrıca ADE20K üzerindeki semantic segmentation görevine de etkili biçimde aktarıldı. Bu sonuçlar, NEPA’nın görsel kendinden denetimli öğrenme için basit, ölçeklenebilir ve potansiyel olarak modality-agnostic bir alternatif sunabileceğini gösteriyor. NEPA çalışması, tahmin yoluyla görev davranışını doğrudan yönlendirme olasılığını ortaya koyuyor ve gelecekte çeşitli görsel görevlerde kullanımın önünü açan önemli bir katkı yapıyor.

Makale özeti (Abstract)

Doğal dilde üretici ön eğitimin başarısından ilham alarak, aynı ilkelerin güçlü kendinden denetimli görsel öğreniciler üretip üretemeyeceğini soruyoruz. Modelleri downstream kullanım için özellik üretmeye eğitmek yerine, onları tahmine dayalı görevleri doğrudan yerine getirmek için embedding üretmeye eğitiyoruz. Bu çalışma, temsil öğrenmeden model öğrenmeye doğru böyle bir geçişi inceliyor. Daha spesifik olarak modeller, causal masking ve stop gradient kullanarak, geçmiş patch embedding’lerini koşul alıp gelecekteki patch embedding’lerini tahmin etmeyi öğreniyor; buna Next-Embedding Predictive Autoregression (NEPA) adını veriyoruz. Yegâne öğrenme hedefi olarak sonraki embedding tahminini kullanan ve ImageNet-1k üzerinde önceden eğitilen basit bir Transformer’ın etkili olduğunu gösteriyoruz. Piksel yeniden oluşturma, ayrık token’lar, contrastive loss veya göreve özel head’lere ihtiyaç yok. Bu formülasyon, ek tasarım karmaşıklığı gerektirmeden mimari sadelik ve ölçeklenebilirliği koruyor. NEPA, farklı görevlerde güçlü sonuçlar elde ediyor; fine-tuning sonrasında ViT-B ve ViT-L backbone’larıyla ImageNet-1K üzerinde sırasıyla %83,8 ve %85,3 top-1 doğruluk sağlıyor ve ADE20K üzerinde semantic segmentation görevine etkili şekilde aktarılıyor. Embedding’lerden üretici ön eğitimin, görsel kendinden denetimli öğrenmeye basit, ölçeklenebilir ve potansiyel olarak modality-agnostic bir alternatif sunduğuna inanıyoruz.

Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.

Makale bağlantısı

https://arxiv.org/abs/2512.16922

Daha fazlasını okuyun

https://sihanxu.me/nepa


Model-First Reasoning LLM Agents: Açık Problem Modellemesiyle Halüsinasyonları Azaltma / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling

Makale tanıtımı

Büyük dil modelleri (LLM), karmaşık çok adımlı planlama görevlerinde yüksek oranda kısıt ihlali ve tutarsız çözümler üretme eğilimindedir. Mevcut Chain-of-Thought ve ReAct gibi stratejiler, örtük durum takibine dayanır ve açık problem temsili içermedikleri için bu sınırlamaları aşmakta yetersiz kalır. Bu çalışma, klasik yapay zeka planlamasından ilhamla Model-First Reasoning (MFR) adlı yeni bir iki aşamalı paradigma öneriyor. Bu yaklaşımda LLM önce problemin açık bir modelini kuruyor, ardından buna dayanarak çözüm planı üretiyor.

MFR, çeşitli planlama alanlarında yapılan deneylerde kısıtlara uyum ve çözüm kalitesini artırdı. Özellikle tıbbi takvimleme, rota planlama, kaynak tahsisi, mantık bulmacaları ve prosedürel sentez gibi farklı alanlarda MFR’nin etkisi gösterildi. Ablation çalışmaları, açık modelleme adımının bu başarım için kritik olduğunu vurguladı. Bulgular, LLM’lerin planlama hatalarının esas olarak temsil kusurlarından kaynaklandığını; bunun akıl yürütme sınırlarından çok problem temsilindeki eksiklikle ilgili olduğunu gösteriyor.

MFR, problemin açık modelini kurma aşaması ile çözüm üretme aşaması olarak ikiye ayrılıyor; bu süreçte varlıklar, durum değişkenleri, eylemler ve kısıtlar tanımlanıyor. Bu açık modelleme, LLM’nin problemi daha yapılandırılmış biçimde anlamasına ve çözmesine yardımcı oluyor. Çalışma, LLM tabanlı planlama ve akıl yürütme görevlerindeki temsil başarısızlıklarını gidermek için bir temel sunuyor ve güvenilir yapay zeka ajanları için önemli bir katkı sağlıyor. Tüm prompt’lar, değerlendirme prosedürleri ve görev veri kümeleri belgelenerek yeniden üretilebilirlik destekleniyor ve gelecekteki araştırmalar için zemin hazırlanıyor.

Makale özeti (Abstract)

Büyük dil modelleri (LLM'ler), karmaşık çok adımlı planlama görevlerinde sık sık zorlanır; yüksek oranlarda kısıt ihlali ve tutarsız çözümler sergiler. Chain-of-Thought ve ReAct gibi mevcut stratejiler örtük durum takibine dayanır ve açık bir problem temsiline sahip değildir. Klasik yapay zeka planlamasından ilham alarak, önce Model yaklaşımıyla akıl yürütme (Model-First Reasoning, MFR) yöntemini öneriyoruz. MFR, LLM'in önce problemin açık bir modelini kurduğu, varlıkları, durum değişkenlerini, eylemleri ve kısıtları tanımladığı, ardından çözüm planını ürettiği iki aşamalı bir paradigmadır. Tıbbi takvim planlama, rota planlama, kaynak tahsisi, mantık bulmacaları ve prosedürel sentez dahil olmak üzere birden çok planlama alanında MFR, Chain-of-Thought ve ReAct'e kıyasla kısıt ihlallerini azaltır ve çözüm kalitesini artırır. Ablation çalışmaları, açık modelleme aşamasının bu kazanımlar için kritik olduğunu gösterir. Sonuçlarımız, LLM planlama hatalarının çoğunun akıl yürütme sınırlamalarından değil, temsile ilişkin eksikliklerden kaynaklandığını gösteriyor; bu da açık modellemeyi sağlam ve yorumlanabilir yapay zeka ajanlarının temel bir bileşeni olarak öne çıkarıyor. Tüm prompt'lar, değerlendirme prosedürleri ve görev veri kümeleri, yeniden üretilebilirliği kolaylaştırmak için belgelenmiştir.
> Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.

Makale bağlantısı

https://arxiv.org/abs/2512.14474


Bağlama sadece koyup geçmeyelim: uzun bağlamlı LLM'ler için test zamanı eğitimi / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

Makale tanıtımı

Büyük dil modellerindeki (LLM) ilerlemeler, uzun bağlamı işleme yeteneğini önemli ölçüde geliştirmiş olsa da bu modellerin uzun bağlamda gerçekte etkili biçimde çalışamama sorununu çözmek önemini koruyor. Bu çalışma, mevcut çıkarım zamanı stratejilerinin performansı artırmak için kullandığı düşünme token'ları (thinking tokens) üretim yönteminin, score dilution sorunu nedeniyle sınırlı kaldığına dikkat çekiyor. Score dilution, statik self-attention özelliği nedeniyle ortaya çıkıyor ve bu da uzun bağlamda modelin doğruluğunu düşürüyor.

Bu sorunu çözmek için çalışma, query-only test-time training (qTTT) adlı yeni bir yöntem öneriyor. qTTT, verilen bağlama yönelik hedefli gradyan güncellemeleriyle statik self-attention'ın sınırlamalarını aşıyor ve uzun bağlamdaki performansı artırmayı hedefliyor. Deney sonuçlarına göre qTTT, mevcut çıkarım zamanı stratejilerine kıyasla daha etkili bir yaklaşım sunuyor ve Qwen3-4B modelinde LongBench-v2 ile ZeroScrolls benchmark'larının alt kümelerinde sırasıyla ortalama 12,6 ve 14,1 puanlık performans artışı sağlıyor.

Bu araştırma, uzun bağlam performansını artırmak için bağlama özgü küçük ölçekli bir eğitimin gerekli olduğunu vurguluyor; bu da çıkarım hesaplamasının daha verimli kullanılabileceği anlamına geliyor. qTTT'nin sunulması, uzun bağlamlı LLM'lerin performansını en üst düzeye çıkarabilecek pratik bir yöntem ortaya koyuyor ve gelecekteki çalışmalarda uzun bağlam işlemede yeni bir yön çizeceği öngörülüyor. Bu yenilikçi yaklaşımın, LLM'lerin kullanım alanını daha da genişletmesi ve çeşitli uygulama alanlarında performans iyileştirmesine katkı sağlaması bekleniyor.

Makale özeti (Abstract)

Eğitim ve mimari stratejilerdeki ilerlemeler, bağlam uzunluğu milyonlarca token içeren büyük dil modellerini (LLM) mümkün kıldı. Ancak ampirik kanıtlar, bu tür uzun bağlamlı LLM’lerin güvenilir biçimde kullanabildiklerinden çok daha fazla metin tüketebildiğini gösteriyor. Öte yandan, çıkarım zamanı hesaplamasının çok adımlı akıl yürütme içeren zorlu görevlerde LLM performansını ölçeklendirmek için kullanılabildiği kanıtlandı. Sandbox uzun bağlam görevleri üzerinde yapılan kontrollü deneyler aracılığıyla, bu tür çıkarım zamanı stratejilerinin getirilerinin hızla azaldığını ve uzun bağlamda başarısız olduğunu bulduk. Bu başarısızlıkları, statik self-attention’a içkin bir olgu olan score dilution’a bağlıyoruz. Ayrıca, mevcut çıkarım zamanı stratejilerinin belirli koşullar altında ilgili uzun bağlam sinyallerini geri getiremediğini gösteriyoruz. Verilen bağlam üzerinde hedefli gradyan güncellemeleri yoluyla statik self-attention’ın sınırlamalarını aşan basit bir yöntem öneriyoruz. Çıkarım zamanı hesaplamasının nasıl harcandığındaki bu değişimin, modeller ve uzun bağlam benchmark’ları genelinde tutarlı biçimde büyük performans artışları sağladığını gördük. Yöntemimiz, LongBench-v2 ve ZeroScrolls benchmark’larının alt kümelerinde Qwen3-4B için ortalama 12.6 ve 14.1 yüzde puanlık büyük iyileşmeler sağlıyor. Pratik çıkarım şu: uzun bağlam için, bağlama özgü az miktarda eğitim, daha fazla düşünme token’ı üretmek gibi mevcut çıkarım zamanı ölçeklendirme stratejilerine kıyasla çıkarım hesaplamasını daha iyi kullanmanın yoludur.
> Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.

Makale bağlantısı

https://arxiv.org/abs/2512.13898


Büyük Dil Modelleriyle Takviyeli Öğrenmenin İstikrara Kavuşturulması: Formülasyon ve Uygulamalar / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

Makale tanıtımı

Takviyeli öğrenme (Reinforcement Learning, RL) çeşitli alanlarda başarıyla uygulanıyor olsa da, eğitim sürecindeki istikrarsızlık sorunu hâlâ çözülmesi gereken başlıca zorluklardan biridir. Bu çalışma, büyük dil modellerini (Large Language Models, LLMs) kullanarak RL’nin istikrarını artırmaya yönelik yeni bir metodoloji öneriyor. Özellikle, politika gradyanı yöntemi olan REINFORCE aracılığıyla dizi düzeyindeki ödülün yerine token düzeyinde hedeflerin optimize edilebileceği koşulları ortaya koyuyor. Birinci dereceden yaklaşım üzerinden, bu ikame hedefin geçerli olmasının koşulunun eğitim-çıkarım uyumsuzluğu ile politikanın eskimesinin en aza indirildiği durumlar olduğunu gösteriyor.

Bu içgörü, importance sampling düzeltmesi, clipping ve Mixture-of-Experts (MoE) modelleri için Routing Replay gibi tekniklerin RL eğitiminin istikrara kavuşmasına nasıl katkı sağladığını açıklamaya yardımcı oluyor. 30B MoE modeliyle milyonlarca GPU saati boyunca yürütülen deneyler aracılığıyla, on-policy eğitimde importance sampling düzeltmesini içeren temel politika gradyanı algoritmasının en yüksek eğitim istikrarını sağladığını gösteriyor. Ayrıca, yakınsamayı hızlandırmak için off-policy güncellemeler devreye sokulduğunda, clipping ile Routing Replay birleşiminin politikanın eskimesinden kaynaklanan istikrarsızlığı hafifletmede kritik olduğunu vurguluyor.

Eğitim istikrara kavuşturulduktan sonra, başlatma yönteminden bağımsız olarak sürekli optimizasyonun tutarlı nihai performans sergilediğini gösteriyor. Bu bulgular, istikrarlı RL eğitimi için yeni içgörüler sunarken, gelecekteki araştırmalara katkı sağlayabilecek önemli bir temel oluşturuyor. Makale, büyük dil modelleriyle takviyeli öğrenmenin istikrara kavuşturulmasına yönelik yenilikçi bir yaklaşım sunuyor ve RL eğitiminin istikrarsızlığını çözmeye önemli katkı yapıyor.

Makale özeti (Abstract)

Bu makale, büyük dil modelleri (LLM) ile pekiştirmeli öğrenme (RL) için yeni bir formülasyon öneriyor ve REINFORCE gibi politika gradyanı yöntemlerinde gerçek dizi düzeyindeki ödülün hangi koşullarda vekil bir token düzeyindeki hedef üzerinden optimize edilebileceğini açıklıyor. Özellikle, birinci dereceden yaklaşım üzerinden bu vekilin yalnızca hem eğitim-çıkarım uyumsuzluğu hem de politika bayatlığı en aza indirildiğinde giderek daha geçerli hâle geldiğini gösteriyorlar. Bu içgörü, importance sampling correction, clipping ve özellikle Mixture-of-Experts (MoE) modelleri için Routing Replay gibi yaygın olarak benimsenen çeşitli tekniklerin RL eğitimini istikrarlı hâle getirmede neden kritik bir rol oynadığını ilkesel olarak açıklıyor. Yüz binlerce GPU saatini kapsayan 30B MoE modeliyle yapılan kapsamlı deneyler, on-policy eğitimde importance sampling correction içeren temel politika gradyanı algoritmasının en yüksek eğitim istikrarını sağladığını gösteriyor. Yakınsamayı hızlandırmak için off-policy güncellemeler devreye alındığında ise clipping ile Routing Replay kombinasyonu, politika bayatlığının yol açtığı kararsızlığı azaltmak için vazgeçilmez hâle geliyor. Dikkat çekici olarak, eğitim istikrara kavuştuktan sonra uzun süreli optimizasyon, cold-start başlatma yönteminden bağımsız olarak tutarlı biçimde benzer nihai performans veriyor. Paylaşılan içgörülerin ve istikrarlı RL eğitimi için geliştirilen reçetelerin gelecekteki araştırmaları kolaylaştırmasını umuyoruz.
> This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.

Makale bağlantısı

https://arxiv.org/abs/2512.01374


Özyinelemeli zorlama ile hızlı ve doğru nedensel paralel kod çözme / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Makale tanıtımı

Büyük dil modellerinin çıkarım hızını artırmaya yönelik araştırmaların yoğun biçimde sürdüğü bu dönemde, bu çalışma Jacobi Forcing adlı yenilikçi bir metodoloji öneriyor. Bu metodoloji, çoklu token üretimi üzerinden Transformer tabanlı modellerde paralel decoding’i mümkün kılarak çıkarım gecikmesini en aza indirmeye odaklanıyor. Mevcut diffusion büyük dil modeli (dLLMs) yaklaşımı, pre-training ile post-training arasındaki uyumsuzluk nedeniyle performans artışında sınırlı kalıyordu. Özellikle dLLMs, çift yönlü attention kullanarak nedensel öncel (causal prior) ile çakışmaya yol açıyor ve bu da doğru key-value cache (KV cache) yeniden kullanımını engelliyor.

Jacobi Forcing, modelin kendi ürettiği paralel decoding yolları üzerinde öğrenmesini sağlayarak, önceden eğitilmiş nedensel çıkarım özelliklerini korurken onu verimli bir paralel decoder’a dönüştüren kademeli bir distillation paradigmasıdır. Bu yöntemle eğitilen Jacobi Forcing modeli, kodlama ve matematik benchmark’larında performans kaybını en aza indirirken duvar saati süresinde 3,8 kat hızlanma elde etti. Ayrıca, rejection recycling yoluyla çok bloklu decoding yaklaşımı getirilerek her iterasyonda en fazla 4,5 kat daha yüksek token kabulü mümkün kılındı ve duvar saati süresinde neredeyse 4,0 kat hızlanma sağlandı.

Bu çalışma, Jacobi Forcing aracılığıyla AR modellerinin nedensel çıkarım özelliklerini korurken aynı zamanda verimli paralel decoding’i mümkün kılan bir metodoloji sunuyor ve büyük dil modellerinin çıkarım hızını çarpıcı biçimde artırma potansiyelini ortaya koyuyor. Bu yaklaşım, doğal dil işleme (NLP) alanında model verimliliğini büyük ölçüde iyileştirme potansiyeline sahip ve gelecekteki araştırmalara önemli katkılar sunması bekleniyor.

Makale özeti (Abstract)

Çoklu token üretimi, transformer tabanlı büyük model çıkarımını hızlandırmak için umut verici bir paradigma olarak öne çıktı. Son dönemdeki çalışmalar, çıkarım gecikmesini azaltmak amacıyla paralel decoding için diffusion Large Language Models (dLLMs) yaklaşımını inceliyor. AR düzeyinde üretim kalitesi elde etmek için birçok teknik, paralel decoding’i mümkün kılmak üzere AR modellerini dLLM’lere uyarlıyor. Ancak bunlar, ön eğitim ile sonradan eğitim arasındaki uyumsuzluk nedeniyle AR modellere kıyasla sınırlı hız artışı sağlıyor. Özellikle, sonradan eğitimdeki masked veri dağılımı, ön eğitim sırasında görülen gerçek dünya veri dağılımından önemli ölçüde sapıyor ve dLLM’ler çift yönlü attention’a dayanıyor; bu da ön eğitim sırasında öğrenilen nedensel öncülle çelişerek tam KV cache yeniden kullanımının entegrasyonunu engelliyor. Bunu çözmek için Jacobi Forcing’i sunuyoruz. Bu, modellerin kendi ürettikleri paralel decoding yörüngeleri üzerinde eğitildiği aşamalı bir damıtma paradigmasıdır; böylece AR modelleri, önceden eğitilmiş nedensel çıkarım özelliğini korurken verimli paralel decoder’lara sorunsuz biçimde dönüştürülür. Bu paradigma altında eğitilen model olan Jacobi Forcing Model, kodlama ve matematik benchmark’larında performans kaybını en aza indirerek 3.8 kat wall-clock hızlanma elde ediyor. Jacobi Forcing Models’in yörünge özelliklerine dayanarak, rejection recycling ile çok bloklu decoding yöntemini sunuyoruz; bu yöntem, iterasyon başına token kabul sayısını 4.5 kata kadar artırıyor ve yaklaşık 4.0 kat wall-clock hızlanma sağlayarak ek hesaplama karşılığında daha düşük çıkarım gecikmesi sunuyor. Kodumuz https://github.com/hao-ai-lab/JacobiForcing adresinde erişilebilir.
> Çoklu token üretimi, transformer tabanlı büyük model çıkarımını hızlandırmak için umut verici bir paradigma olarak öne çıkmıştır. Son dönemdeki çalışmalar, çıkarım gecikmesini azaltmak amacıyla paralel decoding için diffusion Large Language Models (dLLMs) yaklaşımını inceliyor. AR düzeyinde üretim kalitesi elde etmek için birçok teknik, paralel decoding’i mümkün kılmak üzere AR modellerini dLLM’lere uyarlıyor. Ancak bunlar, ön eğitim ile sonradan eğitim arasındaki uyumsuzluk nedeniyle AR modellere kıyasla sınırlı hız artışı yaşıyor. Özellikle, sonradan eğitimdeki masked veri dağılımı, ön eğitim sırasında görülen gerçek dünya veri dağılımından önemli ölçüde sapıyor ve dLLM’ler çift yönlü attention’a dayanıyor; bu da ön eğitim sırasında öğrenilen nedensel öncülle çelişerek tam KV cache yeniden kullanımının entegrasyonunu engelliyor. Bunu çözmek için Jacobi Forcing’i sunuyoruz; bu, modellerin kendi ürettikleri paralel decoding yörüngeleri üzerinde eğitildiği aşamalı bir damıtma paradigmasıdır ve önceden eğitilmiş nedensel çıkarım özelliğini korurken AR modellerini verimli paralel decoder’lara sorunsuz biçimde dönüştürür. Bu paradigma altında eğitilen model, Jacobi Forcing Model, kodlama ve matematik benchmark’larında performans kaybını en aza indirerek 3.8x wall-clock hızlanma elde ediyor. Jacobi Forcing Models’in yörünge özelliklerine dayanarak rejection recycling ile çok bloklu decoding yöntemini sunuyoruz; bu yöntem, iterasyon başına token kabul sayısını 4.5x’e kadar artırıyor ve neredeyse 4.0x wall-clock hızlanma sağlayarak ek hesaplamayı daha düşük çıkarım gecikmesiyle etkili biçimde takas ediyor. Kodumuz https://github.com/hao-ai-lab/JacobiForcing adresinde erişilebilir.

Makale bağlantısı

https://arxiv.org/abs/2512.14681

Daha fazla okuma

https://github.com/hao-ai-lab/JacobiForcing


Büyük dil modellerinin (LLM) zararları: Sınıflandırma ve tartışma / LLM Harms: A Taxonomy and Discussion

Makale tanıtımı

Bu çalışma, büyük dil modelleri (LLM) ile ilişkili zarar kategorilerini ele alıyor. Çalışma, yapay zeka uygulamalarının geliştirilmesinden önce, geliştirme sırasında ve sonrasında ortaya çıkabilecek beş zarar kategorisi sunuyor: geliştirme öncesi, doğrudan çıktı, kötüye kullanım ve kötü niyetli uygulamalar ile aşağı akış uygulamaları. Mevcut ortamda risklerin tanımlanması gereğini vurgularken, hesap verebilirlik, şeffaflık ve önyargının nasıl yönetilebileceğine dair yöntemler sunuyor. Ayrıca belirli alanlara yönelik azaltma stratejileri ve gelecekteki yönelimleri öneriyor; bunun yanında LLM’lerin sorumlu geliştirilmesi ve entegre edilmesi için dinamik bir denetim sistemine rehberlik eden standartlaştırılmış öneriler de içeriyor.

Makale özeti (Abstract)

Bu çalışma, yapay zeka alanında büyük dil modellerini (LLM’ler) çevreleyen zarar kategorilerini ele almaktadır. Çalışma, yapay zeka uygulamalarının geliştirilmesinden önce, geliştirme sırasında ve sonrasında ele alınan beş zarar kategorisini kapsar: geliştirme öncesi, doğrudan çıktı, kötüye kullanım ve kötü niyetli uygulama ile aşağı akış uygulaması. Mevcut ortamın risklerini tanımlama gereğini vurgulayarak, LLM’lerin pratik uygulamalara uyarlanmasında hesap verebilirliğin, şeffaflığın ve önyargının yönetilmesini güvence altına almayı amaçlar. Ayrıca belirli alanlara yönelik azaltma stratejileri ve gelecekteki yönelimlerin yanı sıra, LLM’lerin sorumlu geliştirilmesi ve entegrasyonuna rehberlik eden dinamik bir denetim sistemini standartlaştırılmış bir öneri olarak sunar.
> Bu çalışma, yapay zeka alanında Large Language Models (LLMs) etrafındaki zarar kategorilerini ele almaktadır. Yapay zeka uygulamalarının geliştirilmesinden önce, geliştirme sırasında ve sonrasında ele alınan beş zarar kategorisini kapsar: geliştirme öncesi, doğrudan çıktı, kötüye kullanım ve kötü niyetli uygulama ile aşağı akış uygulaması. Mevcut ortamın risklerini tanımlama gereğini vurgulayarak, LLM’lerin pratik uygulamalara uyarlanmasında hesap verebilirliği, şeffaflığı ve önyargının yönetimini güvence altına almayı amaçlar. Belirli alanlara yönelik azaltma stratejileri, gelecekteki yönelimler ve LLM’lerin sorumlu geliştirilmesi ile entegrasyonuna rehberlik eden dinamik bir denetim sistemini standartlaştırılmış bir öneri olarak sunar.

Makale bağlantısı

https://arxiv.org/abs/2512.05929


⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan olarak Weekly’dir, ancak Daily olarak da değiştirebilirsiniz.)

Henüz yorum yok.

Henüz yorum yok.