ML makaleleri derlemesi

(discuss.pytorch.kr)

7 puan yazan ninebow 2025-10-01 | Henüz yorum yok. | WhatsApp'ta paylaş

[2025/09/22 ~ 28] Bu hafta göz atmaya değer AI/ML makaleleri derlemesi

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Yapay zeka ajanlarının gelişimi: Son dönemdeki araştırmalar, makaleleri yapay zeka ajanlarına dönüştürmenin yollarını araştırıyor. Örneğin, Paper2Agent araştırma çıktılarını aktif sistemlere dönüştürerek kullanıcıların bunlardan daha kolay yararlanmasını sağlıyor. Bu yaklaşım, araştırma sonuçlarının yayılımını ve yeniden kullanımını teşvik ederken, yapay zekanın araştırma asistanı rolü üstlenebileceği yeni bir paradigma da ortaya koyuyor.

2️⃣ Paralel düşünme ve pekiştirmeli öğrenmenin entegrasyonu: Parallel-R1 ve ParaThinker gibi çalışmalar, büyük dil modellerinin (LLM) akıl yürütme kapasitesini geliştirmek için paralel düşünmeden nasıl yararlanılabileceğini öneriyor. Bunlar, pekiştirmeli öğrenme (RL) aracılığıyla karmaşık problemleri çözmek için gereken farklı düşünme yollarını eşzamanlı olarak keşfederek performansı iyileştiriyor. Bu yöntem, mevcut sıralı düşünme modellerine kıyasla daha yüksek doğruluğa ulaşılmasına katkı sağlıyor.

3️⃣ Bilgi erişimi ve yapılandırmanın entegrasyonu: Retrieval And Structuring (RAS) Augmented Generation gibi çalışmalar, LLM'lerin sınırlarını aşmak için dinamik bilgi erişimi ile yapılandırılmış bilgi gösterimini birleştirmenin yollarını araştırıyor. Bu yaklaşım, yapılandırılmamış metni düzenli biçimlere dönüştürmeye ve dış bilgiye erişim için çeşitli mekanizmaları incelemeye odaklanarak LLM performansını artırmaya katkı sağlıyor.

Paper2Agent: Araştırma makalelerini etkileşimli ve güvenilir yapay zeka ajanları olarak yeniden tasarlamak / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

Makale tanıtımı

Paper2Agent, araştırma makalelerini etkileşimli yapay zeka ajanlarına dönüştüren otomatik bir çerçevedir ve araştırma sonuçlarının kullanımını ve yayılımını hızlandıran yenilikçi bir yaklaşım sunar. Geleneksel araştırma makaleleri, okuyucunun içeriği anlaması ve uygulaması için önemli ölçüde çaba gerektirir; bu da araştırma sonuçlarının yeniden kullanımı ve yayılımı önünde bir engel oluşturur. Paper2Agent, bu sorunu çözmek için makale ile ilişkili kod tabanını sistematik olarak analiz eder ve birden fazla ajan kullanarak bir Model Context Protocol (MCP) sunucusu kurar. Bu süreçte, yinelemeli testlerle MCP'yi geliştirip güçlendirerek, nihayetinde doğal dil aracılığıyla karmaşık bilimsel sorgular gerçekleştirebilen bir yapay zeka ajanı üretir.

Bu çerçeve, AlphaGenome, ScanPy ve TISSUE gibi çeşitli metodolojileri kullanarak genomik varyant yorumlama ve tek hücre analizi yapan ajanlar geliştirdi. Bu ajanlar yalnızca özgün makaledeki sonuçları yeniden üretebilmekle kalmıyor, aynı zamanda yeni kullanıcı sorgularına da doğru yanıtlar veriyor. Paper2Agent, statik araştırma makalelerini dinamik ve etkileşimli yapay zeka ajanlarına dönüştürerek bilgi yayılımı için yeni bir paradigma sunuyor ve yapay zeka yardımcı bilim insanları ekosisteminin temelini atıyor.

Bu çalışma, bilimsel iletişim biçimini yenilikçi şekilde dönüştürüyor ve araştırma çıktılarını basit belgelerden aktif bilgi tabanlı sistemlere çevirmeye katkı sağlıyor. Paper2Agent, araştırmacıların karmaşık yazılım ekosistemlerine hakim olmak zorunda kalmadan, ajanlarla doğal dil üzerinden etkileşime girerek araştırma yöntemlerini kolayca uygulayabilmesini sağlar. Bu yaklaşım, araştırma sonuçlarının erişilebilirliğini artırmada, ileri düzey metodolojilerin demokratikleşmesini teşvik etmede ve araştırmaların gerçek dünyadaki uygulama hızını artırmada önemli bir rol oynar.

Sonuç olarak, Paper2Agent araştırma makalelerinin kullanılabilirliğini en üst düzeye çıkaran ve bilimsel bilginin etkileşimli, işbirlikçi biçimde yayılmasını mümkün kılan yenilikçi bir platform olarak konumlanacaktır.

Makale özeti (Abstract)

Araştırma makalelerini yapay zeka ajanlarına dönüştüren otomatik bir çerçeve olan Paper2Agent'i tanıtıyoruz. Paper2Agent, araştırma çıktılarını pasif ürünlerden aktif sistemlere dönüştürerek sonraki kullanım, benimseme ve keşfi hızlandırmayı amaçlar. Geleneksel araştırma makaleleri, okuyucuların makalenin kodunu, verisini ve yöntemlerini anlamak ve kendi çalışmalarına uyarlamak için önemli ölçüde çaba harcamasını gerektirir; bu da yayılım ve yeniden kullanım önünde engeller oluşturur. Paper2Agent, bir makaleyi bilgili bir araştırma asistanı gibi davranan bir yapay zeka ajanına otomatik olarak dönüştürerek bu sorunu çözer. Sistem, makale ve ilişkili kod tabanını birden fazla ajan kullanarak sistematik biçimde analiz eder, bir Model Context Protocol (MCP) sunucusu inşa eder, ardından ortaya çıkan MCP'yi iyileştirip daha sağlam hale getirmek için yinelemeli olarak testler üretip çalıştırır. Bu makale MCP'leri daha sonra, özgün makaledeki araçları ve iş akışlarını çağırırken doğal dil üzerinden karmaşık bilimsel sorgular yürütmek üzere bir sohbet ajanına (ör. Claude Code) esnek biçimde bağlanabilir. Derinlemesine vaka çalışmalarıyla Paper2Agent'in güvenilir ve yetkin makale ajanları üretmedeki etkinliğini gösteriyoruz. Paper2Agent, AlphaGenome'dan yararlanarak genomik varyantları yorumlayan bir ajan ve ScanPy ile TISSUE tabanlı olarak tek hücre ve uzamsal transkriptomik analizler gerçekleştiren ajanlar oluşturdu. Bu makale ajanlarının özgün makalenin sonuçlarını yeniden üretebildiğini ve yeni kullanıcı sorgularını doğru şekilde yerine getirebildiğini doğruluyoruz. Statik makaleleri dinamik ve etkileşimli yapay zeka ajanlarına dönüştürerek Paper2Agent, bilgi yayılımı için yeni bir paradigma ve yapay zeka yardımcı bilim insanlarının işbirlikçi ekosistemi için bir temel sunuyor.
> We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting a paper into an AI agent that acts as a knowledgeable research assistant. It systematically analyzes the paper and the associated codebase using multiple agents to construct a Model Context Protocol (MCP) server, then iteratively generates and runs tests to refine and robustify the resulting MCP. These paper MCPs can then be flexibly connected to a chat agent (e.g. Claude Code) to carry out complex scientific queries through natural language while invoking tools and workflows from the original paper. We demonstrate Paper2Agent's effectiveness in creating reliable and capable paper agents through in-depth case studies. Paper2Agent created an agent that leverages AlphaGenome to interpret genomic variants and agents based on ScanPy and TISSUE to carry out single-cell and spatial transcriptomics analyses. We validate that these paper agents can reproduce the original paper's results and can correctly carry out novel user queries. By turning static papers into dynamic, interactive AI agents, Paper2Agent introduces a new paradigm for knowledge dissemination and a foundation for the collaborative ecosystem of AI co-scientists.

Makale bağlantısı

https://arxiv.org/abs/2509.06917

Daha fazlası

https://github.com/jmiao24/Paper2Agent

https://huggingface.co/spaces/Paper2Agent/alphagenome_agent

Paralel düşünme: pekiştirmeli öğrenme yoluyla paralel düşünme yeteneğini geliştirme yöntemi / Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Makale tanıtımı

Paralel düşünme, büyük dil modellerinin (LLM) akıl yürütme yeteneklerini geliştirmek için birden fazla akıl yürütme yolunu aynı anda keşfeden yenilikçi bir yaklaşımdır. Ancak mevcut denetimli öğrenme (Supervised Fine-Tuning, SFT) yöntemleri sentetik verilere dayanır; bu da modelin yalnızca basit taklit öğrenmesine yönelmesine, keşif ve genellemenin ise sınırlanmasına neden olur. Bu sorunu çözmek için önerilen Parallel-R1, karmaşık gerçek dünya problemlerinin çözümünde paralel düşünme davranışlarını mümkün kılan ilk pekiştirmeli öğrenme (Reinforcement Learning, RL) çerçevesidir.

Parallel-R1, kademeli bir müfredatla önce kolay problemleri öğrenen, ardından RL aracılığıyla daha zor problemler üzerinde paralel düşünme yeteneğini keşfedip genelleyen iki aşamalı bir eğitim süreci benimser. Bu süreçte modelin, ilk aşamada paralel düşünmeyi bir keşif stratejisi olarak kullandığı, sonraki aşamada ise bunu çok yönlü doğrulama için bir stratejiye dönüştürdüğü görülür. Deney sonuçlarına göre Parallel-R1, çeşitli matematik kıyaslamalarında mevcut sıralı düşünme modellerine kıyasla doğrulukta %8,4 artış sağlamış, özellikle AIME25 kıyaslamasında %42,9 performans iyileşmesi kaydetmiştir.

Bu araştırmanın başlıca katkısı, paralel düşünme için bir RL çerçevesi önererek modelin paralel düşünmeyi kendi başına öğrenmesini sağlamasıdır. Ayrıca paralel düşünmenin keşif mekanizması sayesinde model, politika uzayında daha etkili bölgelere yönlendirilir ve bu da nihai politika öğrenimine yapısal katkı sunar. Parallel-R1, LLM'lerin akıl yürütme yeteneklerini geliştirmek için önemli bir temel kaynak olarak kullanılabilir ve gelecekteki çalışmalarda paralel düşünme kavramının daha da ilerletilmesine katkı sağlaması beklenmektedir.

Makale özeti (Abstract)

Paralel düşünme, büyük dil modellerinin (LLM) akıl yürütme yeteneklerini geliştirmek için birden fazla akıl yürütme yolunu aynı anda keşfeden yeni bir yaklaşımdır. Ancak bu yeteneği eğitim yoluyla etkinleştirmek hâlâ zorludur; çünkü mevcut yöntemler çoğunlukla sentetik veriler üzerinde denetimli ince ayara (SFT) dayanmakta ve keşif ile genellemeden çok öğretmen zorlamalı taklidi teşvik etmektedir. Buna karşılık, karmaşık gerçek dünya akıl yürütme görevleri için paralel düşünme davranışlarını mümkün kılan ilk pekiştirmeli öğrenme (RL) çerçevesi olan \textbf{Parallel-R1}'i öneriyoruz. Çerçevemiz, RL ile paralel düşünme eğitimindeki soğuk başlangıç sorununu açıkça ele alan kademeli bir müfredat kullanır. Önce daha kolay görevlerden üretilen prompt tabanlı yörüngeler üzerinde SFT kullanarak paralel düşünme yeteneğini aşılıyor, ardından bu beceriyi daha zor problemlerde keşfetmek ve genellemek için RL'ye geçiyoruz. MATH, AMC23 ve AIME dahil çeşitli matematik kıyaslamaları üzerindeki deneyler, Parallel-R1'in paralel düşünmeyi başarıyla kazandırdığını ve zorlu görevlerde doğrudan RL ile eğitilen sıralı düşünme modeline göre doğrulukta %8,4 iyileşme sağladığını göstermektedir. Ek analizler, modelin düşünme davranışında belirgin bir değişim ortaya koymaktadır: erken aşamada paralel düşünmeyi bir keşif stratejisi olarak kullanırken, daha sonraki aşamada aynı yeteneği çok perspektifli doğrulama için kullanmaktadır. En önemlisi, paralel düşünmenin bir \textbf{eğitimin orta safhasındaki keşif iskelesi} olarak işlev gördüğünü doğruladık; bu geçici keşif aşaması, RL sonrasında daha yüksek bir performans tavanının açılmasına katkı sağlayarak AIME25'te temel çizgiye göre %42,9 iyileşme getirmiştir. Modelimiz, verilerimiz ve kodumuz https://github.com/zhengkid/Parallel-R1 adresinde açık kaynak olarak sunulacaktır.
> Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.

Makale bağlantısı

https://arxiv.org/abs/2509.07980

Daha fazlası

https://zhengkid.github.io/Parallel_R1.github.io/

https://github.com/zhengkid/Parallel-R1

Büyük dil modelleriyle arama ve yapılandırma destekli üretim üzerine bir derleme / A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

Makale tanıtımı

Büyük dil modelleri (LLM'ler), doğal dil işleme alanında devrim niteliğinde ilerlemeler sağlamış olsa da gerçek uygulamalarda halüsinasyon üretimi, güncelliğini yitirmiş bilgi ve sınırlı alan uzmanlığı gibi sorunlarla karşı karşıyadır. Bu sınırlamaları aşmak için önerilen arama ve yapılandırma destekli üretim (Retrieval And Structuring, RAS) yaklaşımı, dinamik bilgi erişimi ile yapılandırılmış bilgi temsillerini birleştirerek LLM'lerin performansını artırmaya katkı sağlar. Bu çalışma, dış bilgiye erişim için çeşitli arama mekanizmalarını incelemekte ve seyrek (sparse), yoğun (dense) ve hibrit (hybrid) yaklaşımları kapsamaktadır. Bu arama mekanizmaları, LLM'lerin daha doğru ve güvenilir bilgi üretmesini destekler.

Ayrıca, yapılandırılmamış metni düzenli temsillere dönüştüren metin yapılandırma teknolojisi de önemli bir rol oynar. Taksonomi oluşturma, hiyerarşik sınıflandırma, bilgi çıkarımı gibi yöntemler sayesinde LLM'ler belirli alanlardaki uzmanlığını artırır ve karmaşık sorgular için çok adımlı akıl yürütmeyi mümkün kılar. RAS, bu tür yapılandırılmış temsilleri LLM'lerle birleştirerek, prompt tabanlı yöntemler, akıl yürütme çerçeveleri ve bilgi gömme teknikleri aracılığıyla LLM'lerin yanıt üretme yeteneğini geliştirir.

Bu çalışma, RAS'ın teknik zorluklarını tanımlıyor ve arama verimliliği, yapı kalitesi ve bilgi entegrasyonunun önemini vurguluyor. Ayrıca çok modlu arama, diller arası yapılar ve etkileşimli sistemler gibi gelecekteki araştırma fırsatlarını ortaya koyarak LLM'lerin uygulanabilirlik alanını genişletmeyi amaçlıyor. RAS yaklaşımı, LLM performansını en üst düzeye çıkarabilecek yenilikçi bir metodoloji olarak doğal dil işleme alanının gelişimine katkı sunması bekleniyor.

Makale özeti (Abstract)

Büyük dil modelleri (LLM'ler), metin üretimi ve akıl yürütmedeki dikkat çekici yetenekleriyle doğal dil işlemeyi dönüştürdü. Ancak bu modeller, gerçek dünya uygulamalarında kullanıma alındığında halüsinasyon üretimi, güncelliğini yitirmiş bilgi ve sınırlı alan uzmanlığı gibi kritik zorluklarla karşı karşıya kalır. Retrieval And Structuring (RAS) Augmented Generation, dinamik bilgi erişimini yapılandırılmış bilgi temsilleriyle entegre ederek bu sınırlamaları giderir. Bu derleme, (1) harici bilgiye erişim için seyrek, yoğun ve hibrit yaklaşımlar dahil olmak üzere arama mekanizmalarını inceler; (2) yapılandırılmamış metni düzenli temsillere dönüştüren taksonomi oluşturma, hiyerarşik sınıflandırma ve bilgi çıkarımı gibi metin yapılandırma tekniklerini ele alır; ve (3) bu yapılandırılmış temsillerin prompt tabanlı yöntemler, akıl yürütme çerçeveleri ve bilgi gömme teknikleri aracılığıyla LLM'lerle nasıl entegre edildiğini araştırır. Ayrıca arama verimliliği, yapı kalitesi ve bilgi entegrasyonundaki teknik zorlukları tanımlar ve çok modlu arama, diller arası yapılar ve etkileşimli sistemlerdeki araştırma fırsatlarını öne çıkarır. Bu kapsamlı genel bakış, araştırmacılara ve uygulayıcılara RAS yöntemleri, uygulamaları ve gelecekteki yönelimler hakkında içgörü sunar.

Large Language Models (LLMs) have revolutionized natural language processing with their remarkable capabilities in text generation and reasoning. However, these models face critical challenges when deployed in real-world applications, including hallucination generation, outdated knowledge, and limited domain expertise. Retrieval And Structuring (RAS) Augmented Generation addresses these limitations by integrating dynamic information retrieval with structured knowledge representations. This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques. It also identifies technical challenges in retrieval efficiency, structure quality, and knowledge integration, while highlighting research opportunities in multimodal retrieval, cross-lingual structures, and interactive systems. This comprehensive overview provides researchers and practitioners with insights into RAS methods, applications, and future directions.

Makale bağlantısı

https://arxiv.org/abs/2509.10697

ParaThinker: LLM test zamanı hesaplamasını ölçeklendirmek için yeni bir paradigma olarak yerel paralel düşünme / ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

Makale tanıtımı

Büyük dil modellerinin (LLM'ler) gelişimi, son dönemde büyük ölçüde test zamanı hesaplamasını ölçeklendirme stratejilerine dayanıyor ve bu da modellerin akıl yürütme yeteneklerini geliştirmeye katkı sağlıyor. Ancak bu yaklaşım, hesaplama miktarı arttıkça performans kazanımlarının sınırlı kalması şeklinde bir darboğazla karşılaşıyor. Bu sorun, "Tunnel Vision" olarak adlandırılan olguya dayanır; erken aşamalardaki eksik akıl yürütme, modeli optimal olmayan yollara kilitler. Bunu çözmek için önerilen yeni paradigma olan Native Thought Parallelism, birden fazla farklı akıl yürütme yolunu aynı anda üretip bunları birleştirerek nihai yanıtı elde etme yöntemidir.

ParaThinker adlı uçtan uca çerçeve, bu düşünce paralelliğini hayata geçirmeye odaklanıyor. Sistem, modelin bağımsız olarak farklı düşünce yolları üretmesi için eğitilmesini sağlar; böylece Tunnel Vision sorunundan etkili biçimde kaçınılır ve modelin potansiyel akıl yürütme kapasitesi en üst düzeye çıkarılır. ParaThinker bu hedefe üç temel yenilikle ulaşır. Birincisi, her yolun özgünlüğünü güvence altına almak için eğitilebilir kontrol token'ları sunar; ikincisi, düşünceye özgü konumsal gömmeler sayesinde her yolun kaynağını açık biçimde ayırt eder; üçüncüsü ise modelin daha fazla paralel yol üretebilmesini sağlamak için denetimli ince ayar (Supervised Fine-Tuning) stratejisini kullanır.

Bu yaklaşım, zorlu akıl yürütme benchmark'larında mevcut otoregresif akıl yürütme modelleriyle karşılaştırıldığında 1.5B modelde ortalama %12,3, 7B modelde ise ortalama %7,5 doğruluk artışı sağlarken, gecikme yalnızca %7,1 gibi sınırlı bir seviyede kalıyor. Bu da ParaThinker'ın, daha küçük modellerin çok daha büyük modelleri geride bırakabilme olasılığını ortaya koyduğunu ve LLM'lerin gelecekteki ölçeklenmesi için yeni bir yol sunduğunu gösteriyor. Araştırma sonuçları, LLM'lerin akıl yürütme sürecinde ortaya çıkan darboğazları açıklığa kavuşturuyor ve Native Thought Parallelism'in daha iyi bir ölçeklendirme yöntemi olduğunu kanıtlayarak LLM araştırmaları alanına önemli katkı sağlıyor.

Makale özeti (Abstract)

Son dönemde büyük dil modellerindeki (LLM) ilerlemeler, test zamanı hesaplama ölçeğinin büyümesiyle hız kazandı. Bu, daha uzun ve ardışık düşünme süreçleri üreterek akıl yürütmeyi geliştiren bir stratejidir. Etkili olsa da bu yaklaşım, hesaplama arttıkça ciddi bir darboğazla karşılaşıyor; ek hesaplama yalnızca sınırlı performans artışı sağlıyor. Biz bu sınırın modelin yeteneklerine içkin bir sınırlama değil, ölçekleme stratejisinin kendisindeki bir kusur olduğunu savunuyoruz. Bu olguyu, modelin kusurlu ilk adımlarının onu optimal olmayan bir akıl yürütme yoluna kilitlemesi anlamında "tünel görüşü" olarak adlandırıyoruz. Bunu aşmak için yeni bir ölçekleme paradigması olan yerel düşünce paralelliğini tanıtıyoruz. ParaThinker adlı uçtan uca bir çerçeve sunuyoruz; bu çerçeve, LLM'yi birden fazla çeşitli akıl yürütme yolunu paralel biçimde üretip bunları daha üstün bir nihai yanıta sentezleyecek şekilde eğitiyor. ParaThinker, farklı düşünce hatlarını aynı anda keşfederek tünel görüşü sorununu etkili biçimde bertaraf ediyor ve modelin gizil akıl yürütme potansiyelini ortaya çıkarıyor. Yaklaşımımız, hesaplamayı paralel olarak ölçeklemenin (genişlik), yalnızca ardışık olarak ölçeklemekten (derinlik) daha üstün akıl yürütme için daha etkili ve verimli bir yol olduğunu gösteriyor. Zorlu akıl yürütme benchmark'larında ParaThinker, ardışık LLM'lere kıyasla anlamlı doğruluk artışları elde etti (1.5B modelde ortalama %12,3, 7B modelde ortalama %7,5 artış) ve buna rağmen gecikme ek yükü ihmal edilebilir düzeyde kaldı (%7,1). Bu, daha küçük modellerin çok daha büyük modelleri geride bırakabilmesini sağlıyor ve paralel düşünmeyi gelecekteki LLM ölçeklemesi için kritik ve verimli bir boyut olarak konumlandırıyor.

Recent advances in Large Language Models (LLMs) have been driven by test-time compute scaling - a strategy that improves reasoning by generating longer, sequential thought processes. While effective, this approach encounters a significant bottleneck as computation increases, where further computation offers only marginal performance gains. We argue this ceiling is not an inherent limit of the model's capability but a flaw in the scaling strategy itself, a phenomenon we term "Tunnel Vision", where a model's imperfect initial steps lock it into a suboptimal reasoning path. To overcome this, we introduce a new scaling paradigm: native thought parallelism. We present ParaThinker, an end-to-end framework that trains an LLM to generate multiple, diverse reasoning paths in parallel and synthesize them into a superior final answer. By exploring different lines of thoughts simultaneously, ParaThinker effectively sidesteps the Tunnel Vision issue and unlocks the model's latent reasoning potential. Our approach demonstrates that scaling compute in parallel (width) is a more effective and efficient way to superior reasoning than simply scaling sequentially (depth). On challenging reasoning benchmarks, ParaThinker achieves substantial accuracy improvements over sequential LLMs (12.3% for 1.5B and 7.5% for 7B models on average with 8 parallel paths), while adding only negligible latency overhead (7.1%). This enables smaller models to surpass much larger counterparts and establishes parallel thinking as a critical, efficient dimension for scaling future LLMs.

Makale bağlantısı

https://arxiv.org/abs/2509.04475

Zaman serisi foundation modelleri için in-context fine-tuning / In-Context Fine-Tuning for Time-Series Foundation Models

Makale tanıtımı

Zaman serisi verilerinin tahmini, birçok alanda önemli bir görevdir ve son dönemde zaman serisi foundation modellerindeki gelişmeler bu sorun için yeni olanaklar açmaktadır. Bu çalışma, bu modellerin performansını en üst düzeye çıkarmak için $\textit{in-context fine-tuning}$ adlı yeni bir yöntem öneriyor. Bu yöntem, önceden eğitilmiş foundation modelin birden fazla zaman serisi örneğini kullanarak belirli bir zaman serisini geleceğe dönük tahmin edebilmesi için tasarlanmıştır.

Önerilen model, hedef zaman serisinin geçmişinin yanı sıra ilişkili zaman serisi örneklerini de context window içinde kullanarak, çıkarım sırasında hedef alanın kendine özgü dağılımına uyum sağlayacak şekilde eğitilir. Bu yaklaşım, modelin çeşitli zaman serilerindeki örüntüleri öğrenmesini ve buna dayanarak daha doğru tahminler yapmasını sağlar. Deney sonuçları, bu modelin gözetimli öğrenme tabanlı derin öğrenme yöntemlerine, istatistiksel modellere ve mevcut diğer zaman serisi foundation modellerine kıyasla belirgin biçimde üstün performans gösterdiğini ortaya koydu.

Özellikle, in-context fine-tuning yaklaşımı, hedef alan için açıkça fine-tune edilmiş modellerle de rekabet edebilecek bir performans sergileyerek bu yöntemin yenilikçi yönünü öne çıkarıyor. Model mimarisi, zaman serisi verilerini etkili biçimde işleyebilmek üzere TimesFM temel alınarak oluşturuldu. Girdi örnekleri, uzunluğu $p$ olan parçalara bölünerek işleniyor ve padding mask sayesinde tahmin doğruluğu güvence altına alınıyor.

Tokenization sürecinde, patch ve mask birleştirilerek oluşturulan token'lar üst üste yığılmış transformer katmanlarına veriliyor ve buradan tahmin sonuçları üretiliyor. Bu süreçlerin tamamı, modelin girdi verisini etkili şekilde işlemesinde ve sonraki $h$ adımlık zaman serisini tahmin etmesinde önemli rol oynuyor. Bu çalışma, zaman serisi verisi tahmini için yeni bir yaklaşım sunuyor ve in-context fine-tuning'in mevcut yöntemlerden daha üstün performans gösterebildiğini ampirik olarak ortaya koyuyor.

Makale özeti (Abstract)

Son dönemde sıfır atış tahmin için zaman serisi foundation modellerinin elde ettiği başarıdan hareketle, zaman serisi foundation modelinin $\textit{bağlam içi ince ayarı}$ için bir metodoloji sunuyoruz. Özellikle, geleceğe yönelik bir hedef zaman serisini tahmin edebilmek için çıkarım sırasında birden fazla zaman serisi örneğiyle prompt verilebilen, önceden eğitilmiş bir foundation model tasarlıyoruz. Foundation modelimiz, hedef zaman serisinin geçmişine ek olarak bağlam penceresindeki birden fazla ilişkili zaman serisi örneğini kullanacak şekilde özel olarak eğitildi; bu da çıkarım sırasında hedef alanın belirli dağılımına uyum sağlamasına yardımcı oluyor. Çıkarım sırasında bağlam içi örnekler kullanan bu tür bir foundation modelin, denetimli derin öğrenme yöntemleri, istatistiksel modeller ve diğer zaman serisi foundation modellerine kıyasla popüler tahmin benchmark'larında çok daha iyi performans elde edebildiğini gösteriyoruz. İlginç biçimde, bağlam içi ince ayar yaklaşımımız, hedef alanda açıkça ince ayar yapılmış bir foundation modelin performansıyla da rekabet edebiliyor.
> Motivated by the recent success of time-series foundation models for zero-shot forecasting, we present a methodology for $\textit{in-context fine-tuning}$ of a time-series foundation model. In particular, we design a pretrained foundation model that can be prompted (at inference time) with multiple time-series examples, in order to forecast a target time-series into the future. Our foundation model is specifically trained to utilize examples from multiple related time-series in its context window (in addition to the history of the target time-series) to help it adapt to the specific distribution of the target domain at inference time. We show that such a foundation model that uses in-context examples at inference time can obtain much better performance on popular forecasting benchmarks compared to supervised deep learning methods, statistical models, as well as other time-series foundation models. Interestingly, our in-context fine-tuning approach even rivals the performance of a foundation model that is explicitly fine-tuned on the target domain.

Makale bağlantısı

https://arxiv.org/abs/2410.24087

Daha fazlasını okuyun

https://research.google/blog/…

https://icml.cc/virtual/2025/poster/43707

Sadece 1 bit yeter: ikili normalleştirilmiş sinir ağları / 1 bit is all we need: binary normalized neural networks

Makale tanıtımı

Büyük ölçekli sinir ağı modellerindeki gelişmeler, çeşitli uygulama alanlarında üstün performans sağlasa da bu modellerin boyutlarının artması bellek gereksinimleri ve hesaplama verimliliği açısından zorluklar yaratıyor. Bu çalışma, bu sorunları çözmek için tüm katmanların parametrelerini tek bir bitle sınırlayan yeni bir sinir ağı modeli türü olan ikili normalleştirilmiş katmanı (binary normalized layer) öneriyor. Bu katman, çekirdek ağırlıkları ve bias dahil tüm parametreleri 0 veya 1 olarak ayarlayarak, bellek kullanımını çarpıcı biçimde azaltırken geleneksel 32 bit kayan noktalı parametreler kullanan modellerle benzer performansı koruyacak şekilde tasarlandı.

İkili normalleştirilmiş katman; tam bağlantılı, konvolüsyon ve attention gibi çeşitli sinir ağı mimarilerine uygulanabiliyor ve eğitim sürecinde tam hassasiyetli 32 bit değerler ile ikilileştirilmiş değerler olmak üzere iki farklı biçim kullanarak istikrarlı öğrenmeyi garanti ediyor. Bu çalışmada, çok sınıflı görüntü sınıflandırma ve dil çözümleme problemlerini çözmek için ikili normalleştirilmiş katmanı kullanan iki model oluşturuldu. Deney sonuçları, bu modellerin geleneksel 32 bit parametreler kullanan modellerle neredeyse aynı performansı gösterdiğini, buna karşılık bellek kullanımının 32 kat azaldığını ortaya koyuyor.

Bu yenilikçi yaklaşım, büyük ölçekli sinir ağı modellerinin verimliliğini önemli ölçüde artırma potansiyeline sahip ve düşük maliyetli donanımlarda da kolayca uygulanabilme avantajı taşıyor. İkili normalleştirilmiş katman, sinir ağı modellerinin bellek gereksinimlerini azaltıp çeşitli uygulama alanlarındaki pratikliğini artırmak için yeni olanaklar sunuyor. Gelecekteki çalışmaların, ikili normalleştirilmiş katmanın performansını daha da iyileştirmeye ve onu farklı alanlara uygulayabilecek yöntemleri araştırmaya yönelmesi bekleniyor.

Makale özeti (Abstract)

Aşağıda AI/ML alanındaki makale özetleri yer alıyor. Büyük sinir ağı modellerinin, özellikle dil modelleri ile temel görüntü modellerinin boyutu arttıkça dağıtım açısından zorluklar ortaya çıkıyor; bu da bellek gereksinimlerini azaltma ve hesaplama verimliliğini artırma çalışmalarını tetikliyor. Bu çalışmalar, söz konusu modellerin çeşitli uygulamalarda pratik biçimde dağıtılmasını ve etkili şekilde kullanılmasını sağlamak açısından kritik önem taşıyor. Bu çalışmada, yalnızca tek bitlik parametreler kullanan yeni bir sinir ağı katmanı ve model türü geliştirildi. Bu yeni model türünde, kernel ağırlıkları ve bias’lar dahil tüm katmanlardaki tüm parametreler yalnızca 0 veya 1 değerini alıyor. Bu yeni model türü, binary normalized layer adı verilen katmanları kullanıyor. Bu binary normalized layer katmanları, fully connected, convolutional, attention gibi her türden olabilir ve ilgili geleneksel katmanların küçük varyasyonlarından oluşur. Binary normalized layer katmanlarının etkinliğini göstermek için, çok sınıflı görüntü sınıflandırma problemini çözmeye yönelik iki model ve bir dizideki sonraki token’ı tahmin etmeye yönelik bir dil çözücüsü yapılandırıldı. Görüntü sınıflandırma için geliştirilen model convolutional ve fully connected katmanlardan oluşurken, dil modeli multi-head attention içeren transformer bloklarından oluşuyor. Sonuçlar, binary normalized layer katmanlarına sahip modellerin, gerçek 32 bitlik parametrelere sahip eşdeğer modellerle elde edilen sonuçlarla neredeyse aynı sonuçları verdiğini gösteriyor. Binary normalized layer katmanları, mevcut modellere göre 32 kat daha az bellek kullanan ve eşdeğer performans sunan modeller geliştirmeyi mümkün kılıyor. Ayrıca binary normalized layer katmanları, 1 bitlik diziler kullanılarak güncel bilgisayarlarda kolayca uygulanabiliyor ve özel elektronik donanım geliştirilmesini gerektirmiyor. Bu yeni katman türü, mobil cihazlar veya yalnızca CPU’lar gibi basit ve ucuz donanımlar üzerinde dağıtılabilecek, bellek gereksinimi azaltılmış büyük sinir ağı modelleri için yeni bir dönemin kapısını açıyor.
> Büyük sinir ağı modellerinin, özellikle dil modelleri ve temel görüntü modellerinin artan boyutu, dağıtım zorlukları yaratmakta ve bellek gereksinimlerini azaltma ile hesaplama verimliliğini artırma yönündeki çabaları teşvik etmektedir. Bu çabalar, bu modellerin çeşitli uygulamalarda pratik biçimde dağıtılmasını ve etkili şekilde kullanılmasını sağlamak açısından kritik önemdedir. Bu çalışmada, yalnızca tek bitlik parametreler kullanan yeni bir sinir ağı katmanı ve model türü geliştirilmiştir. Bu yeni model türünde, kernel ağırlıkları ve bias’lar dahil tüm katmanlardaki tüm parametreler yalnızca sıfır ya da bir değerine sahiptir. Bu yeni model türü, binary normalized layer olarak adlandırılan katmanları kullanır. Bu binary normalized layer katmanları, fully connected, convolutional, attention gibi her türden olabilir ve karşılık gelen geleneksel katmanların küçük varyasyonlarından oluşur. Binary normalized layer katmanlarının etkinliğini göstermek için, çok sınıflı bir görüntü sınıflandırma problemini çözmeye yönelik iki farklı model ve bir dizinin sonraki token’ını tahmin eden bir dil çözücüsü yapılandırılmıştır. Görüntü sınıflandırma problemini çözmeye yönelik model convolutional ve fully connected katmanlar içerirken, dil modeli multi-head attention içeren transformer bloklarından oluşur. Sonuçlar, binary normalized layer katmanlarına sahip modellerin, gerçek 32 bitlik parametrelere sahip eşdeğer modellerle elde edilen sonuçlarla neredeyse aynı sonuçları verdiğini göstermektedir. Binary normalized layer katmanları, mevcut modellere göre 32 kat daha az bellek kullanan ve eşdeğer performansa sahip modeller geliştirmeyi mümkün kılar. Ayrıca binary normalized layer katmanları, 1 bitlik diziler kullanılarak güncel bilgisayarlarda kolayca uygulanabilir ve özel elektronik donanım geliştirilmesini gerektirmez. Bu yeni katman türü, mobil cihazlar veya yalnızca CPU’lar gibi basit ve ucuz donanımlar kullanılarak dağıtılabilecek, bellek gereksinimi azaltılmış büyük sinir ağı modelleri için yeni bir dönemin kapısını açmaktadır.

Makale bağlantısı

https://arxiv.org/abs/2509.07025

Dil Modellerinde Öz Tutarlılığın İçselleştirilmesi: Çok Ajanlı Uzlaşı Hizalaması / Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment

Makale tanıtımı

Dil modelleri (LM), aynı prompt için çelişkili yanıtlar üretme eğilimindedir ve bu nedenle tutarsız akıl yürütme sergiler. Mevcut çıkarım zamanı yöntemleri bu tür uyumsuzlukları hafifletebilse de, tutarlı sonuçlar üreten akıl yürütme yolunu seçmenin zorluğu şeklindeki temel sorunu çözmez. Bu sorunu ele almak için bu çalışma, öz tutarlılığı iyi hizalanmış akıl yürütme modellerinin içsel bir özelliği olarak biçimselleştiriyor ve Çok Ajanlı Uzlaşı Hizalaması (Multi-Agent Consensus Alignment, MACA) adlı bir pekiştirmeli öğrenme çerçevesi sunuyor. MACA, modelin iç uzlaşıyla uyumlu akıl yürütme yollarını tercih etmesini sağlamak için çoğunluk/azınlık sonuçlarından yararlanarak sonradan eğitim uygular. Bu yollar, ajanlar arasındaki derin tartışmalardan doğar ve bağımsız denemelerin bir toplamı yerine akran argümanlarına dayalı akıl yürütme üzerinden daha zengin uzlaşı sinyalleri üretir. MACA, ajanların dış denetim olmadan daha kararlı ve daha özlü biçimde kendi kendine öğrenmesini sağlar ve çeşitli öz tutarlılık, tek ajanlı akıl yürütme, örnekleme tabanlı akıl yürütme ve çok ajanlı toplu karar verme görevlerinde kayda değer iyileşmeler sunar. Bu sonuçlar, görülmemiş benchmark’lara güçlü genelleme yeteneğiyle birlikte, dil modellerinin gizil akıl yürütme kapasitesini daha güvenilir biçimde ortaya çıkaran güçlü bir öz hizalamayı göstermektedir.

Makale özeti (Abstract)

Dil modelleri (LLM), tutarsız akıl yürüten sistemlerdir ve aynı prompt için sıklıkla birbiriyle çelişen yanıtlar üretir. Çıkarım zamanı yöntemleri bu tutarsızlıkları hafifletebilse de temel sorunu çözemez: LLM’ler, keşif amaçlı örnekleme altında tutarlı sonuçlara götüren akıl yürütme yollarını güvenilir biçimde seçmekte zorlanır. Bunu ele almak için, öz-tutarlılığı iyi hizalanmış akıl yürütme modellerinin içsel bir özelliği olarak biçimselleştiriyor ve Multi-Agent Consensus Alignment (MACA) yöntemini tanıtıyoruz. MACA, çok ajanlı tartışmalardaki çoğunluk/azınlık sonuçlarını kullanarak modelleri, iç uzlaşılarıyla uyumlu akıl yürütme izleklerini tercih edecek şekilde sonradan eğiten bir pekiştirmeli öğrenme çerçevesidir. Bu izlekler, ajanların akıl yürütmelerini akranlarının argümanlarına dayandırdığı müzakereci etkileşimlerden doğar; yani bağımsız denemelerin basit bir toplamı değil, tek turlu çoğunluk oylamasından daha iyi sonuç veren daha zengin uzlaşı sinyalleri üretir. MACA, dış denetim olmadan ajanların çok ajanlı ortamlarda akran içgörülerinden daha iyi yararlanmasını ve kendilerine daha kararlı ve daha özlü biçimde öğretmesini sağlar. Bunun sonucunda öz-tutarlılıkta (GSM8K üzerinde +27.6%), tek ajanlı akıl yürütmede (MATH üzerinde +23.7%), örnekleme tabanlı çıkarımda (MATH üzerinde +22.4% Pass@20) ve çok ajanlı ansambl karar vermede (MathQA üzerinde +42.7%) önemli iyileşmeler elde edilir. Bu bulgular, görülmemiş benchmark’lara güçlü genelleme (GPQA üzerinde +16.3%, CommonsenseQA üzerinde +11.6%) ile birleştiğinde, dil modellerinin örtük akıl yürütme potansiyelini daha güvenilir biçimde açığa çıkaran sağlam bir öz-hizalamayı göstermektedir.
> Language Models (LMs) are inconsistent reasoners, often generating contradictory responses to identical prompts. While inference-time methods can mitigate these inconsistencies, they fail to address the core problem: LMs struggle to reliably select reasoning pathways leading to consistent outcomes under exploratory sampling. To address this, we formalize self-consistency as an intrinsic property of well-aligned reasoning models and introduce Multi-Agent Consensus Alignment (MACA), a reinforcement learning framework that post-trains models to favor reasoning trajectories aligned with their internal consensus using majority/minority outcomes from multi-agent debate. These trajectories emerge from deliberative exchanges where agents ground reasoning in peer arguments, not just aggregation of independent attempts, creating richer consensus signals than single-round majority voting. MACA enables agents to teach themselves to be more decisive and concise, and better leverage peer insights in multi-agent settings without external supervision, driving substantial improvements across self-consistency (+27.6% on GSM8K), single-agent reasoning (+23.7% on MATH), sampling-based inference (+22.4% Pass@20 on MATH), and multi-agent ensemble decision-making (+42.7% on MathQA). These findings, coupled with strong generalization to unseen benchmarks (+16.3% on GPQA, +11.6% on CommonsenseQA), demonstrate robust self-alignment that more reliably unlocks latent reasoning potential of language models.

Makale bağlantısı

https://arxiv.org/abs/2509.15172

Evrensel Derin Araştırma: Kendi Modelinizi ve Stratejinizi Getirin / Universal Deep Research: Bring Your Own Model and Strategy

Makale tanıtımı

Universal Deep Research (UDR), mevcut derin araştırma araçlarının belirli araştırma stratejilerini sabit bir biçimde uygulayacak şekilde hard-code edilmiş olma sınırlamasını aşmak için geliştirilen genelleştirilmiş bir ajan sistemidir. UDR, kullanıcıların kendi özel derin araştırma stratejilerini oluşturmasına, düzenlemesine ve iyileştirmesine olanak tanır; üstelik bu süreçte ek eğitim ya da fine-tuning gerektirmemesiyle yenilikçi bir yapı sunar. Sistem, en yalın araştırma stratejilerinden geniş kapsamlı ve yoğun stratejilere kadar çeşitli örneklerle kendi genelliğini ortaya koyar.

UDR’nin temelinde, deney yapmayı kolaylaştıran bir kullanıcı arayüzü yer alır; böylece araştırmacılar kendi araştırma stratejilerini özgürce keşfedebilir. Bu yaklaşım, araştırmacılara mevcut araçlara bağımlı kalmadan kendilerine özgü metodolojiler geliştirme fırsatı sunar. Özellikle UDR, çeşitli dil modellerini kapsayacak şekilde çalıştığından, kullanıcıların tercih ettikleri modeli seçip kullanabilmesine olanak veren bir esnekliğe sahiptir.

Bu çalışma, derin araştırma araçlarının gelişimine katkı sağlamayı ve araştırmacıların daha yaratıcı ve kişiselleştirilmiş araştırma stratejileri oluşturmasına yardımcı olmayı hedeflemektedir. UDR’nin kullanıma sunulmasının, araştırmanın verimliliğini ve etkinliğini artırmada önemli bir rol oynaması beklenmektedir. Bu açıdan UDR, derin araştırma alanında yeni olanakların önünü açan yenilikçi bir sistem olarak konumlanmaktadır.

Makale özeti (Abstract)

Derin araştırma araçları, bugün en etkili ve en yaygın karşılaşılan ajan tabanlı sistemler arasındadır. Ancak şimdiye kadar tanıtılan her derin araştırma ajanının, sabit bir araç seçimi kullanarak belirli bir araştırma stratejisini yürütmek üzere hard-code edildiğini gözlemliyoruz. Herhangi bir dil modelini saran ve kullanıcının ek eğitim ya da fine-tuning gerektirmeden tamamen özelleştirilmiş kendi derin araştırma stratejilerini oluşturmasına, düzenlemesine ve iyileştirmesine olanak tanıyan genel amaçlı bir ajan sistemi olan Universal Deep Research (UDR)’yi tanıtıyoruz. Sistemimizin genelliğini göstermek için UDR’yi minimal, genişletici ve yoğun araştırma stratejisi örnekleriyle donatıyor ve sistem üzerinde deney yapmayı kolaylaştırmak üzere bir kullanıcı arayüzü sunuyoruz.
> Deep research tools are among the most impactful and most commonly encountered agentic systems today. We observe, however, that each deep research agent introduced so far is hard-coded to carry out a particular research strategy using a fixed choice of tools. We introduce Universal Deep Research (UDR), a generalist agentic system that wraps around any language model and enables the user to create, edit, and refine their own entirely custom deep research strategies without any need for additional training or finetuning. To showcase the generality of our system, we equip UDR with example minimal, expansive, and intensive research strategies, and provide a user interface to facilitate experimentation with the system.

Makale bağlantısı

https://arxiv.org/abs/2509.00244

AlphaAgents: Büyük Dil Modeli Tabanlı Çoklu Ajanlarla Hisse Senedi Portföyü Oluşturma / AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

Makale tanıtımı

Büyük dil modellerinin (LLM) gelişimi, yapay zeka (AI) ajanlarının verimliliğini ve uyarlanabilirliğini en üst düzeye çıkarmaya katkı sağlıyor; bu da karmaşık problemlerin çözümü için çoklu ajan iş birliğinin önünü açıyor. Bu çalışma, hisse seçimi ve portföy yönetiminde bu tür çoklu ajan sistemlerinin rol tabanlı bir yaklaşımla nasıl kullanılabileceğini inceliyor. Araştırmanın temel amacı, birden fazla AI ajanının iş birliği yaparak hisse seçimi performansını değerlendirmesi ve bunu mevcut benchmark’larla karşılaştırmasıdır.

Çoklu ajan sistemi; temel analiz, duygu analizi ve değerleme gibi farklı uzmanlık alanlarına sahip ajanlardan oluşur ve bu ajanlar en uygun portföyü oluşturmak için birbirlerinin görüşlerini tartışır. Araştırmada rastgele seçilen 15 teknoloji hissesi üzerinde backtesting ile performans değerlendirilir; portföyün etkinliği ise risk düzeltilmiş getiri ve Sharpe oranı temelinde analiz edilir. Bu metodoloji, çoklu ajanların iş birlikçi karar alma süreci sayesinde daha iyi yatırım stratejileri geliştirilebileceğini ortaya koyuyor.

Bu çalışma, çoklu ajan sistemlerinin avantajlarını ve sınırlamalarını analiz ederken, AI ajanlarının sunduğu farklı bakış açılarını birleştirerek karar almayı iyileştirmenin yollarını da öneriyor. Ancak bu tür sistemlerin uygulanmasında, insan incelemesi yoluyla mantıksal tutarlılığın doğrulanması gibi zorluklar bulunuyor. Bulgular, çoklu ajan sistemlerinin hisse senedi portföyü oluşturmada yenilikçi bir yaklaşım sunabileceğini gösteriyor; gelecekteki çalışmalarda ise LLM’nin güvenilirliğine göre hisse ağırlıklarını ayarlama özelliğinin araştırılması planlanıyor.

Bu tür çalışmalar, AI tabanlı yatırım stratejilerinin geliştirilmesine katkı sağlıyor ve çoklu ajan sistemlerinin kullanım potansiyelini ortaya koyuyor.

Makale özeti (Abstract)

Yapay zeka (AI) ajanları alanı, büyük dil modellerinin (LLM) insan benzeri verimlilik ve uyarlanabilirlikle görevleri otonom biçimde yerine getirme ve iyileştirme yetenekleri sayesinde hızla gelişiyor. Bu bağlamda, çoklu ajan iş birliği, birden fazla AI ajanının karmaşık sorunları çözmek için birlikte çalışmasını mümkün kılan umut verici bir yaklaşım olarak öne çıkıyor. Bu çalışma, hisse araştırması ve portföy yönetiminde hisse seçimini desteklemek amacıyla rol tabanlı çoklu ajan sistemlerinin uygulanmasını inceliyor. Uzman ajanlardan oluşan bir ekibin gerçekleştirdiği kapsamlı analizi sunuyor ve farklı risk toleransı seviyelerinde hisse seçme performanslarını yerleşik benchmark’lara karşı değerlendiriyoruz. Ayrıca, hisse analizinde çoklu ajan çerçevelerinin kullanılmasının avantajlarını ve sınırlamalarını inceleyerek, bunların pratik etkinliği ve uygulama zorlukları hakkında kritik içgörüler sunuyoruz.
> The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

Makale bağlantısı

https://arxiv.org/abs/2508.11152

Büyük Akıl Yürütme Modelleri için Pekiştirmeli Öğrenme Araştırması / A Survey of Reinforcement Learning for Large Reasoning Models

Makale tanıtımı

Pekiştirmeli öğrenme (Reinforcement Learning, RL), büyük dil modellerinin (Large Language Models, LLMs) akıl yürütme yeteneklerini geliştirmede önemli bir rol oynuyor ve bu makale, RL aracılığıyla büyük akıl yürütme modellerine (Large Reasoning Models, LRM) doğru evrimi ele alıyor. RL; matematiksel problem çözme ve kodlama görevleri gibi karmaşık mantıksal işlerde öne çıkan sonuçlar sergileyerek, LLM’leri LRM’lere dönüştürmenin temel metodolojilerinden biri haline geldi. Ancak RL’nin LRM’lere ölçeklenmesi; hesaplama kaynakları, algoritma tasarımı, eğitim verisi ve altyapı açısından çeşitli zorluklarla karşı karşıya.

Bu çalışma, RL’nin LLM ve LRM’lerin akıl yürütme yeteneklerini geliştirmek için kullanıldığı çeşitli araştırmaları inceliyor; özellikle DeepSeek-R1 modeli de dahil olmak üzere son gelişmeler ışığında, ödül tasarımı, politika optimizasyonu ve örnekleme stratejileri gibi RL’nin temel bileşenlerini analiz ediyor. Ödül tasarımı, modelin öğrenme yönünü belirleyen kritik bir sinyal olarak öne çıkarken, doğrulanabilir ödül mekanizmalarının önemi vurgulanıyor. Politika optimizasyonu, modelin en iyi eylemi seçmeyi öğrenme sürecidir ve eleştirmen tabanlı algoritmalar ile eleştirmensiz algoritmaları kapsar. Ayrıca örnekleme stratejileri de RL’nin verimliliğini artırma yöntemi olarak ele alınmakta; dinamik örnekleme ve hiperparametre ayarı tartışılmaktadır.

Makale, RL yoluyla LLM’lerin entegre eğitim sürecini ve eğitim kaynaklarının kalite ile yapısının önemini vurguluyor; ayrıca yazılım mühendisliği ve robotik görevlerde RL’nin uygulama örnekleri üzerinden bu yaklaşımın pratikliğini gösteriyor. Özellikle RL ile ajan paradigmasının entegrasyonu, kod üretimindeki ilerlemeleri hızlandırıyor ve çok modlu görevlerde de başarılı sonuçlar ortaya koyuyor. Bu araştırma, LLM’lerin akıl yürütme yeteneklerini geliştirmek için yeni yönler öneriyor ve nihayetinde yapay süper zekaya (Artificial SuperIntelligence, ASI) ulaşmanın temelini atmaya katkı sağlaması bekleniyor.

Makale özeti (Abstract)

Bu makale, Büyük Dil Modelleri (LLM'ler) ile akıl yürütme için Pekiştirmeli Öğrenme (RL) alanındaki son gelişmeleri inceliyor. RL, özellikle matematik ve kodlama gibi karmaşık mantıksal görevlerin çözümünde LLM'lerin yetenek sınırlarını ileri taşımada dikkat çekici başarı elde etti. Sonuç olarak RL, LLM'leri Büyük Akıl Yürütme Modellerine (LRM'ler) dönüştürmenin temel bir yöntemi hâline geldi. Alanın hızlı ilerleyişiyle birlikte, LRM'ler için RL'nin daha da ölçeklenmesi artık yalnızca hesaplama kaynakları açısından değil, algoritma tasarımı, eğitim verisi ve altyapı açısından da temel zorluklarla karşı karşıya. Bu nedenle, bu alanın gelişimini yeniden ele almak, izlediği yolu yeniden değerlendirmek ve Yapay Süper Zeka'ya (ASI) doğru RL'nin ölçeklenebilirliğini artıracak stratejileri araştırmak için uygun bir zamandayız. Özellikle DeepSeek-R1'in yayımlanmasından bu yana, akıl yürütme yetenekleri için LLM'lere ve LRM'lere RL uygulanmasına dair araştırmaları; temel bileşenler, ana problemler, eğitim kaynakları ve aşağı akış uygulamaları dâhil olmak üzere inceliyor, bu hızla gelişen alan için gelecekteki fırsatları ve yönelimleri belirlemeyi amaçlıyoruz. Bu değerlendirmenin, daha geniş akıl yürütme modelleri için RL üzerine gelecekteki araştırmaları teşvik etmesini umuyoruz. GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
> Bu makalede, Büyük Dil Modelleri (LLM'ler) ile akıl yürütme için Pekiştirmeli Öğrenme (RL) alanındaki son gelişmeleri inceliyoruz. RL, özellikle matematik ve kodlama gibi karmaşık mantıksal görevleri ele almada, LLM yeteneklerinin sınırını ileri taşımada dikkat çekici başarılar elde etti. Sonuç olarak RL, LLM'leri LRM'lere dönüştürmek için temel bir metodoloji olarak öne çıktı. Alanın hızlı ilerlemesiyle birlikte, LRM'ler için RL'nin daha fazla ölçeklenmesi artık yalnızca hesaplama kaynaklarında değil, algoritma tasarımı, eğitim verisi ve altyapıda da temel zorluklarla karşı karşıya. Bu amaçla, bu alanın gelişimini yeniden gözden geçirmek, yönelimini yeniden değerlendirmek ve Yapay Süper Zeka'ya (ASI) doğru RL'nin ölçeklenebilirliğini artıracak stratejileri keşfetmek için doğru bir zamandayız. Özellikle, DeepSeek-R1'in yayımlanmasından bu yana akıl yürütme yetenekleri için LLM'lere ve LRM'lere RL uygulayan araştırmaları; temel bileşenler, ana problemler, eğitim kaynakları ve aşağı akış uygulamaları dâhil olmak üzere inceliyor, bu hızla gelişen alan için gelecekteki fırsatları ve yönelimleri belirlemeyi hedefliyoruz. Bu değerlendirmenin, daha geniş akıl yürütme modelleri için RL üzerine gelecekteki araştırmaları teşvik edeceğini umuyoruz. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

Makale bağlantısı

https://arxiv.org/abs/2509.08827

Daha fazlası

https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, öne çıkan yazıları size e-posta💌 ile göndeririz! (Varsayılan ayar Weekly'dir, ancak Daily olarak da değiştirilebilir.)

[2025/09/22 ~ 28] Bu hafta göz atmaya değer AI/ML makaleleri derlemesi