Local Deep Research - Yerelde Kendi Araştırma Asistanını Çalıştır

(github.com/LearningCircuit)

16 puan yazan GN⁺ 2025-03-12 | 4 yorum | WhatsApp'ta paylaş

Güçlü, yapay zeka tabanlı bir araştırma aracı; birden fazla LLM ve web aramasını kullanarak derinlemesine yinelemeli analizler gerçekleştirir
- ArXiv, Wikipedia, Google, PubMed, DuckDuckGo, SerpAPI, yerel RAG, The Guardian ve daha fazlasının arama özelliklerini entegre eder
Yerelde çalıştırılarak gizlilik güçlendirilebilir veya performansı artırmak için bulut tabanlı LLM'ler yapılandırılabilir

Gelişmiş araştırma özellikleri

Otomatikleştirilmiş derin araştırma: Akıllı takip soruları üretimi
Kaynak takibi ve doğrulama: Alıntıların ve kaynakların otomatik takibi
Yinelemeli analiz: Çok aşamalı yinelemeli analizle kapsamlı kapsama
Tüm web sayfası içeriği analizi: Snippet'ler yerine tam içerik üzerinden analiz

Esnek LLM desteği

Yerel model desteği: Ollama tabanlı yerel yapay zeka işleme
Bulut model desteği: Claude, GPT gibi bulut LLM desteği
Langchain model uyumluluğu: Çeşitli Langchain modelleri desteği
Model seçimi: Performans, yanıt hızı vb. ölçütlere göre model yapılandırma

Zengin çıktı seçenekleri

Ayrıntılı araştırma sonuçları: Alıntılar içeren ayrıntılı raporlar sunar
Kapsamlı araştırma raporu: Bütünlüklü araştırma sonuçları sunar
Hızlı özet: Temel noktaların kısa özeti
Kaynak takibi ve doğrulama: Kaynak izleme ve doğrulama desteği

Gizlilik odaklı tasarım

Yerelde çalıştırma: Yerel modeller kullanıldığında tüm veriler kullanıcının cihazında tutulur
Yapılandırılabilir arama: Gizlilik korumasını güçlendirme
Şeffaf veri işleme: Verilerin nasıl işlendiğini açıkça gösterir

Geliştirilmiş arama entegrasyonu

Otomatik arama motoru seçimi: Sorgunun içeriğine göre arama motorunu otomatik seçer
Wikipedia entegrasyonu: Güvenilir olgu araması
arXiv entegrasyonu: Bilimsel makale ve akademik araştırma araması
PubMed entegrasyonu: Tıp ve biyomedikal araştırma kaynakları araması
DuckDuckGo entegrasyonu: Genel web araması (hız sınırlaması olabilir)
SerpAPI entegrasyonu: Google arama sonuçları sunar (API anahtarı gerekir)
Google Programmable Search: Özel arama yapılandırması (API anahtarı gerekir)
The Guardian entegrasyonu: Haber ve gazetecilik içeriği araması (API anahtarı gerekir)
Yerel RAG araması: Kişisel belgelerde arama yapılabilir (vektör embedding kullanır)
Tam web sayfası içeriği araması: Web sayfalarının tamamında arama yapılabilir
Kaynak filtreleme ve doğrulama: Güvenilir kaynaklara göre filtreleme yapılabilir
Arama parametreleri yapılandırması: Arama kapsamı, dönem vb. ayarlanabilir

Yerel belge araması (RAG)

Vektör embedding tabanlı arama: Kişisel belgelerde içerik araması yapılabilir
Özel belge koleksiyonları oluşturma: Belgeler konuya göre gruplanabilir
Gizlilik koruması: Tüm belgeler yerelde işlenir
Akıllı parçalama ve arama: Belge içeriğini parçalayıp arar
Çeşitli belge formatlarıyla uyumluluk: PDF, metin, Markdown vb. desteği
Entegre meta arama otomatik uygulanır: Yerel ve web araması birleştirilebilir

Web arayüzü

Kontrol paneli: Sezgisel bir arayüz sunar
Gerçek zamanlı ilerleme güncellemeleri: Araştırma durumunu anlık gösterir
Araştırma geçmişi yönetimi: Önceki araştırma kayıtlarına erişim ve yönetim
PDF raporu dışa aktarma: Araştırma raporları PDF olarak indirilebilir
Araştırma yönetimi: Devam eden araştırmalar durdurulabilir veya silinebilir

Desteklenen arama motoru seçenekleri

Auto: Sorguya göre motoru otomatik seçer
Wikipedia: Genel bilgi ve olgu aramaları için uygundur
arXiv: Bilimsel ve akademik makale aramaları için uygundur
PubMed: Biyomedikal ve tıbbi araştırmalar için uygundur
DuckDuckGo: Gizlilik odaklı genel web araması
The Guardian: Haber ve gazetecilik araması (API anahtarı gerekir)
SerpAPI: Google arama sonuçları sunar (API anahtarı gerekir)
Google Programmable Search: Özel arama (API anahtarı gerekir)

4 yorum

zxshinxz 2025-03-13

Yaşam bilimleri alanında çalışan biri olarak, kısa süreli kullanım sonucunda edindiğim izlenimleri paylaşmak istiyorum.

Research mode iki seçenekle sunuluyor.

Quick summary

Süre yaklaşık 5~6 dakika (4070 ti super, 16GB bazında, Mistral ve Gemma 3:12b)
Halüsinasyon sorunu var; Reference'ları doğrudan oluşturuyor, ancak belgede bağlantı verilen Ref'lerin kaynakları daha net görünüyor.
Sorulara yanıt verirken yeni teknolojilere odaklanma eğilimi var. Özellikle bunu AI ile ilişkilendirmeye çalışıyor.

Detailed Report

Süre yaklaşık 1 saat (4070 ti super 16GB, Gemma 3:12b)
Adeta tek bir review paper üretiyor. Ancak Reference sayısının ciddi biçimde azalması gibi bir sorun var. İçerik doğru olsa bile dayanak gösterilemediği için biraz iyileştirme gerekiyor. (Muhtemelen tekrar tekrar işleyerek metin kalitesini artırıyor, ama bu süreçte Ref link'leri kayboluyor gibi görünüyor.)
Yine de Quick summary'ye kıyasla belirgin biçimde daha yüksek kaliteli içerik sunuyor.

Config dosyasında çeşitli ayarlar yapılabiliyor. Aranacak veritabanını yalnızca PubMed ile sınırlayarak materyalin kalitesi daha da artırılabiliyor. Tek seferde aranacak metinler ya da RAG kullanılırken ne kadar chunk oluşturulacağı da ayarlanabiliyor.

Şu anda 0.01V olduğu düşünüldüğünde, Local bir makinede bu seviyede rapor üretebilmesi gerçekten çok şaşırtıcı. Özellikle yaşam bilimleri tarafında chatbot'lar sık sık genelleştirilmiş anlatım kullanırken, bu programın ürettiği raporlar oldukça bilimsel bir anlatım kullanıyor.

Bu program şu anda Koreceyi desteklemiyor. Soruyu Korece sorsanız bile rapor İngilizce olarak üretiliyor.
Ayrıca PDF dışa aktarma ile yanıtı PDF dosyası olarak aldığınızda Korece karakterlerin görünmemesi gibi bir sorun da var.

Rapor oluşturma sırasında Ref'lerin kaybolması ve halüsinasyon üretmesi sorunu çözülürse, gerçekten çok güçlü bir araç olacağını düşünüyorum.

zxshinxz 2025-03-14

Biraz daha kullanınca, Ollama’da çeşitli modeller arasında özellikle Qwen2.5 ile iyi çalışıyor gibi görünüyor. Deepseek-r1, Search sırasında sorguyu tuhaf şekilde oluşturduğu için dayanak olan içeriği yanlış getiriyor; Gemma ailesi ise örnek olarak verilen prompt’u gerçek prompt olarak algılayıp ilgili konu içeriğini mutlaka özellikle eklemeye çalışıyor.

GN⁺ 2025-03-12

Hacker News görüşleri

Yerel ve low-fi bir alan için gösterilen çabayı takdir ediyorum. Ancak dokümandaki örnekleri okuyunca çıktılar biraz kafa karıştırıcı geldi
- Bence bir veya daha fazla ara adıma ihtiyaç var. Örneğin, bir grafik veritabanı kullanılarak LLM'in bilgiyi depolaması, karşılıklı bağlantıları kontrol etmesi ve kendine sorular sorarak nihai raporu üretmesi sağlanabilir
- Nihai rapor, kullanıcının soru sorabileceği veya doğrudan düzenleyebileceği interaktif bir HTML dosyası olabilir
- Onyx adında benzer bir açık deep research aracı var ve UI/UX'inin daha iyi olduğunu düşünüyorum. Yazar bu aracı yerel ortama port etmeyi düşünebilir
- Bunun kötü bir proje olduğunu söylemiyorum ama birçok açık deep research projesinin kaybolmasından endişe ediyorum. İnsanların en çok ilgilendiği kısımlara odaklanıp iş birliği yapması daha iyi olur
Bu proje harika
- İnterneti kaynak olarak kullanıp embedding eklemek istiyorsanız exa.ai'yi denemenizi öneririm. Wikipedia, binlerce haber akışı, Github ve 70 milyondan fazla makaleyi içeriyor
- Not: Kuruculardan biriyim
Denedim ama çok fazla hata oluştu ve rapor üretemedim. Üretim başarısız olduğunda devam etmenin bir yolu yok, bu yüzden API çağrısı başarısız olursa en baştan yeniden başlamak gerekiyor
Web araması için Kagi ve Tavily API'lerini de değerlendirin
Oldukça havalı görünüyor. open-webui'nin RAG özelliğiyle karşılaştırıldığında nasıl olduğunu merak ediyorum
- Web araması ve doküman embedding yöntemleri var ama embedding sırasında ayrıntılar kaybolduğu için sonuçlar yetersiz kalıyor. Bu yaklaşımın daha iyi olup olmadığını merak ediyorum
(Yerel) LLM kullanarak vektör aramasına dayanmadan bir kaynak koleksiyonunda ilgili materyali doğrudan arayan biri var mı merak ediyorum
Güzel iş
- Son zamanlarda, RAG için küratörlü ve yapılandırılmış bilgiler kullanan önceden işlenmiş yerel koleksiyonların bu dinamik arama yaklaşımına iyi bir tamamlayıcı olabileceğini düşünüyorum
- LangChain kullandığınızı gördüm; txtai'ye bakmaya değer
Yapay zeka arama deneyimi sunup yer imlerinin içeriğini harmanlayarak rapor oluşturan bir araç olup olmadığını merak ediyorum. Şu anda yer imlerim işe yaramaz durumda. Bu, onları kullanışlı hale getirebilir
- Şu anda OpenAI'ın deep research ürününde sık görülen başarısızlık biçimlerinden biri, düşük otoriteli kaynaklardan yanıt alıp referansları bilimsel dergiymiş gibi sunması. Bu tür kaynaklar neredeyse hiç değerli içerik barındırmıyor ve diğer kaynaklar yüksek kaliteli olsa bile düşük kaliteli kaynaklar her şeyi mahvediyor
- Zaten küratörlüğünü yaptığınız içeriği (yer imlerini) öne çıkarmak, sinyal-gürültü oranını (SNR) büyük ölçüde artırabilir
LLM'ler için 3D oyun benzeri bir GUI yapan kişinin bir sonraki Jobs/Gates/Musk ve Nobel ödüllü biri olacağını düşünüyorum. Bu, milyonlarca insanın LLM'lerin içini görmesini sağlayarak hizalama sorununu çözecek. Bilgisayarlar ancak GUI'li işletim sistemleri ortaya çıktıktan sonra kitleselleşti; bugünün chatbot'ları ise komut satırına benziyor. Yapay zeka güvenliği fikirlerini paylaşmak için ASK HN başlattım

zhniee 2025-03-13

Anlamıyorum. Akademik seviye bir yana, ilkokul düzeyinde kodlama seviyesine bile ulaşmayan bir şeyi neden paylaşıyorlar...