ExoPriors’ın ‘Alignment Scry’ aracıyla Claude Code üzerinden Hacker News, arXiv ve diğer kaynaklardaki 600 GB’lık indeksi sorgulama

(exopriors.com)

1 puan yazan GN⁺ 2026-01-01 | 1 yorum | WhatsApp'ta paylaş

ExoPriors’ın Alignment Scry platformu, Claude Code üzerinden arXiv, Hacker News, LessWrong ve diğer kaynaklardan toplanan 60 milyon belge ile 22 milyon embedding’i SQL ve vektör işlemleriyle aramayı mümkün kılıyor
Herkese açık bir API anahtarı sunuyor ve hem BM25 tabanlı metin araması hem de pgvector cosine distance tabanlı anlamsal arama destekliyor
alignment.search() ve alignment.search_exhaustive() fonksiyonlarıyla hızlı örnek arama ile tam arama ayrı şekilde gerçekleştirilebiliyor
Claude Web veya Claude Code ortamında kolayca yapılandırılıp API çağrıları yapılabiliyor; ayrıca kişisel handle (@handle) ve embedding saklama özellikleri sunuluyor
Araştırmacılara ücretsiz olarak açılmış durumda ve yapay zeka araştırması ile bilgi keşfi otomasyonu için büyük ölçekli bir veri sorgulama deney ortamı olarak öne çıkıyor

Genel Bakış

Alignment Scry, zeka patlamasıyla ilgili belge indeksleri üzerinde SQL ve vektör cebiri işlemleri yapılabilen bir arama sistemi
- Başlıca veri kaynakları arasında arXiv, Hacker News, LessWrong, community-archive.org yer alıyor
- Kullanıcılar Claude Code üzerinden doğal dil sorguları veya SQL komutlarıyla veriyi keşfedebiliyor
Sistem şu anda Alpha deneysel aşamasında ve LessWrong odaklı bir keşif aracı olan Lens Studio’yu da içeriyor

Claude entegrasyonu ve erişim yöntemi

Claude Code veya Claude Web’de API erişim ayarları yapılarak hemen kullanılabiliyor
- Kod çalıştırma, dosya oluşturma ve ağ erişimine izin verilmeli; ayrıca api.exopriors.com alan adı whitelist’e eklenmeli
Herkese açık API anahtarı exopriors_public_readonly_v1_2025 ile giriş yapmadan erişim sağlanabiliyor
Claude modelinin her API çağrısında kullanıcı onayı istememesi için --dangerously-skip-permissions seçeneği kullanılabiliyor; ancak bunun risk taşıdığı belirtiliyor
Opus 4.5 ve üzeri modeller öneriliyor; ayrıca prompt injection saldırısı riski bulunduğu açıkça ifade ediliyor

Temel özellikler

Query: 60 milyon belge üzerinde SQL sorguları çalıştırma
Embed: Anlamsal arama için embedding’leri kaydetme ve yeniden kullanma
Timeout: Yüke göre yaklaşık 20–120 saniye arasında otomatik ayarlanma
Arama hedefleri: post, comment, paper, tweet gibi farklı belge türleri
Lexical Search: BM25 tabanlı anahtar kelime arama, ifade arama ve fuzzy matching desteği
Semantic Search: pgvector cosine distance (<=>) ile anlamsal benzerlik araması

Sorgulama ve performans yönetimi

alignment.search() yalnızca en iyi 100 BM25 sonucunu döndürür ve hızlı keşif için örnekleme amacıyla uygundur
alignment.search_exhaustive() ise tam arama yapar ve sayfalamayı destekler
Performans yönergeleri
- Basit arama: 1–5 saniye
- Embedding join işlemleri (500 bin satıra kadar): 5–20 saniye
- Karmaşık aggregation işlemleri (2 milyon satıra kadar): 20–60 saniye
- Büyük ölçekli scan işlemleri (5 milyon+ satır): yük altında timeout yaşanabilir
Sorgu çalıştırılmadan önce özet gösterimi ve kullanıcı onayı süreci ile aşırı yük önleniyor
LIMIT, estimated_rows, join boyutu gibi ölçütlere göre ağır sorgular otomatik olarak tespit ediliyor

Veri yapısı ve görünümler

alignment şeması içinde materialized view’lar sağlanıyor
- Örnekler: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments
- Başlıca sütunlar: entity_id, uri, source, kind, original_author, title, score, embedding
Metadata’ya erişmek için alignment.entities tablosuyla join yapılabiliyor
alignment.author_topics() fonksiyonu ile belirli konular ve yazarlar arasında çapraz analiz yapılabiliyor

Vektör işlemleri ve birleşik kullanım

<=>: pgvector cosine distance operatörü (0’a yaklaştıkça daha benzer)
@handle: kayıtlı vektöre referans
Vektör karıştırma: scale(@rigor,.6) - scale(@hype,.3) biçiminde kavramların ağırlıklı kombinasyonu
Bias giderme: debias_vector(@axis, @topic) ile belirli bir konunun etkisini çıkarma
Merkez vektör (centroid) hesaplamasıyla yazarların veya dönemlerin ortalama anlamsal temsili çıkarılabiliyor
Zamansal değişim (temporal delta) hesabıyla düşünsel kaymalar izlenebiliyor

Hibrit arama ve örnekler

Lexical + Semantic birleşik arama destekleniyor
- Örnek: WITH hits AS (search(...)) <=> @q biçiminde metin adaylarını anlamsal vektörle yeniden sıralama
BM25 örnekleri
- alignment.search('corrigibility')
- alignment.search('"inner alignment"')
SQL örnekleri
- Belirli bir konu için önde gelen yazarların listesini hesaplama
- alignment.search_exhaustive() ile büyük sonuç kümelerinde sayfalama

Sistem ölçeği ve kullanım koşulları

65M+ belge, 22M+ embedding, 600GB+ indeks
Araştırmacılara ücretsiz sunuluyor ve 1,5 milyon embedding token içeriyor
Hesap oluşturulduğunda kişisel handle namespace’i, daha uzun timeout süreleri (10 dakikaya kadar) ve genişletilmiş sorgu limitleri veriliyor

Özet

Alignment Scry, Claude ile entegre çalışan büyük ölçekli bir yapay zeka araştırma veri sorgulama platformu ve SQL ile vektör işlemlerini birleştiren hibrit aramayı destekliyor
Açık API ve net sorgu yönergeleri sayesinde yapay zeka araştırmacıları ve geliştiricileri için deneysel veri erişilebilirliği sunuyor
600 GB ölçeğinde indeks ve 60 milyondan fazla belge temelinde, yapay zeka alignment ve zeka araştırmalarıyla ilgili keşfi otomatikleştirmeye yönelik bir ortam kuruyor

1 yorum

GN⁺ 2026-01-01

Hacker News yorumları

Bu projede hoşuma giden şey, bunun sadece bir kara kutu chatbot olmaması ve SQL üretmesi
Bence LLM'leri veritabanı gibi kullanmak yerine, doğal dili yapılandırılmış sorgu diline çeviren bir araç olarak kullanmak doğru yön
Yine de API'nin kötüye kullanılmaması için timeout ya da sandboxing uygulanıp uygulanmadığını merak ediyorum
Ayrıca farklı veri kümeleri arasında anlamların karıştığı bir semantic bleeding durumu olup olmadığını da merak ediyorum — örneğin “optimization” ArXiv, LessWrong ve HN'de farklı şekillerde kullanılabilir
- Evet, insanlar bazen kesinlik ve kontrol ister
  SQL sorgu planlayıcısı, çok sayıda view ve index ile çalışırken hâlâ güçlü
  Güvenlik ve rate-limit konusunda da çok dikkat ettik; AST ayrıştırmasıyla tehlikeli join'leri engelliyoruz
  Claude, farklı domain'ler arasındaki anlam farkını azaltmak için vektör merkezli (centroid) kombinasyonlar kullanabilir
  Örneğin “optimization” kelimesinin LessWrong embedding'i ile ArXiv embedding'inin ortalaması alınarak karşılaştırmalı deney yapılabilir
- Ben de benzer bir yaklaşım kullandım. Claude Code ve Codex konuşma kayıtlarını yerel bir DB'ye dönüştürüp bunların CLI'dan doğrudan sorgulanabilmesini sağladım
  Uygulama sürecini blog yazısında anlattım
  Şu anda bir macOS istemcisi var ama Linux için bir motor da hazırlanıyor
- Bence tam da bu yaklaşım, “AI balonu sönse bile geride kalacak gerçek inovasyon”
  Doğal dil yorumlama ve çevirinin kullanım alanı inanılmaz geniş
  Sonunda yatırımların da böyle pratik araçlara kayacağını düşünüyorum
- Deney yok ama tecrübeme göre embedding modelinin boyutu, kelime anlamlarının ayrışmasını etkiliyor
  Model ne kadar büyükse aynı kelimenin farklı anlamlarını o kadar iyi ayırt ediyor
Gerçekten harika bir proje. Devam etmekte olan sicim teorisi araştırmamda Calabi–Yau manifoldlarını bulmak için bunu hemen deneyeceğim
Claude ile birlikte yaptığım çalışmada, genetik algoritmaları kullanan flux vacua üzerine iki makale bulduk ve SQL + BM25 kombinasyonuyla çok hassas arama yapılabildi
Ancak bash içinde tırnak kaçışları uğraştırıcıydı ve alignment.search() içindeki 100 sonuç sınırı nedeniyle tam sonuç almak için search_exhaustive() kullanmam gerekti
- Ben de bu araçla yakın zamanda DESI'nin karanlık enerji değişimi araştırmasını inceledim
  Claude, ExoPriors corpus'unu analiz edip önemli makaleleri ve sonuçları özetledi; DESI sonuçlarının sicim teorisi arama yönünü değiştirebileceğini gösteriyor
  Özellikle arXiv:2511.23463 makalesi, karanlık enerjideki “phantom crossing” olgusunu axion-dilaton karışımıyla açıklıyor
  Bundan sonra (w₀, wₐ) parametrelerini uyum fonksiyonuna dahil edip axion dinamikleri ekleyerek araştırmayı genişletmeyi planlıyorum
  İlgili haber: BBC haberi
“dangerously-skip-permissions” bayrağını güvenli olmayan metinlerle birlikte kullanmak riskli
İnternetten gelen girdiler prompt injection içerebilir; bu yüzden mutlaka sandbox ortamında çalıştırılmalı
- Ben de bugün Claude'u bir devcontainer içinde çalıştırmaya başladım; hangi sandbox seçeneğinin en basit olduğunu merak ediyorum
Yaşam bilimleri makalelerinde Ek Materyal (Supplementary Material) içindeki gen ve protein bilgilerini sorgulamanın bir yolunu arıyorum
Şu anda indeksleme çok dağınık olduğu için son 15 yıldaki genomik araştırma içgörüleri gömülü kalmış durumda
Open access veriler kullanılırsa bu yaklaşım işe yarayabilir gibi görünüyor
- Ben de benzer bir şey yaptım — papers2dataset
  OpenAlex kullanarak atıf grafiğini geziyor ve open access PDF'leri analiz ediyor
  Ben bunu kriyoprotektanları (cryoprotective agents) sıcaklığa göre bulmak için kullandım ama senin problemin için de genişletilebilir
“intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” gibi ifadeler abartılı teknik jargon gibi geliyor
- Abartı değil. Şu anda gerçekten bir yazılım zekâ patlaması dönemi yaşanıyor
  Opus 4.5 ve GPT-5.2-Codex-xhigh sayesinde geliştirme hızı patlayıcı biçimde arttı
  Scry, büyük corpus'larda keyfi SQL çalıştırıp vektör kombinasyonları üzerinde serbestçe deney yapmayı mümkün kılan tek araç
Prompt'ları dış veri kümeleriyle birleştirmek şu anda en basit ve güçlü keşif kanalı
Adeta “curl | bash” gibi hızlı deney yapmayı sağlıyor
- Kesinlikle. Prompt + Tool + External Dataset kombinasyonu muazzam bir potansiyel taşıyor
Buna “state-of-the-art” bir araştırma aracı denmiş ama tam olarak neyin bu kadar en ileri düzey olduğunu merak ediyorum
- Ölçek yüzünden. Tüm arXiv makalelerinin tam metnini sorgulayabilen kaç araç var ki
- Bu sadece pazarlama dili. Korunan bir ifade değil, herkes kullanabilir
  Örneğin Gemma modeli de rakiplerinden daha düşük performans göstermesine rağmen “state-of-the-art” diye anılmıştı
  Juicero da piyasaya çıktığında son teknoloji sayılıyordu ama sonunda elde sıkmak daha iyi çıktı
- Araç en ileri düzey olabilir ama veri kaynakları tarihsel
- “İlk yapan” olduğu için “en iyi” anlamına mı geliyor diye düşündürüyor
Şu anda otonom akademik araştırma sistemi geliştiriyorum ve bu projeyi entegre etmeyi planlıyorum
Şimdilik Edison Scientific API ve özel prompt'lar kullanıyorum; open-source planı olup olmadığını merak ediyorum
İlgili proje: gia-agentic-short
- Açık kaynak olarak yayımlamak isterim ama dürüst olmak gerekirse şu an geçim zor
  5.000 dolar bulabilirsem hemen yayımlayabilirim gibi görünüyor

ExoPriors’ın ‘Alignment Scry’ aracıyla Claude Code üzerinden Hacker News, arXiv ve diğer kaynaklardaki 600 GB’lık indeksi sorgulama

Genel Bakış

Claude entegrasyonu ve erişim yöntemi

Temel özellikler

Sorgulama ve performans yönetimi

Veri yapısı ve görünümler

Vektör işlemleri ve birleşik kullanım

Hibrit arama ve örnekler

Sistem ölçeği ve kullanım koşulları

Özet

İlgili okumalar

1 yorum

Hacker News yorumları