- ExoPriors’ın Alignment Scry platformu, Claude Code üzerinden arXiv, Hacker News, LessWrong ve diğer kaynaklardan toplanan 60 milyon belge ile 22 milyon embedding’i SQL ve vektör işlemleriyle aramayı mümkün kılıyor
- Herkese açık bir API anahtarı sunuyor ve hem BM25 tabanlı metin araması hem de pgvector cosine distance tabanlı anlamsal arama destekliyor
alignment.search() ve alignment.search_exhaustive() fonksiyonlarıyla hızlı örnek arama ile tam arama ayrı şekilde gerçekleştirilebiliyor
- Claude Web veya Claude Code ortamında kolayca yapılandırılıp API çağrıları yapılabiliyor; ayrıca kişisel handle (
@handle) ve embedding saklama özellikleri sunuluyor
- Araştırmacılara ücretsiz olarak açılmış durumda ve yapay zeka araştırması ile bilgi keşfi otomasyonu için büyük ölçekli bir veri sorgulama deney ortamı olarak öne çıkıyor
Genel Bakış
- Alignment Scry, zeka patlamasıyla ilgili belge indeksleri üzerinde SQL ve vektör cebiri işlemleri yapılabilen bir arama sistemi
- Başlıca veri kaynakları arasında arXiv, Hacker News, LessWrong, community-archive.org yer alıyor
- Kullanıcılar Claude Code üzerinden doğal dil sorguları veya SQL komutlarıyla veriyi keşfedebiliyor
- Sistem şu anda Alpha deneysel aşamasında ve LessWrong odaklı bir keşif aracı olan Lens Studio’yu da içeriyor
Claude entegrasyonu ve erişim yöntemi
- Claude Code veya Claude Web’de API erişim ayarları yapılarak hemen kullanılabiliyor
- Kod çalıştırma, dosya oluşturma ve ağ erişimine izin verilmeli; ayrıca
api.exopriors.com alan adı whitelist’e eklenmeli
- Herkese açık API anahtarı
exopriors_public_readonly_v1_2025 ile giriş yapmadan erişim sağlanabiliyor
- Claude modelinin her API çağrısında kullanıcı onayı istememesi için
--dangerously-skip-permissions seçeneği kullanılabiliyor; ancak bunun risk taşıdığı belirtiliyor
- Opus 4.5 ve üzeri modeller öneriliyor; ayrıca prompt injection saldırısı riski bulunduğu açıkça ifade ediliyor
Temel özellikler
- Query: 60 milyon belge üzerinde SQL sorguları çalıştırma
- Embed: Anlamsal arama için embedding’leri kaydetme ve yeniden kullanma
- Timeout: Yüke göre yaklaşık 20–120 saniye arasında otomatik ayarlanma
- Arama hedefleri: post, comment, paper, tweet gibi farklı belge türleri
- Lexical Search: BM25 tabanlı anahtar kelime arama, ifade arama ve fuzzy matching desteği
- Semantic Search: pgvector cosine distance (
<=>) ile anlamsal benzerlik araması
Sorgulama ve performans yönetimi
alignment.search() yalnızca en iyi 100 BM25 sonucunu döndürür ve hızlı keşif için örnekleme amacıyla uygundur
alignment.search_exhaustive() ise tam arama yapar ve sayfalamayı destekler
- Performans yönergeleri
- Basit arama: 1–5 saniye
- Embedding join işlemleri (500 bin satıra kadar): 5–20 saniye
- Karmaşık aggregation işlemleri (2 milyon satıra kadar): 20–60 saniye
- Büyük ölçekli scan işlemleri (5 milyon+ satır): yük altında timeout yaşanabilir
- Sorgu çalıştırılmadan önce özet gösterimi ve kullanıcı onayı süreci ile aşırı yük önleniyor
- LIMIT, estimated_rows, join boyutu gibi ölçütlere göre ağır sorgular otomatik olarak tespit ediliyor
Veri yapısı ve görünümler
alignment şeması içinde materialized view’lar sağlanıyor
- Örnekler:
mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments
- Başlıca sütunlar:
entity_id, uri, source, kind, original_author, title, score, embedding
- Metadata’ya erişmek için
alignment.entities tablosuyla join yapılabiliyor
alignment.author_topics() fonksiyonu ile belirli konular ve yazarlar arasında çapraz analiz yapılabiliyor
Vektör işlemleri ve birleşik kullanım
<=>: pgvector cosine distance operatörü (0’a yaklaştıkça daha benzer)
@handle: kayıtlı vektöre referans
- Vektör karıştırma:
scale(@rigor,.6) - scale(@hype,.3) biçiminde kavramların ağırlıklı kombinasyonu
- Bias giderme:
debias_vector(@axis, @topic) ile belirli bir konunun etkisini çıkarma
- Merkez vektör (centroid) hesaplamasıyla yazarların veya dönemlerin ortalama anlamsal temsili çıkarılabiliyor
- Zamansal değişim (temporal delta) hesabıyla düşünsel kaymalar izlenebiliyor
Hibrit arama ve örnekler
- Lexical + Semantic birleşik arama destekleniyor
- Örnek:
WITH hits AS (search(...)) <=> @q biçiminde metin adaylarını anlamsal vektörle yeniden sıralama
- BM25 örnekleri
alignment.search('corrigibility')
alignment.search('"inner alignment"')
- SQL örnekleri
- Belirli bir konu için önde gelen yazarların listesini hesaplama
alignment.search_exhaustive() ile büyük sonuç kümelerinde sayfalama
Sistem ölçeği ve kullanım koşulları
- 65M+ belge, 22M+ embedding, 600GB+ indeks
- Araştırmacılara ücretsiz sunuluyor ve 1,5 milyon embedding token içeriyor
- Hesap oluşturulduğunda kişisel handle namespace’i, daha uzun timeout süreleri (10 dakikaya kadar) ve genişletilmiş sorgu limitleri veriliyor
Özet
- Alignment Scry, Claude ile entegre çalışan büyük ölçekli bir yapay zeka araştırma veri sorgulama platformu ve SQL ile vektör işlemlerini birleştiren hibrit aramayı destekliyor
- Açık API ve net sorgu yönergeleri sayesinde yapay zeka araştırmacıları ve geliştiricileri için deneysel veri erişilebilirliği sunuyor
- 600 GB ölçeğinde indeks ve 60 milyondan fazla belge temelinde, yapay zeka alignment ve zeka araştırmalarıyla ilgili keşfi otomatikleştirmeye yönelik bir ortam kuruyor
1 yorum
Hacker News yorumları
Bu projede hoşuma giden şey, bunun sadece bir kara kutu chatbot olmaması ve SQL üretmesi
Bence LLM'leri veritabanı gibi kullanmak yerine, doğal dili yapılandırılmış sorgu diline çeviren bir araç olarak kullanmak doğru yön
Yine de API'nin kötüye kullanılmaması için timeout ya da sandboxing uygulanıp uygulanmadığını merak ediyorum
Ayrıca farklı veri kümeleri arasında anlamların karıştığı bir semantic bleeding durumu olup olmadığını da merak ediyorum — örneğin “optimization” ArXiv, LessWrong ve HN'de farklı şekillerde kullanılabilir
SQL sorgu planlayıcısı, çok sayıda view ve index ile çalışırken hâlâ güçlü
Güvenlik ve rate-limit konusunda da çok dikkat ettik; AST ayrıştırmasıyla tehlikeli join'leri engelliyoruz
Claude, farklı domain'ler arasındaki anlam farkını azaltmak için vektör merkezli (centroid) kombinasyonlar kullanabilir
Örneğin “optimization” kelimesinin LessWrong embedding'i ile ArXiv embedding'inin ortalaması alınarak karşılaştırmalı deney yapılabilir
Uygulama sürecini blog yazısında anlattım
Şu anda bir macOS istemcisi var ama Linux için bir motor da hazırlanıyor
Doğal dil yorumlama ve çevirinin kullanım alanı inanılmaz geniş
Sonunda yatırımların da böyle pratik araçlara kayacağını düşünüyorum
Model ne kadar büyükse aynı kelimenin farklı anlamlarını o kadar iyi ayırt ediyor
Gerçekten harika bir proje. Devam etmekte olan sicim teorisi araştırmamda Calabi–Yau manifoldlarını bulmak için bunu hemen deneyeceğim
Claude ile birlikte yaptığım çalışmada, genetik algoritmaları kullanan flux vacua üzerine iki makale bulduk ve SQL + BM25 kombinasyonuyla çok hassas arama yapılabildi
Ancak bash içinde tırnak kaçışları uğraştırıcıydı ve alignment.search() içindeki 100 sonuç sınırı nedeniyle tam sonuç almak için search_exhaustive() kullanmam gerekti
Claude, ExoPriors corpus'unu analiz edip önemli makaleleri ve sonuçları özetledi; DESI sonuçlarının sicim teorisi arama yönünü değiştirebileceğini gösteriyor
Özellikle arXiv:2511.23463 makalesi, karanlık enerjideki “phantom crossing” olgusunu axion-dilaton karışımıyla açıklıyor
Bundan sonra (w₀, wₐ) parametrelerini uyum fonksiyonuna dahil edip axion dinamikleri ekleyerek araştırmayı genişletmeyi planlıyorum
İlgili haber: BBC haberi
“dangerously-skip-permissions” bayrağını güvenli olmayan metinlerle birlikte kullanmak riskli
İnternetten gelen girdiler prompt injection içerebilir; bu yüzden mutlaka sandbox ortamında çalıştırılmalı
Yaşam bilimleri makalelerinde Ek Materyal (Supplementary Material) içindeki gen ve protein bilgilerini sorgulamanın bir yolunu arıyorum
Şu anda indeksleme çok dağınık olduğu için son 15 yıldaki genomik araştırma içgörüleri gömülü kalmış durumda
Open access veriler kullanılırsa bu yaklaşım işe yarayabilir gibi görünüyor
OpenAlex kullanarak atıf grafiğini geziyor ve open access PDF'leri analiz ediyor
Ben bunu kriyoprotektanları (cryoprotective agents) sıcaklığa göre bulmak için kullandım ama senin problemin için de genişletilebilir
“intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” gibi ifadeler abartılı teknik jargon gibi geliyor
Opus 4.5 ve GPT-5.2-Codex-xhigh sayesinde geliştirme hızı patlayıcı biçimde arttı
Scry, büyük corpus'larda keyfi SQL çalıştırıp vektör kombinasyonları üzerinde serbestçe deney yapmayı mümkün kılan tek araç
Prompt'ları dış veri kümeleriyle birleştirmek şu anda en basit ve güçlü keşif kanalı
Adeta “curl | bash” gibi hızlı deney yapmayı sağlıyor
Buna “state-of-the-art” bir araştırma aracı denmiş ama tam olarak neyin bu kadar en ileri düzey olduğunu merak ediyorum
Örneğin Gemma modeli de rakiplerinden daha düşük performans göstermesine rağmen “state-of-the-art” diye anılmıştı
Juicero da piyasaya çıktığında son teknoloji sayılıyordu ama sonunda elde sıkmak daha iyi çıktı
Şu anda otonom akademik araştırma sistemi geliştiriyorum ve bu projeyi entegre etmeyi planlıyorum
Şimdilik Edison Scientific API ve özel prompt'lar kullanıyorum; open-source planı olup olmadığını merak ediyorum
İlgili proje: gia-agentic-short
5.000 dolar bulabilirsem hemen yayımlayabilirim gibi görünüyor