1 puan yazan GN⁺ 2026-01-01 | 1 yorum | WhatsApp'ta paylaş
  • ExoPriors’ın Alignment Scry platformu, Claude Code üzerinden arXiv, Hacker News, LessWrong ve diğer kaynaklardan toplanan 60 milyon belge ile 22 milyon embedding’i SQL ve vektör işlemleriyle aramayı mümkün kılıyor
  • Herkese açık bir API anahtarı sunuyor ve hem BM25 tabanlı metin araması hem de pgvector cosine distance tabanlı anlamsal arama destekliyor
  • alignment.search() ve alignment.search_exhaustive() fonksiyonlarıyla hızlı örnek arama ile tam arama ayrı şekilde gerçekleştirilebiliyor
  • Claude Web veya Claude Code ortamında kolayca yapılandırılıp API çağrıları yapılabiliyor; ayrıca kişisel handle (@handle) ve embedding saklama özellikleri sunuluyor
  • Araştırmacılara ücretsiz olarak açılmış durumda ve yapay zeka araştırması ile bilgi keşfi otomasyonu için büyük ölçekli bir veri sorgulama deney ortamı olarak öne çıkıyor

Genel Bakış

  • Alignment Scry, zeka patlamasıyla ilgili belge indeksleri üzerinde SQL ve vektör cebiri işlemleri yapılabilen bir arama sistemi
    • Başlıca veri kaynakları arasında arXiv, Hacker News, LessWrong, community-archive.org yer alıyor
    • Kullanıcılar Claude Code üzerinden doğal dil sorguları veya SQL komutlarıyla veriyi keşfedebiliyor
  • Sistem şu anda Alpha deneysel aşamasında ve LessWrong odaklı bir keşif aracı olan Lens Studio’yu da içeriyor

Claude entegrasyonu ve erişim yöntemi

  • Claude Code veya Claude Web’de API erişim ayarları yapılarak hemen kullanılabiliyor
    • Kod çalıştırma, dosya oluşturma ve ağ erişimine izin verilmeli; ayrıca api.exopriors.com alan adı whitelist’e eklenmeli
  • Herkese açık API anahtarı exopriors_public_readonly_v1_2025 ile giriş yapmadan erişim sağlanabiliyor
  • Claude modelinin her API çağrısında kullanıcı onayı istememesi için --dangerously-skip-permissions seçeneği kullanılabiliyor; ancak bunun risk taşıdığı belirtiliyor
  • Opus 4.5 ve üzeri modeller öneriliyor; ayrıca prompt injection saldırısı riski bulunduğu açıkça ifade ediliyor

Temel özellikler

  • Query: 60 milyon belge üzerinde SQL sorguları çalıştırma
  • Embed: Anlamsal arama için embedding’leri kaydetme ve yeniden kullanma
  • Timeout: Yüke göre yaklaşık 20–120 saniye arasında otomatik ayarlanma
  • Arama hedefleri: post, comment, paper, tweet gibi farklı belge türleri
  • Lexical Search: BM25 tabanlı anahtar kelime arama, ifade arama ve fuzzy matching desteği
  • Semantic Search: pgvector cosine distance (<=>) ile anlamsal benzerlik araması

Sorgulama ve performans yönetimi

  • alignment.search() yalnızca en iyi 100 BM25 sonucunu döndürür ve hızlı keşif için örnekleme amacıyla uygundur
  • alignment.search_exhaustive() ise tam arama yapar ve sayfalamayı destekler
  • Performans yönergeleri
    • Basit arama: 1–5 saniye
    • Embedding join işlemleri (500 bin satıra kadar): 5–20 saniye
    • Karmaşık aggregation işlemleri (2 milyon satıra kadar): 20–60 saniye
    • Büyük ölçekli scan işlemleri (5 milyon+ satır): yük altında timeout yaşanabilir
  • Sorgu çalıştırılmadan önce özet gösterimi ve kullanıcı onayı süreci ile aşırı yük önleniyor
  • LIMIT, estimated_rows, join boyutu gibi ölçütlere göre ağır sorgular otomatik olarak tespit ediliyor

Veri yapısı ve görünümler

  • alignment şeması içinde materialized view’lar sağlanıyor
    • Örnekler: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments
    • Başlıca sütunlar: entity_id, uri, source, kind, original_author, title, score, embedding
  • Metadata’ya erişmek için alignment.entities tablosuyla join yapılabiliyor
  • alignment.author_topics() fonksiyonu ile belirli konular ve yazarlar arasında çapraz analiz yapılabiliyor

Vektör işlemleri ve birleşik kullanım

  • <=>: pgvector cosine distance operatörü (0’a yaklaştıkça daha benzer)
  • @handle: kayıtlı vektöre referans
  • Vektör karıştırma: scale(@rigor,.6) - scale(@hype,.3) biçiminde kavramların ağırlıklı kombinasyonu
  • Bias giderme: debias_vector(@axis, @topic) ile belirli bir konunun etkisini çıkarma
  • Merkez vektör (centroid) hesaplamasıyla yazarların veya dönemlerin ortalama anlamsal temsili çıkarılabiliyor
  • Zamansal değişim (temporal delta) hesabıyla düşünsel kaymalar izlenebiliyor

Hibrit arama ve örnekler

  • Lexical + Semantic birleşik arama destekleniyor
    • Örnek: WITH hits AS (search(...)) <=> @q biçiminde metin adaylarını anlamsal vektörle yeniden sıralama
  • BM25 örnekleri
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • SQL örnekleri
    • Belirli bir konu için önde gelen yazarların listesini hesaplama
    • alignment.search_exhaustive() ile büyük sonuç kümelerinde sayfalama

Sistem ölçeği ve kullanım koşulları

  • 65M+ belge, 22M+ embedding, 600GB+ indeks
  • Araştırmacılara ücretsiz sunuluyor ve 1,5 milyon embedding token içeriyor
  • Hesap oluşturulduğunda kişisel handle namespace’i, daha uzun timeout süreleri (10 dakikaya kadar) ve genişletilmiş sorgu limitleri veriliyor

Özet

  • Alignment Scry, Claude ile entegre çalışan büyük ölçekli bir yapay zeka araştırma veri sorgulama platformu ve SQL ile vektör işlemlerini birleştiren hibrit aramayı destekliyor
  • Açık API ve net sorgu yönergeleri sayesinde yapay zeka araştırmacıları ve geliştiricileri için deneysel veri erişilebilirliği sunuyor
  • 600 GB ölçeğinde indeks ve 60 milyondan fazla belge temelinde, yapay zeka alignment ve zeka araştırmalarıyla ilgili keşfi otomatikleştirmeye yönelik bir ortam kuruyor

1 yorum

 
GN⁺ 2026-01-01
Hacker News yorumları
  • Bu projede hoşuma giden şey, bunun sadece bir kara kutu chatbot olmaması ve SQL üretmesi
    Bence LLM'leri veritabanı gibi kullanmak yerine, doğal dili yapılandırılmış sorgu diline çeviren bir araç olarak kullanmak doğru yön
    Yine de API'nin kötüye kullanılmaması için timeout ya da sandboxing uygulanıp uygulanmadığını merak ediyorum
    Ayrıca farklı veri kümeleri arasında anlamların karıştığı bir semantic bleeding durumu olup olmadığını da merak ediyorum — örneğin “optimization” ArXiv, LessWrong ve HN'de farklı şekillerde kullanılabilir

    • Evet, insanlar bazen kesinlik ve kontrol ister
      SQL sorgu planlayıcısı, çok sayıda view ve index ile çalışırken hâlâ güçlü
      Güvenlik ve rate-limit konusunda da çok dikkat ettik; AST ayrıştırmasıyla tehlikeli join'leri engelliyoruz
      Claude, farklı domain'ler arasındaki anlam farkını azaltmak için vektör merkezli (centroid) kombinasyonlar kullanabilir
      Örneğin “optimization” kelimesinin LessWrong embedding'i ile ArXiv embedding'inin ortalaması alınarak karşılaştırmalı deney yapılabilir
    • Ben de benzer bir yaklaşım kullandım. Claude Code ve Codex konuşma kayıtlarını yerel bir DB'ye dönüştürüp bunların CLI'dan doğrudan sorgulanabilmesini sağladım
      Uygulama sürecini blog yazısında anlattım
      Şu anda bir macOS istemcisi var ama Linux için bir motor da hazırlanıyor
    • Bence tam da bu yaklaşım, “AI balonu sönse bile geride kalacak gerçek inovasyon”
      Doğal dil yorumlama ve çevirinin kullanım alanı inanılmaz geniş
      Sonunda yatırımların da böyle pratik araçlara kayacağını düşünüyorum
    • Deney yok ama tecrübeme göre embedding modelinin boyutu, kelime anlamlarının ayrışmasını etkiliyor
      Model ne kadar büyükse aynı kelimenin farklı anlamlarını o kadar iyi ayırt ediyor
  • Gerçekten harika bir proje. Devam etmekte olan sicim teorisi araştırmamda Calabi–Yau manifoldlarını bulmak için bunu hemen deneyeceğim
    Claude ile birlikte yaptığım çalışmada, genetik algoritmaları kullanan flux vacua üzerine iki makale bulduk ve SQL + BM25 kombinasyonuyla çok hassas arama yapılabildi
    Ancak bash içinde tırnak kaçışları uğraştırıcıydı ve alignment.search() içindeki 100 sonuç sınırı nedeniyle tam sonuç almak için search_exhaustive() kullanmam gerekti

    • Ben de bu araçla yakın zamanda DESI'nin karanlık enerji değişimi araştırmasını inceledim
      Claude, ExoPriors corpus'unu analiz edip önemli makaleleri ve sonuçları özetledi; DESI sonuçlarının sicim teorisi arama yönünü değiştirebileceğini gösteriyor
      Özellikle arXiv:2511.23463 makalesi, karanlık enerjideki “phantom crossing” olgusunu axion-dilaton karışımıyla açıklıyor
      Bundan sonra (w₀, wₐ) parametrelerini uyum fonksiyonuna dahil edip axion dinamikleri ekleyerek araştırmayı genişletmeyi planlıyorum
      İlgili haber: BBC haberi
  • “dangerously-skip-permissions” bayrağını güvenli olmayan metinlerle birlikte kullanmak riskli
    İnternetten gelen girdiler prompt injection içerebilir; bu yüzden mutlaka sandbox ortamında çalıştırılmalı

    • Ben de bugün Claude'u bir devcontainer içinde çalıştırmaya başladım; hangi sandbox seçeneğinin en basit olduğunu merak ediyorum
  • Yaşam bilimleri makalelerinde Ek Materyal (Supplementary Material) içindeki gen ve protein bilgilerini sorgulamanın bir yolunu arıyorum
    Şu anda indeksleme çok dağınık olduğu için son 15 yıldaki genomik araştırma içgörüleri gömülü kalmış durumda
    Open access veriler kullanılırsa bu yaklaşım işe yarayabilir gibi görünüyor

    • Ben de benzer bir şey yaptım — papers2dataset
      OpenAlex kullanarak atıf grafiğini geziyor ve open access PDF'leri analiz ediyor
      Ben bunu kriyoprotektanları (cryoprotective agents) sıcaklığa göre bulmak için kullandım ama senin problemin için de genişletilebilir
  • “intelligence explosion”, “ARBITRARY SQL + VECTOR ALGEBRA” gibi ifadeler abartılı teknik jargon gibi geliyor

    • Abartı değil. Şu anda gerçekten bir yazılım zekâ patlaması dönemi yaşanıyor
      Opus 4.5 ve GPT-5.2-Codex-xhigh sayesinde geliştirme hızı patlayıcı biçimde arttı
      Scry, büyük corpus'larda keyfi SQL çalıştırıp vektör kombinasyonları üzerinde serbestçe deney yapmayı mümkün kılan tek araç
  • Prompt'ları dış veri kümeleriyle birleştirmek şu anda en basit ve güçlü keşif kanalı
    Adeta “curl | bash” gibi hızlı deney yapmayı sağlıyor

    • Kesinlikle. Prompt + Tool + External Dataset kombinasyonu muazzam bir potansiyel taşıyor
  • Buna “state-of-the-art” bir araştırma aracı denmiş ama tam olarak neyin bu kadar en ileri düzey olduğunu merak ediyorum

    • Ölçek yüzünden. Tüm arXiv makalelerinin tam metnini sorgulayabilen kaç araç var ki
    • Bu sadece pazarlama dili. Korunan bir ifade değil, herkes kullanabilir
      Örneğin Gemma modeli de rakiplerinden daha düşük performans göstermesine rağmen “state-of-the-art” diye anılmıştı
      Juicero da piyasaya çıktığında son teknoloji sayılıyordu ama sonunda elde sıkmak daha iyi çıktı
    • Araç en ileri düzey olabilir ama veri kaynakları tarihsel
    • “İlk yapan” olduğu için “en iyi” anlamına mı geliyor diye düşündürüyor
  • Şu anda otonom akademik araştırma sistemi geliştiriyorum ve bu projeyi entegre etmeyi planlıyorum
    Şimdilik Edison Scientific API ve özel prompt'lar kullanıyorum; open-source planı olup olmadığını merak ediyorum
    İlgili proje: gia-agentic-short

    • Açık kaynak olarak yayımlamak isterim ama dürüst olmak gerekirse şu an geçim zor
      5.000 dolar bulabilirsem hemen yayımlayabilirim gibi görünüyor