22 puan yazan xguru 2024-05-26 | 1 yorum | WhatsApp'ta paylaş
  • Yapılandırılmış veriler için doğal dille sorgulama yapılabilen bir NL-to-SQL motoru
  • Tüm kod tabanı açık kaynağa dönüştürüldü: çekirdek motor, istemci (kimlik doğrulama/RBAC) vb. dahil
  • Artık herkes kendi ürününün içinde bir text-to-SQL çözümü kurabilir
  • Dataherald'in Core NL-to-SQL motoru, CoT (Chain of Thought) akıl yürütmesi ve çeşitli araçlar kullanarak verilen kullanıcı prompt'undan yüksek doğrulukta SQL üreten, LLM tabanlı bir ajandır
  • Toplam 4 hizmet içeriyor
    • Motor: LLM ajanı, vektör deposu ve DB bağlayıcıları
    • Yönetim konsolu: motor ayarları ve Observability yönetimi için NextJS arayüzü
    • Kurumsal backend: kimlik doğrulama/önbellekleme/API vb. eklemek için çekirdek motoru sarar
    • Slack botu: Dataherald'i Slack iş akışına ekler

1 yorum

 
xguru 2024-05-26

Dataherald - doğal dil-to-SQL motoru
8 ay önce paylaşılmıştı, şimdi ise tamamını açık kaynak olarak yayımlamışlar.

Hacker News görüşleri

  • Bu araç gerçekten çok etkileyici görünüyor. Diğer araçlar basit sorgularda iyi çalışıyor ama karmaşık şemalar ve join işlemlerinde zorlanıyor. DataHerald'ın bu sorunu çözüp çözmediğini merak ediyorum.
  • Geçen yıl bir text-to-SQL ürününü açık kaynak yaptım. Böyle bir işi kurmak çok zor. Açık kaynak yaklaşımı ve Snowflake/PowerBI gibi ücretsiz dağıtım araçlarıyla entegre olmak daha mantıklı.
  • Tüm ürünü neden açık kaynak yaptıklarını merak ediyorum. Acaba open core modeline geçiyorlar mı? Gerekçelerini paylaşırlarsa sevinirim.
  • Tarihsel katkınız için teşekkürler. Şu anda birçok şirket verileriyle "sohbet ediyor". Muhtemelen birçok ekip benzer işler yapıyordur.
  • Özellik açısından zengin yapay zeka analiz yardımcılarından biri. Açık kaynak yapmalarını takdir ediyorum. Metabase, Airbyte ve dbt gibi başarılı örnekler var.
  • Bu aracın hedef kitlesinin kim olduğunu merak ediyorum. Web sitesi, analiste ihtiyaç duymadan veri sorularını yanıtlayabildiğini söylüyor ama analistler model ve veri uzmanlarıdır. Veri ambarlarında çeşitli sorunlar olabilir. LLM'nin bunları tutarlı biçimde ele alıp alamayacağını merak ediyorum.
  • Bu aracın ortalama bir LLM'den daha iyi çalışmasının nedeni, veritabanı yapısı kullanılarak eğitilebilmesi. Ancak veritabanı yapısı sık sık değişebilir, bu da yeniden eğitim gerektirebilir. PR düzeltmesinden sonra otomatik yeniden eğitim yapılıyor mu, merak ediyorum.
  • Bu aracın karmaşık join işlemlerini yapıp yapamadığını merak ediyorum. Web sitesinde örnek bulamadım.
  • NLP+ORM sistemi kullanmanın neden daha iyi olduğunu anlayamıyorum. Sabit bir sözdizimi kullanmak gerekir ama %100 doğruluk elde edilebilir.
  • Yakın zamanda NL-to-SQL'i bir prototipte kullandım. Hatalı ya da kötü niyetli kullanıcıların veritabanını etkilemesini nasıl önleyeceğimiz sorun olmuştu. Bununla ilgili diğer yönleri konuşmak isterseniz benimle iletişime geçebilirsiniz.