6 puan yazan GN⁺ 2024-08-15 | 1 yorum | WhatsApp'ta paylaş
  • Trellis, yapılandırılmamış veriler için yapay zeka destekli bir ETL (Extract, Transform, Load) aracıdır
  • Kullanıcının doğal dille tanımladığı şemaya göre telefon görüşmeleri, PDF'ler ve sohbet içeriklerini yapılandırılmış SQL biçimine dönüştürür
  • Veri ve operasyon ekiplerinin manuel veri girişini otomatikleştirmesine ve karmaşık verileri SQL sorgularıyla işlemesine yardımcı olur

Trellis'in geliştirilme arka planı

  • Stanford AI araştırma laboratuvarında tanıştıktan sonra, çeşitli büyük şirketlerin veri ekipleriyle çalışırken yapılandırılmamış veri sorununu fark ettiler
  • Kurumsal verilerin %80'i yapılandırılmamış verilerden oluşuyor ve mevcut platformlarla bunları işlemek zor
  • Örneğin büyük bir ticari banka, PDF ve e-postalara sıkışmış kritik veriler nedeniyle kredi risk modelini geliştiremiyordu
  • Yapay zeka araştırmalarına dayanarak, yapılandırılmamış verileri şemaya uygun tablolara dönüştüren yapay zeka destekli bir ETL çözümü geliştirdiler

Teknik zorluklar

  • Karmaşık belge desteği: Uzun belgeleri işlemek için LLM tabanlı map-reduce kullanılıyor, tablo ve düzen çıkarımı için ise görsel modellerden yararlanılıyor
  • Model yönlendirme: Her dönüşüm için en uygun model seçilerek maliyet ve hız optimize ediliyor
  • Veri doğrulama ve şema garantisi: Referans bağlantıları ve anomali tespiti ile doğruluk sağlanıyor

Çeşitli kullanım alanları

  • Finansal hizmetler: Karmaşık belgeleri (tahviller, kredi derecelendirmeleri vb.) yapılandırılmış formata dönüştürerek underwriting hızını artırma ve kredi işlemlerini otomatikleştirme
  • Müşteri desteği ve back-office operasyonları: Çeşitli şemalar ile ERP sistemleri arasında belge eşlemesi yaparak onboarding hızını artırma ve SOP uyumunu güvence altına alma
  • Veri ön işleme ve veri toplama: ETL pipeline'larında veri ön işleme ve RAG veri toplama ihtiyacı

GN⁺ özeti

  • Trellis, yapılandırılmamış verileri yapılandırılmış SQL biçimine dönüştüren yapay zeka destekli bir ETL aracıdır ve veri ile operasyon ekiplerinin manuel işlerini otomatikleştirir
  • Karmaşık belge işleme, model yönlendirme ve veri doğrulama gibi teknik zorlukları çözer
  • Finansal hizmetler, müşteri desteği ve veri ön işleme gibi çeşitli sektörlerde faydalı olabilir
  • Özellikle yapılandırılmamış veri işlemede zorlanan şirketler için yararlı olacaktır
  • Benzer işlevlere sahip diğer projeler arasında Alteryx ve Talend bulunur

1 yorum

 
GN⁺ 2024-08-15
Hacker News görüşleri
  • Açık kaynaklı bir Python paketi geliştiriyor ve benzer işlevler sunuyor

    • Enron e-posta demo örneğini paylaşıyor
  • Büyük bir ticari bankada, PDF ve e-postalara hapsolmuş veriler çözülemediği için kredi risk modelleri iyileştirilemedi

    • Bu sorunu çözmek büyük değer yaratır
  • SoundTrace'te ilgili bir proje üzerinde çalıştı

    • Yeni bir müşterinin PDF odyogram verilerini kusursuz şekilde çıkarmaları gerekiyordu
    • Pipeline üzerinden PDF'den OCR ile metin ve tabloları çıkarıp, LLM ile doğrudan parse ettiler
    • Odyogram grafiklerini bir convnet'e gönderip, tabloları programatik olarak parse ettiler
    • Sonuçları Claude sonnet ile doğruladılar ve eşleşmezse manuel incelemeye aldılar
    • Doğruluk neredeyse %100'e ulaştı
  • Instabase'de çalıştı ve PDF ile belge taramalarını işleme yeteneğinin önemli olduğunu söylüyor

  • Trellis'in lansmanını kutluyor ve edge case oranının neredeyse %0 olması gerektiğini belirtiyor

    • Her kuruluşun ihtiyaç duyduğu bir hizmet ve başarılı olursa çok sayıda müşteri kazanacaktır
  • Roe AI ile rekabeti ve farkları hakkında soru soruyor

  • Verinin doğruluğunu nasıl doğruladıklarını merak ediyor

  • Kişisel bir projede TypeChat, Zod ve Unstructured kullanarak benzer bir iş yapıyor

  • OpenAI'nin function calling özelliğini kullanarak binlerce taranmış belgeden alan çıkardı

    • Farklı girdi belge formatlarında bazı alanların geri çağırımı iyi değildi
    • En iyi bilgiyi çıkarmak için JSON schema ile denemeler yaptı
    • Uzun belgelerde tüm belgeyi mi yoksa yalnızca ilgili bölümleri mi göndermesi gerektiğine karar vermek zorundaydı
    • OCR kalitesi iyi değildi
    • Teknik olmayan kullanıcıların #2'yi tekrar tekrar yapabilmesini sağlamak asıl yenilik
  • Büyük sorunu henüz çözememiş olsalar da lansmanı kutluyor

    • Büyük sorunları ve bütçeleri olan müşteriler en çok göz ardı edilenler
    • Palantir benzeri onboarding/entegrasyon ile müşteriye özel çözümler sunuluyor
    • %99'un üzerindeki doğruluk ve insan müdahalesi etkili oluyor
    • %95'ten %99'a iyileşme büyük fark yaratabilir
    • "Yapay zeka destekli iş akışı" yerine "%99+ doğrulukta çıkarım" vurgulanmalı