12 puan yazan xguru 2024-07-03 | 1 yorum | WhatsApp'ta paylaş
  • Yapılandırılmamış metinden anlamlı yapılandırılmış veri çıkarmak için LLM'nin güçlü yeteneklerini kullanacak şekilde tasarlanmış bir veri hattı ve dönüşüm araçları paketi
  • Daha önce görülmemiş veri kümeleri üzerinde soru-cevap yapılmasını mümkün kılan grafik tabanlı bir yaklaşım
  • Şubat ayında tanıtılan bu araç artık açık kaynak olarak yayımlandı ve daha yapılandırılmış bilgi erişimi ile daha kapsamlı yanıt üretimi sağlıyor

Başlıca özellikler

  • Büyük dil modelleri (LLM) kullanarak metin belge koleksiyonlarından zengin bilgi grafikleri otomatik olarak çıkarır
  • Bu grafik tabanlı veri indeksi, kullanıcı sorgusundan önce verinin anlamsal yapısını ortaya koyabilir
  • Yoğun biçimde birbirine bağlı düğümlerden oluşan "toplulukları" hiyerarşik olarak tespit ederek grafiği üst düzey konulardan alt düzey konulara kadar birden fazla seviyeye ayırır
  • LLM ile bu toplulukların her birini özetlemek, veri kümesinin hiyerarşik bir özetini oluşturur; böylece hangi soruların sorulması gerektiğini önceden bilmeden veri kümesi anlaşılabilir
  • Her topluluk, ilgili varlıkları ve ilişkileri açıklayan topluluk özetinin temelini oluşturur

Veri kümesinin tamamını kapsayan sorulara verilen yanıtlardaki avantajlar

  • Bu tür "topluluk özetleri", vektör aramaya dayalı naive RAG yaklaşımının yetersiz kaldığı küresel sorularda (veri kümesinin tamamını kapsayan sorular) nasıl yardımcı olabilir?
  • Örneğin, "Veri kümesindeki ana temalar nelerdir?" gibi sorular naive RAG'nin çoğu zaman yanıltıcı cevaplar vermesine yol açar
  • Küresel sorulara yanıt vermek için tüm girdi metinlerinin dikkate alınması gerekir
  • Topluluk özetleri, küresel veri bağlamındaki ilgili her şeyi koruyan bir map-reduce yaklaşımı kullanarak bu tür küresel soruları yanıtlayabilir:
    1. Topluluk raporlarını LLM bağlam penceresi boyutuna kadar gruplar
    2. Her gruba soruyu eşleyerek topluluk yanıtları üretir
    3. İlgili tüm topluluk yanıtlarını tek bir nihai küresel yanıta indirger

Değerlendirme ve sonuçlar

  • Bu yaklaşımı naive RAG ve hiyerarşik kaynak metin özetleme ile karşılaştırmak için LLM GPT-4 kullanılarak activity-centered sense-making türünde çeşitli sorular üretildi
  • Üretilen yanıtlar için 3 değerlendirme ölçütü seçildi: comprehensiveness (tüm yönleri ayrıntılı biçimde ele alma), diversity (çeşitli bakış açıları sunma), empowerment (bilinçli karar vermeyi destekleme)
  • GraphRAG, naive RAG'ye kıyasla comprehensiveness ve diversity açısından daha iyi performans gösterdi (~%70-80 kazanma oranı)
  • Ayrıca GraphRAG, orta ve düşük seviyeli topluluk özetleri kullanıldığında bu açılarda kaynak metin özetlemeden daha düşük token maliyetiyle daha iyi performans gösterdi (sorgu başına yaklaşık %20-70 token kullanımı)
  • En üst seviyedeki topluluklar için hiyerarşik kaynak metin özetlemeyle rekabetçi performans sergiledi ve token maliyeti çok daha düşüktü (sorgu başına yaklaşık %2-3 token kullanımı)

Araştırma içgörüleri ve gelecek yönelimler

  • İlk araştırma döngüsü, LLM'nin yapılandırılmamış metin girdilerinden zengin bilgi grafikleri başarıyla çıkarabildiğini ortaya koydu
  • Bu grafikler, naive RAG'nin uygun yanıtlar üretemediği ve hiyerarşik kaynak metin özetlemenin aşırı pahalı olduğu yeni bir küresel sorgu türünü destekleyebilir
  • Şu anda, grafik indeks üretiminin başlangıç maliyetini koruyarak bu maliyetleri azaltmaya yönelik çeşitli yaklaşımlar araştırılıyor
  • Problem alanına göre LLM çıkarım istemlerini otomatik uyarlamaya yönelik güncel çalışmalar; bu istemleri özelleştirmek, varlık türlerini listelemek ve örnekler oluşturmak için gereken ön hazırlığı azaltma yollarına örnek teşkil ediyor
  • GraphRAG ve çözüm hızlandırıcılarının herkese açık biçimde kullanılabilir hâle getirilmesiyle, veriyi bütünsel olarak anlamanın kritik olduğu kullanıcılar ve kullanım senaryoları için grafik tabanlı RAG yaklaşımının daha erişilebilir olması hedefleniyor

1 yorum

 
xguru 2024-07-04
Hacker News görüşleri
  • Microsoft’un GraphRAG projesi, modern extraction kütüphaneleri olmadan bilgi grafiği oluşturma yöntemini kullanıyor

    • Bunun nedeni, GPT-4 gibi modellerin belirli biçim talimatlarını iyi takip etmesi olabilir
    • İstenen şemaya uyması için örnekler veriliyor
  • Microsoft’un GraphRAG’ı açık kaynak olarak yayımlamasına çok sevindim

    • GraphRAG ve Llama3’ü MacBook’ta denemeyi planlıyorum
    • Bu aracın oyunun kurallarını değiştirebileceğini düşünüyorum
  • GraphRAG Method hakkında daha ayrıntılı bilgi arayanlar için bir bağlantı paylaşılıyor

  • GraphRAG projesi, vector database’lerin karmaşık arama sorguları için eksiksiz bir RAG çözümü sunabileceğini gösteriyor

    • Doğru bir bilgi grafiği kurmak için metni yalnızca LLM’e yüklemek yeterli değil
    • Bunun için güvenilir bir ontoloji üretmek amacıyla GraphRAG-SDK yazılmış
  • Bilgi grafikleri geleneksel semantic search’ün yerini almıyor, ancak RAG uygularken yeni yetenekler sağlıyor

    • Uzun bağlamlarda gezinebilir veya farklı bağlamları tutarlı ve verimli şekilde keşfedebilir
    • LLM kullanarak grafik üretme denemelerimde sonuçlar yetersiz kalmıştı
    • Bunu denemeyi dört gözle bekliyorum
  • Makaleyi doğru anladıysam, indeksleme aşamasında varlık çıkarımı ve grafik indeksi oluşturmak için LLM birden çok kez çalıştırılıyor

    • Küme oluşturmak için grafik birden çok kez çalıştırılıyor
    • Sorgu aşamasında her kümede yanıt üretmek ve puanlamak için tüm kümeler çalıştırılıyor
    • En düşük puanlı yanıt dışındaki tüm yanıtlar çalıştırılarak "global yanıt" oluşturuluyor
    • Bu hesaplama gereksinimleri büyük veri kümeleri için taşınamayacak kadar ağır olabilir
  • Grafikler ve LLM’lerle birkaç küçük proje üzerinde çalıştım ve bu yaklaşımın işe yaradığını doğruladım

    • Bunun prompt engineering ve birden fazla geçişle çözülebileceğini fark ettim
    • Bunu deneyeceğim; sonuçlar iyi olursa Python ekosisteminden çıkmak için çaba göstereceğim
  • Bunun LlamaIndex’in Knowledge Graph RAG Query motoruyla ilişkili olup olmadığını merak ediyorum

  • Örnek olarak Rusya-Ukrayna savaşının seçilmesi ilginç

    • Bu, askeri veri analizi sözleşmelerini hedefleyen bilinçli bir tercih olabilir
  • Makaleyi okuduktan sonra bu projeyi denemek istedim

    • Kendim uygulamaya çalıştım, ancak kodun birkaç hafta sonra çıkacağını düşünmüştüm
    • Sabır karşılığını verdi