16 puan yazan xguru 2024-11-25 | Henüz yorum yok. | WhatsApp'ta paylaş

> "Şu anda yeni bir sanayi devriminin başlangıcındayız. Elektrik üretmek yerine yapay zeka üretiyoruz.. [açık kaynak], her şirketin bir yapay zeka şirketi olabilmesini sağlıyor" - Jensen Huang

  • Belgelerden bilgi çıkarmak yeni bir kavram değil. Ancak üretken yapay zeka (GenAI), büyük miktarda yüksek kaliteli veriye ihtiyaç duyar
  • Hem eğitim hem de çıkarım için veri kritiktir; bu, yalnızca veri ölçeğiyle sınırlı olmayıp metin ve tablo verisinden video, görüntü ve sese kadar genişler
  • Uydu görüntüleri, robot sensör verileri gibi mekânsal verilerin artışı da gözlemleniyor
  • Veri katmanında, yapay zeka nedeniyle en hızlı biçimde yeniden icat edilebilecek yeni alanlar hangileri?
    • Yapılandırılmamış veri çıkarımı ve boru hatları, Retrieval-Augmented Generation (RAG), veri kürasyonu, veri depolama, yapay zeka belleği
  • Bu yazının amacı, yapay zeka veri altyapısı ortamını analiz etmek, son trendleri paylaşmak ve en umut verici inovasyon alanlarını ele almak

Yapay zeka veri altyapısının mevcut durumu

  • Yapay zeka veri değer zincirindeki veri akışını basitçe görselleştirerek, veri eğitimi ve çıkarım sürecindeki akışı açıklamayı amaçlıyor
  • Veri altyapısının değer zinciri altı ana alana ayrılıyor
    • Veri kaynakları (Sources)
    • Veri alımı ve dönüşüm (Ingestion & Transformation)
    • Depolama (Storage)
    • Eğitim (Training)
    • Çıkarım (Inference)
    • Veri hizmetleri (Data Services)

Veri kaynakları

  • Uygulama verileri: Salesforce, ServiceNow vb. sistemlerden çıkarılır
  • Gerçek zamanlı veriler: sensör, üretim, sağlık verileri
  • OLTP veritabanları: Oracle, MongoDB gibi işlem verileri
  • Sentetik veri: gerçek dünyadan toplanmamış, yapay olarak üretilmiş veri (e.g., Mostly AI, Datagen, Tonic)
    • Maliyet açısından verimlidir ve veri uyumluluğu bakımından avantaj sağlar
    • Ancak istatistiksel aykırı değerlerin temsilinde yetersiz kaldığı için model performansını optimize etmede sınırlamalar vardır
  • Web verileri: web scraping ile herkese açık veri toplanır (e.g., Browse AI, Apify)
    • Büyük ölçekli veri modeli eğitiminde gereklidir, ancak herkese açık verilerin tükenme ihtimali vardır (2026~2032 öngörüsü)

Veri alımı ve dönüşüm

  • Veri boru hatları, veriyi kaynağından hedefe taşıma ve analiz edilebilir duruma dönüştürme sürecidir
    • ETL/ELT: geleneksel yaklaşım (batch processing, streaming processing)
    • Feature engineering/pipeline: ML'de çoğunlukla tablo verisi işleme
    • Yapılandırılmamış veri boru hatları: veri çıkarma, dönüştürme ve depolama süreçlerini birleştirerek yapılandırılmamış veriyi düzenler ve saklar
  • Boru hattı türleri
    • Batch processing: veriyi belirli zaman aralıklarında çıkarma ve yükleme
    • Streaming processing: veriyi gerçek zamanlı yükleme (Kafka, Flink vb.)
  • Araçlar ve framework'ler
    • Streaming (Kafka, Confluent), işleme motorları (Databricks, Flink), orkestrasyon araçları (Astronomer, Dagster, Airflow, Prefect vb.)
    • Etiketleme araçları: LabelBox, Scale AI vb. (test verisi etiketleme önemlidir)
      • Batch: ETL (Airbyte, Fivetran), transform (dbt, coalesce)
      • Yapılandırılmamış veri işleme: Datavolo, Unstructured, LlamaIndex vb.

Veri depolama

  • Geleneksel yaklaşım: veri warehouse içinde depolama
  • Yapay zeka için kullanılan veri:
    • Data lake ve lakehouse yapılarının kullanımı
    • Vektör veritabanları üzerinden veri embedding'lerinin saklanması
  • Başlıca araçlar:
    • Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS vb.
      • Vektör DB: Pinecone, Chroma, Milvus, Weaviete vb.

Model eğitimi

  • Öğrenme yöntemleri:
    • Denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme
  • Büyük dil modeli (LLM) eğitim süreci:
    • Ön eğitim: denetimsiz öğrenmeyle veri kalıplarını tanıma
    • Denetimli öğrenme: performans optimizasyonu
    • Pekiştirmeli öğrenme (RLHF): insan geri bildirimiyle performans artırma
  • Doğrulama ve değerlendirme:
    • Doğruluk, kesinlik, kaybı en aza indirme vb. ile model uygunluğunu değerlendirme
  • Son aşama:
    • Güvenlik testleri, yönetişim ve compliance kontrolleri
  • Başlıca araçlar:
    • Training: TensorFlow, Modular
      • Evaluation: neptune.ai, Weights & Biases
      • MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
      • Model: OpenAI, Cohere, Mistral AI, Runway

Model çıkarımı

  • Süreç:
    • Prompt girişi → tokenization/vectorization → veri işleme → çıktı üretimi
  • Özelleştirme:
    • Vektör veritabanı ile LLM entegrasyonu
    • Kullanıcının bağlamını yansıtan benzersiz sonuçlar üretme
  • Temel dikkat noktaları:
    • Veri güvenliği, model kalitesi, compliance
  • Başlıca araçlar:
    • Tooling: ANON, E2B
    • Memory: MemGPT, cognee.ai
    • RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
    • Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Veri hizmetleri

  • Kategoriler:
    • Veri güvenliği: erişim kontrolü, veri sızıntısı önleme (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
    • Veri görünürlüğü: veri boru hatlarının kalite ve performansını izleme (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
    • Veri kataloğu: metadata'nın merkezileştirilmesi, veri varlıklarının organize edilmesi (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
  • Sonuç:
    • Veri ne kadar iyi organize edilirse güvenlik, görünürlük ve yönetim o kadar verimli olur

[Yapay zeka nedeniyle verinin yeniden şekillenmesi]

Yapay zeka nedeniyle veri altyapısının şu alanlarında inovasyon gözlemleniyor:

1. Yapay zeka ajanları ve uygulamaları için yapılandırılmamış veri boru hatları

  • Yapılandırılmamış veri boru hatlarının yükselişi:
    • Konuşmalı yapay zeka ve ajan uygulamalarında dahili yapılandırılmamış veriyi kullanma talebi artıyor
    • Yapılandırılmamış veri boru hatları, geleneksel veri boru hatlarına benzer süreçler içerir: veri çıkarma, dönüştürme, indeksleme, depolama
  • Başlıca veri kaynakları:
    • PDF metinleri, bilgi tabanları, görseller vb.
    • Ağırlıklı olarak konuşmalı yapay zeka kullanım senaryolarını destekleyen veriler
  • Fark yaratan unsurlar:
    • Dönüşüm aşamasında mevcut boru hatlarından farklılaşır:
      • Veri chunking: veriyi küçük parçalara bölme
      • Metadata çıkarımı: indeksleme için gerekli veriyi üretme
      • Embedding: her veri parçasını vektör biçimine dönüştürüp saklama
  • Başarı faktörleri:
    • Chunking stratejisi ve embedding modeli seçimi, veri arama doğruluğunu ciddi biçimde etkiler
    • Alan odaklı embedding modelleri ortaya çıkıyor: örneğin kod ve hukuk içeriğine özel modeller
  • Vektör uyumlu veritabanlarının kullanımı:
    • Yapılandırılmamış veriyi depolayıp sorgulanabilir biçime dönüştürür
    • RAG (Retrieval-Augmented Generation) ve ajanlar aracılığıyla LLM kişiselleştirmesi mümkün olur
  • Başlıca gözlemler
    • Ekipler farklı chunking stratejilerini deniyor
    • Alana özel embedding modelleri giderek artıyor ve doğruluk ile performansın iyileşmesine katkı sağlıyor
    • Şirketler, veriyi kolay sorgulanabilir formata dönüştüren araçlar arıyor

2. Retrieval-Augmented Generation (RAG)

  • RAG özeti:
    • RAG, LLM uygulamalarının verimliliğini artırmak için özelleştirilmiş veriyi kullanan mimari bir workflow'dur
    • Nasıl çalışır:
      • Veri yüklenir ve sorgu işleme için "indekslenir"
      • Sorgu, indeks temelinde en ilgili veriyi filtreler
      • Filtrelenmiş bağlam ile sorgu, yanıt üretmek üzere prompt olarak LLM'e iletilir
    • Veriyi ürün deneyiminin bir parçası olarak etkinleştirmek mümkündür
  • RAG'in başlıca avantajları:
    • Güncel bilgi sunması:
      • LLM'ler ön eğitim verisiyle sınırlı olduğundan eski veya hatalı yanıtlar verebilir
      • RAG, harici bilgi kaynaklarına erişerek daha güncel yanıtlar sunar
    • Olgusallığı güçlendirmesi:
      • LLM'in doğru bilgi veremediği durumları RAG telafi eder
      • Seçilmiş bilgi tabanları kullanılarak daha güvenilir bilgi sağlanır
    • Kaynak sunması:
      • LLM yanıtlarına alıntı ve açıklama eklemek mümkündür
      • Kullanıcı güvenini artırır

3. Eğitim ve çıkarım performansını artırmak için veri kürasyonu

  • Veri kürasyonu: en iyi eğitim ve çıkarım performansı için veri setlerini filtreleme ve yapılandırma süreci
    • Başlıca çalışmalar:
      • Metin sınıflandırma
      • NSFW filtre uygulama
      • Veri tekrarlarını giderme
      • Batch size optimizasyonu
      • Performans temelli kaynak optimizasyonu
      • Sentetik veriyle veri artırma
  • Meta Llama-3 duyurusundan içgörüler:
    • Eğitim verisi kürasyonu:
      • "En iyi dil modellerini eğitmek için yüksek kaliteli büyük ölçekli veri setlerinin kürasyonu kritiktir"
      • Meta, aşağıdaki veri filtreleme boru hattını geliştirdi:
        • Heuristic filtreler
        • NSFW filtreleri
        • Anlamsal tekrar giderme
        • Veri kalitesini tahmin eden metin sınıflandırıcıları
    • Fine-tuning verisi kürasyonu:
      • "Model kalitesindeki en büyük iyileşme, verinin dikkatle kürasyonundan ve insan anotatörlerin anotasyonlarının çok sayıda kalite güvence aşamasından geçirilmesinden elde edilir"
  • Veri kürasyonunun etkisi:
    • Meta AI araştırma ekibine göre:
      • Kürasyon, eğitim süresini %20'ye kadar kısaltır
      • Downstream doğruluğu iyileştirir
      • İnternet verisinin tükenmesi durumunda bile model performansını iyileştirmek için bir yol sunar
  • Gelecek yönelim:
    • Model eğitimi ve fine-tuning için otomatik yüksek kaliteli veri filtreleri, tekrar giderme ve sınıflandırıcılar önemli olacak
    • Datology AI gibi şirketler bunu hayata geçirmek için çalışıyor

4. Yapay zeka için veri depolama

  • Yapay zeka verisinin depolanmasında üç ana trend var:
    • Vektör veritabanları
    • Data lake'lerin yükselişi
    • Lakehouse'a artan yatırım
  • Vektör veritabanlarının önemi:
    • Vektör veritabanları, yapay zeka patlamasının temel teknolojilerinden biri olarak öne çıkıyor
    • Veri embedding'lerini (sayısal gösterimler) saklamak için uygundur:
      • Yapılandırılmamış veriyi (görüntü, ses, video vb.) sayısal biçime dönüştürüp depolar
      • Anlamsal aramayı destekler (ör. "dog" aramasında "wolf" veya "puppy" döndürmek gibi)
    • Vektör veritabanı biçimleri:
      • Native vektör veritabanı: yalnızca vektör depolama için tasarlanmıştır
      • Mevcut veritabanı genişletmeleri: mevcut veritabanlarına vektör desteği ekler
    • Kullanım senaryosu: LLM kişiselleştirme
      • Şirketin özel verileri vektör embedding olarak depolanıp aranabilir hale gelir
      • Yapay zeka ajanları bu yapıyı kullanarak özelleştirilmiş deneyimler sunar
  • Data lake ve lakehouse
    • Data lake'lerin yükselişi:
      • Şirketlerin çoğu büyük ölçekli veriyi data lake içinde depoluyor
      • Özel yapay zeka geliştirmek için data lake kullanımı zorunlu hale geliyor
    • Lakehouse mimarisi:
      • Data lake'i etkili biçimde yönetmek ve sorgulamak için mimari sunar
      • Veriyi açık tablo formatı ile düzenler:
        • Iceberg, Delta Lake, Hudi vb. kullanılır
      • Veri organizasyonunu ve sorgu performansını iyileştirir
    • Databricks'in rolü:
      • Databricks, Tabular'ı satın alarak Delta Lake ve Iceberg geliştirme ekiplerini birleştirdi
      • Rakiplerin girişini zorlaştırırken lakehouse teknolojisinin gelişimine öncülük ediyor

5. Yapay zeka belleği

  • Yapay zeka belleğinin yükselişi:
    • ChatGPT'nin bellek özelliğini duyurmasının ardından yapay zeka belleği başlıca tartışma konularından biri oldu
    • Standart yapay zeka sistemlerinde güçlü epizodik bellek ve etkileşimler arası süreklilik eksik:
      • Mevcut sistemler bir tür kısa süreli hafıza kaybı durumunda
      • Karmaşık sıralı akıl yürütme ve çok ajanlı sistemlerde bilgi paylaşımı açısından kısıtlar var
  • Çok ajanlı sistemlerde bellek
    • Sistemler çok ajanlı yapılara evrildikçe ajanlar arası bellek yönetim sistemlerine ihtiyaç doğuyor
    • Fonksiyon gereksinimleri:
      • Ajan bazında anıların saklanması ve oturumlar arası erişim desteği
      • Erişim ve gizlilik kontrollerinin dahil edilmesi
      • Ajanlar arasında bellek havuzlama:
        • Bir ajanın başka bir ajanın deneyiminden yararlanabilmesi
        • Karar verme yeteneğinin iyileşmesi
    • Hiyerarşik bellek ihtiyacı:
      • Erişim sıklığına, öneme ve maliyete göre belleğin katmanlı biçimde saklanması
  • MemGPT: yapay zeka bellek yönetiminde öncü framework
    • MemGPT'nin vizyonu: LLM'lerin yeni nesil işletim sistemi (OS) evrimine öncülük etmesi
    • Mimariye genel bakış:
      • Bellek türleri:
        • Ana bağlam belleği: ana bellek (RAM) benzeri
        • Harici bağlam belleği: disk belleği/disk depolama benzeri
  • Yapay zeka belleğinin önemi
    • Kişiselleştirme, öğrenme ve reflection'ı destekler; yapay zeka uygulamalarının gelişimi için kritiktir
    • Ajanlar arası iş birliği ve bellek paylaşımı sayesinde karmaşık görevleri çözme kapasitesini artırır

Yapay zeka iş yüklerinde fırsatlar

  • Yapay zeka iş yükleri ve veri altyapısı:
    • GenAI'nin yükselişi veri altyapısının her yönünü değiştirmiş değil, ancak şu teknolojilerin ortaya çıkışı son derece heyecan verici bir gelişme:
      • Yapılandırılmamış veri çıkarımı ve boru hatları
      • Retrieval-Augmented Generation (RAG)
      • Veri kürasyonu
      • Veri depolama
      • Yapay zeka belleği
  • Felicis'in yatırım stratejisi
    • Yapay zeka ve veri altyapısının geleceğine odaklanma:
      • Veri ve altyapı katmanıyla ilgili girişimlere yatırım yapıyor
      • Başlıca yatırım örnekleri:
        • Datology: veri kürasyonu
        • Metaplane: data observability
        • MotherDuck: serverless veri warehouse
        • Weights & Biases: deney izleme aracı
  • Yapay zeka pazarının büyüme potansiyeli
    • Ölçeklenme potansiyeli:
      • Yapay zeka pazarı, chatbot'lardan çok ajanlı workflow'lara kadar genişleyerek büyüyor
      • Şu an yalnızca başlangıç aşamasındayız ve önümüzde daha çok gelişme alanı var
    • Veri çözümlerinin önemi:
      • Başarılı yapay zeka uygulamaları için veri çözümleri kritik önemde
      • Yapay zeka iş yüklerini destekleyen büyük ölçekli veri işletmelerinin kurulması bekleniyor

Henüz yorum yok.

Henüz yorum yok.