Yapay zeka veri altyapısının yükselişi

(felicis.com)

16 puan yazan xguru 2024-11-25 | Henüz yorum yok. | WhatsApp'ta paylaş

"Şu anda yeni bir sanayi devriminin başlangıcındayız. Elektrik üretmek yerine yapay zeka üretiyoruz.. [açık kaynak], her şirketin bir yapay zeka şirketi olabilmesini sağlıyor" - Jensen Huang

Belgelerden bilgi çıkarmak yeni bir kavram değil. Ancak üretken yapay zeka (GenAI), büyük miktarda yüksek kaliteli veriye ihtiyaç duyar
Hem eğitim hem de çıkarım için veri kritiktir; bu, yalnızca veri ölçeğiyle sınırlı olmayıp metin ve tablo verisinden video, görüntü ve sese kadar genişler
Uydu görüntüleri, robot sensör verileri gibi mekânsal verilerin artışı da gözlemleniyor
Veri katmanında, yapay zeka nedeniyle en hızlı biçimde yeniden icat edilebilecek yeni alanlar hangileri?
- Yapılandırılmamış veri çıkarımı ve boru hatları, Retrieval-Augmented Generation (RAG), veri kürasyonu, veri depolama, yapay zeka belleği
Bu yazının amacı, yapay zeka veri altyapısı ortamını analiz etmek, son trendleri paylaşmak ve en umut verici inovasyon alanlarını ele almak

Yapay zeka veri altyapısının mevcut durumu

Yapay zeka veri değer zincirindeki veri akışını basitçe görselleştirerek, veri eğitimi ve çıkarım sürecindeki akışı açıklamayı amaçlıyor
Veri altyapısının değer zinciri altı ana alana ayrılıyor
- Veri kaynakları (Sources)
- Veri alımı ve dönüşüm (Ingestion & Transformation)
- Depolama (Storage)
- Eğitim (Training)
- Çıkarım (Inference)
- Veri hizmetleri (Data Services)

Veri kaynakları

Uygulama verileri: Salesforce, ServiceNow vb. sistemlerden çıkarılır
Gerçek zamanlı veriler: sensör, üretim, sağlık verileri
OLTP veritabanları: Oracle, MongoDB gibi işlem verileri
Sentetik veri: gerçek dünyadan toplanmamış, yapay olarak üretilmiş veri (e.g., Mostly AI, Datagen, Tonic)
- Maliyet açısından verimlidir ve veri uyumluluğu bakımından avantaj sağlar
- Ancak istatistiksel aykırı değerlerin temsilinde yetersiz kaldığı için model performansını optimize etmede sınırlamalar vardır
Web verileri: web scraping ile herkese açık veri toplanır (e.g., Browse AI, Apify)
- Büyük ölçekli veri modeli eğitiminde gereklidir, ancak herkese açık verilerin tükenme ihtimali vardır (2026~2032 öngörüsü)

Veri alımı ve dönüşüm

Veri boru hatları, veriyi kaynağından hedefe taşıma ve analiz edilebilir duruma dönüştürme sürecidir
- ETL/ELT: geleneksel yaklaşım (batch processing, streaming processing)
- Feature engineering/pipeline: ML'de çoğunlukla tablo verisi işleme
- Yapılandırılmamış veri boru hatları: veri çıkarma, dönüştürme ve depolama süreçlerini birleştirerek yapılandırılmamış veriyi düzenler ve saklar
Boru hattı türleri
- Batch processing: veriyi belirli zaman aralıklarında çıkarma ve yükleme
- Streaming processing: veriyi gerçek zamanlı yükleme (Kafka, Flink vb.)
Araçlar ve framework'ler
- Streaming (Kafka, Confluent), işleme motorları (Databricks, Flink), orkestrasyon araçları (Astronomer, Dagster, Airflow, Prefect vb.)
- Etiketleme araçları: LabelBox, Scale AI vb. (test verisi etiketleme önemlidir)
  - Batch: ETL (Airbyte, Fivetran), transform (dbt, coalesce)
  - Yapılandırılmamış veri işleme: Datavolo, Unstructured, LlamaIndex vb.

Veri depolama

Geleneksel yaklaşım: veri warehouse içinde depolama
Yapay zeka için kullanılan veri:
- Data lake ve lakehouse yapılarının kullanımı
- Vektör veritabanları üzerinden veri embedding'lerinin saklanması
Başlıca araçlar:
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS vb.
  - Vektör DB: Pinecone, Chroma, Milvus, Weaviete vb.

Model eğitimi

Öğrenme yöntemleri:
- Denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme
Büyük dil modeli (LLM) eğitim süreci:
- Ön eğitim: denetimsiz öğrenmeyle veri kalıplarını tanıma
- Denetimli öğrenme: performans optimizasyonu
- Pekiştirmeli öğrenme (RLHF): insan geri bildirimiyle performans artırma
Doğrulama ve değerlendirme:
- Doğruluk, kesinlik, kaybı en aza indirme vb. ile model uygunluğunu değerlendirme
Son aşama:
- Güvenlik testleri, yönetişim ve compliance kontrolleri
Başlıca araçlar:
- Training: TensorFlow, Modular
  - Evaluation: neptune.ai, Weights & Biases
  - MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
  - Model: OpenAI, Cohere, Mistral AI, Runway

Model çıkarımı

Süreç:
- Prompt girişi → tokenization/vectorization → veri işleme → çıktı üretimi
Özelleştirme:
- Vektör veritabanı ile LLM entegrasyonu
- Kullanıcının bağlamını yansıtan benzersiz sonuçlar üretme
Temel dikkat noktaları:
- Veri güvenliği, model kalitesi, compliance
Başlıca araçlar:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Veri hizmetleri

Kategoriler:
- Veri güvenliği: erişim kontrolü, veri sızıntısı önleme (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Veri görünürlüğü: veri boru hatlarının kalite ve performansını izleme (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Veri kataloğu: metadata'nın merkezileştirilmesi, veri varlıklarının organize edilmesi (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
Sonuç:
- Veri ne kadar iyi organize edilirse güvenlik, görünürlük ve yönetim o kadar verimli olur

[Yapay zeka nedeniyle verinin yeniden şekillenmesi]

Yapay zeka nedeniyle veri altyapısının şu alanlarında inovasyon gözlemleniyor:

1. Yapay zeka ajanları ve uygulamaları için yapılandırılmamış veri boru hatları

Yapılandırılmamış veri boru hatlarının yükselişi:
- Konuşmalı yapay zeka ve ajan uygulamalarında dahili yapılandırılmamış veriyi kullanma talebi artıyor
- Yapılandırılmamış veri boru hatları, geleneksel veri boru hatlarına benzer süreçler içerir: veri çıkarma, dönüştürme, indeksleme, depolama
Başlıca veri kaynakları:
- PDF metinleri, bilgi tabanları, görseller vb.
- Ağırlıklı olarak konuşmalı yapay zeka kullanım senaryolarını destekleyen veriler
Fark yaratan unsurlar:
- Dönüşüm aşamasında mevcut boru hatlarından farklılaşır:
  - Veri chunking: veriyi küçük parçalara bölme
  - Metadata çıkarımı: indeksleme için gerekli veriyi üretme
  - Embedding: her veri parçasını vektör biçimine dönüştürüp saklama
Başarı faktörleri:
- Chunking stratejisi ve embedding modeli seçimi, veri arama doğruluğunu ciddi biçimde etkiler
- Alan odaklı embedding modelleri ortaya çıkıyor: örneğin kod ve hukuk içeriğine özel modeller
Vektör uyumlu veritabanlarının kullanımı:
- Yapılandırılmamış veriyi depolayıp sorgulanabilir biçime dönüştürür
- RAG (Retrieval-Augmented Generation) ve ajanlar aracılığıyla LLM kişiselleştirmesi mümkün olur
Başlıca gözlemler
- Ekipler farklı chunking stratejilerini deniyor
- Alana özel embedding modelleri giderek artıyor ve doğruluk ile performansın iyileşmesine katkı sağlıyor
- Şirketler, veriyi kolay sorgulanabilir formata dönüştüren araçlar arıyor

2. Retrieval-Augmented Generation (RAG)

RAG özeti:
- RAG, LLM uygulamalarının verimliliğini artırmak için özelleştirilmiş veriyi kullanan mimari bir workflow'dur
- Nasıl çalışır:
  - Veri yüklenir ve sorgu işleme için "indekslenir"
  - Sorgu, indeks temelinde en ilgili veriyi filtreler
  - Filtrelenmiş bağlam ile sorgu, yanıt üretmek üzere prompt olarak LLM'e iletilir
- Veriyi ürün deneyiminin bir parçası olarak etkinleştirmek mümkündür
RAG'in başlıca avantajları:
- Güncel bilgi sunması:
  - LLM'ler ön eğitim verisiyle sınırlı olduğundan eski veya hatalı yanıtlar verebilir
  - RAG, harici bilgi kaynaklarına erişerek daha güncel yanıtlar sunar
- Olgusallığı güçlendirmesi:
  - LLM'in doğru bilgi veremediği durumları RAG telafi eder
  - Seçilmiş bilgi tabanları kullanılarak daha güvenilir bilgi sağlanır
- Kaynak sunması:
  - LLM yanıtlarına alıntı ve açıklama eklemek mümkündür
  - Kullanıcı güvenini artırır

3. Eğitim ve çıkarım performansını artırmak için veri kürasyonu

Veri kürasyonu: en iyi eğitim ve çıkarım performansı için veri setlerini filtreleme ve yapılandırma süreci
- Başlıca çalışmalar:
  - Metin sınıflandırma
  - NSFW filtre uygulama
  - Veri tekrarlarını giderme
  - Batch size optimizasyonu
  - Performans temelli kaynak optimizasyonu
  - Sentetik veriyle veri artırma
Meta Llama-3 duyurusundan içgörüler:
- Eğitim verisi kürasyonu:
  - "En iyi dil modellerini eğitmek için yüksek kaliteli büyük ölçekli veri setlerinin kürasyonu kritiktir"
  - Meta, aşağıdaki veri filtreleme boru hattını geliştirdi:
    - Heuristic filtreler
    - NSFW filtreleri
    - Anlamsal tekrar giderme
    - Veri kalitesini tahmin eden metin sınıflandırıcıları
- Fine-tuning verisi kürasyonu:
  - "Model kalitesindeki en büyük iyileşme, verinin dikkatle kürasyonundan ve insan anotatörlerin anotasyonlarının çok sayıda kalite güvence aşamasından geçirilmesinden elde edilir"
Veri kürasyonunun etkisi:
- Meta AI araştırma ekibine göre:
  - Kürasyon, eğitim süresini %20'ye kadar kısaltır
  - Downstream doğruluğu iyileştirir
  - İnternet verisinin tükenmesi durumunda bile model performansını iyileştirmek için bir yol sunar
Gelecek yönelim:
- Model eğitimi ve fine-tuning için otomatik yüksek kaliteli veri filtreleri, tekrar giderme ve sınıflandırıcılar önemli olacak
- Datology AI gibi şirketler bunu hayata geçirmek için çalışıyor

4. Yapay zeka için veri depolama

Yapay zeka verisinin depolanmasında üç ana trend var:
- Vektör veritabanları
- Data lake'lerin yükselişi
- Lakehouse'a artan yatırım
Vektör veritabanlarının önemi:
- Vektör veritabanları, yapay zeka patlamasının temel teknolojilerinden biri olarak öne çıkıyor
- Veri embedding'lerini (sayısal gösterimler) saklamak için uygundur:
  - Yapılandırılmamış veriyi (görüntü, ses, video vb.) sayısal biçime dönüştürüp depolar
  - Anlamsal aramayı destekler (ör. "dog" aramasında "wolf" veya "puppy" döndürmek gibi)
- Vektör veritabanı biçimleri:
  - Native vektör veritabanı: yalnızca vektör depolama için tasarlanmıştır
  - Mevcut veritabanı genişletmeleri: mevcut veritabanlarına vektör desteği ekler
- Kullanım senaryosu: LLM kişiselleştirme
  - Şirketin özel verileri vektör embedding olarak depolanıp aranabilir hale gelir
  - Yapay zeka ajanları bu yapıyı kullanarak özelleştirilmiş deneyimler sunar
Data lake ve lakehouse
- Data lake'lerin yükselişi:
  - Şirketlerin çoğu büyük ölçekli veriyi data lake içinde depoluyor
  - Özel yapay zeka geliştirmek için data lake kullanımı zorunlu hale geliyor
- Lakehouse mimarisi:
  - Data lake'i etkili biçimde yönetmek ve sorgulamak için mimari sunar
  - Veriyi açık tablo formatı ile düzenler:
    - Iceberg, Delta Lake, Hudi vb. kullanılır
  - Veri organizasyonunu ve sorgu performansını iyileştirir
- Databricks'in rolü:
  - Databricks, Tabular'ı satın alarak Delta Lake ve Iceberg geliştirme ekiplerini birleştirdi
  - Rakiplerin girişini zorlaştırırken lakehouse teknolojisinin gelişimine öncülük ediyor

5. Yapay zeka belleği

Yapay zeka belleğinin yükselişi:
- ChatGPT'nin bellek özelliğini duyurmasının ardından yapay zeka belleği başlıca tartışma konularından biri oldu
- Standart yapay zeka sistemlerinde güçlü epizodik bellek ve etkileşimler arası süreklilik eksik:
  - Mevcut sistemler bir tür kısa süreli hafıza kaybı durumunda
  - Karmaşık sıralı akıl yürütme ve çok ajanlı sistemlerde bilgi paylaşımı açısından kısıtlar var
Çok ajanlı sistemlerde bellek
- Sistemler çok ajanlı yapılara evrildikçe ajanlar arası bellek yönetim sistemlerine ihtiyaç doğuyor
- Fonksiyon gereksinimleri:
  - Ajan bazında anıların saklanması ve oturumlar arası erişim desteği
  - Erişim ve gizlilik kontrollerinin dahil edilmesi
  - Ajanlar arasında bellek havuzlama:
    - Bir ajanın başka bir ajanın deneyiminden yararlanabilmesi
    - Karar verme yeteneğinin iyileşmesi
- Hiyerarşik bellek ihtiyacı:
  - Erişim sıklığına, öneme ve maliyete göre belleğin katmanlı biçimde saklanması
MemGPT: yapay zeka bellek yönetiminde öncü framework
- MemGPT'nin vizyonu: LLM'lerin yeni nesil işletim sistemi (OS) evrimine öncülük etmesi
- Mimariye genel bakış:
  - Bellek türleri:
    - Ana bağlam belleği: ana bellek (RAM) benzeri
    - Harici bağlam belleği: disk belleği/disk depolama benzeri
Yapay zeka belleğinin önemi
- Kişiselleştirme, öğrenme ve reflection'ı destekler; yapay zeka uygulamalarının gelişimi için kritiktir
- Ajanlar arası iş birliği ve bellek paylaşımı sayesinde karmaşık görevleri çözme kapasitesini artırır

Yapay zeka iş yüklerinde fırsatlar

Yapay zeka iş yükleri ve veri altyapısı:
- GenAI'nin yükselişi veri altyapısının her yönünü değiştirmiş değil, ancak şu teknolojilerin ortaya çıkışı son derece heyecan verici bir gelişme:
  - Yapılandırılmamış veri çıkarımı ve boru hatları
  - Retrieval-Augmented Generation (RAG)
  - Veri kürasyonu
  - Veri depolama
  - Yapay zeka belleği
Felicis'in yatırım stratejisi
- Yapay zeka ve veri altyapısının geleceğine odaklanma:
  - Veri ve altyapı katmanıyla ilgili girişimlere yatırım yapıyor
  - Başlıca yatırım örnekleri:
    - Datology: veri kürasyonu
    - Metaplane: data observability
    - MotherDuck: serverless veri warehouse
    - Weights & Biases: deney izleme aracı
Yapay zeka pazarının büyüme potansiyeli
- Ölçeklenme potansiyeli:
  - Yapay zeka pazarı, chatbot'lardan çok ajanlı workflow'lara kadar genişleyerek büyüyor
  - Şu an yalnızca başlangıç aşamasındayız ve önümüzde daha çok gelişme alanı var
- Veri çözümlerinin önemi:
  - Başarılı yapay zeka uygulamaları için veri çözümleri kritik önemde
  - Yapay zeka iş yüklerini destekleyen büyük ölçekli veri işletmelerinin kurulması bekleniyor

Yapay zeka veri altyapısının yükselişi

Yapay zeka veri altyapısının mevcut durumu

Veri kaynakları

Veri alımı ve dönüşüm

Veri depolama

Model eğitimi

Model çıkarımı

Veri hizmetleri

[Yapay zeka nedeniyle verinin yeniden şekillenmesi]

1. Yapay zeka ajanları ve uygulamaları için yapılandırılmamış veri boru hatları

2. Retrieval-Augmented Generation (RAG)

3. Eğitim ve çıkarım performansını artırmak için veri kürasyonu

4. Yapay zeka için veri depolama

5. Yapay zeka belleği

Yapay zeka iş yüklerinde fırsatlar

İlgili okumalar

Henüz yorum yok.