Yapay zeka veri altyapısının yükselişi
(felicis.com)> "Şu anda yeni bir sanayi devriminin başlangıcındayız. Elektrik üretmek yerine yapay zeka üretiyoruz.. [açık kaynak], her şirketin bir yapay zeka şirketi olabilmesini sağlıyor" - Jensen Huang
- Belgelerden bilgi çıkarmak yeni bir kavram değil. Ancak üretken yapay zeka (GenAI), büyük miktarda yüksek kaliteli veriye ihtiyaç duyar
- Hem eğitim hem de çıkarım için veri kritiktir; bu, yalnızca veri ölçeğiyle sınırlı olmayıp metin ve tablo verisinden video, görüntü ve sese kadar genişler
- Uydu görüntüleri, robot sensör verileri gibi mekânsal verilerin artışı da gözlemleniyor
- Veri katmanında, yapay zeka nedeniyle en hızlı biçimde yeniden icat edilebilecek yeni alanlar hangileri?
- Yapılandırılmamış veri çıkarımı ve boru hatları, Retrieval-Augmented Generation (RAG), veri kürasyonu, veri depolama, yapay zeka belleği
- Bu yazının amacı, yapay zeka veri altyapısı ortamını analiz etmek, son trendleri paylaşmak ve en umut verici inovasyon alanlarını ele almak
Yapay zeka veri altyapısının mevcut durumu
- Yapay zeka veri değer zincirindeki veri akışını basitçe görselleştirerek, veri eğitimi ve çıkarım sürecindeki akışı açıklamayı amaçlıyor
- Veri altyapısının değer zinciri altı ana alana ayrılıyor
- Veri kaynakları (Sources)
- Veri alımı ve dönüşüm (Ingestion & Transformation)
- Depolama (Storage)
- Eğitim (Training)
- Çıkarım (Inference)
- Veri hizmetleri (Data Services)
Veri kaynakları
- Uygulama verileri: Salesforce, ServiceNow vb. sistemlerden çıkarılır
- Gerçek zamanlı veriler: sensör, üretim, sağlık verileri
- OLTP veritabanları: Oracle, MongoDB gibi işlem verileri
- Sentetik veri: gerçek dünyadan toplanmamış, yapay olarak üretilmiş veri (e.g., Mostly AI, Datagen, Tonic)
- Maliyet açısından verimlidir ve veri uyumluluğu bakımından avantaj sağlar
- Ancak istatistiksel aykırı değerlerin temsilinde yetersiz kaldığı için model performansını optimize etmede sınırlamalar vardır
- Web verileri: web scraping ile herkese açık veri toplanır (e.g., Browse AI, Apify)
- Büyük ölçekli veri modeli eğitiminde gereklidir, ancak herkese açık verilerin tükenme ihtimali vardır (2026~2032 öngörüsü)
Veri alımı ve dönüşüm
- Veri boru hatları, veriyi kaynağından hedefe taşıma ve analiz edilebilir duruma dönüştürme sürecidir
- ETL/ELT: geleneksel yaklaşım (batch processing, streaming processing)
- Feature engineering/pipeline: ML'de çoğunlukla tablo verisi işleme
- Yapılandırılmamış veri boru hatları: veri çıkarma, dönüştürme ve depolama süreçlerini birleştirerek yapılandırılmamış veriyi düzenler ve saklar
- Boru hattı türleri
- Batch processing: veriyi belirli zaman aralıklarında çıkarma ve yükleme
- Streaming processing: veriyi gerçek zamanlı yükleme (Kafka, Flink vb.)
- Araçlar ve framework'ler
- Streaming (Kafka, Confluent), işleme motorları (Databricks, Flink), orkestrasyon araçları (Astronomer, Dagster, Airflow, Prefect vb.)
- Etiketleme araçları: LabelBox, Scale AI vb. (test verisi etiketleme önemlidir)
- Batch: ETL (Airbyte, Fivetran), transform (dbt, coalesce)
- Yapılandırılmamış veri işleme: Datavolo, Unstructured, LlamaIndex vb.
Veri depolama
- Geleneksel yaklaşım: veri warehouse içinde depolama
- Yapay zeka için kullanılan veri:
- Data lake ve lakehouse yapılarının kullanımı
- Vektör veritabanları üzerinden veri embedding'lerinin saklanması
- Başlıca araçlar:
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS vb.
- Vektör DB: Pinecone, Chroma, Milvus, Weaviete vb.
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS vb.
Model eğitimi
- Öğrenme yöntemleri:
- Denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme
- Büyük dil modeli (LLM) eğitim süreci:
- Ön eğitim: denetimsiz öğrenmeyle veri kalıplarını tanıma
- Denetimli öğrenme: performans optimizasyonu
- Pekiştirmeli öğrenme (RLHF): insan geri bildirimiyle performans artırma
- Doğrulama ve değerlendirme:
- Doğruluk, kesinlik, kaybı en aza indirme vb. ile model uygunluğunu değerlendirme
- Son aşama:
- Güvenlik testleri, yönetişim ve compliance kontrolleri
- Başlıca araçlar:
- Training: TensorFlow, Modular
- Evaluation: neptune.ai, Weights & Biases
- MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
- Model: OpenAI, Cohere, Mistral AI, Runway
- Training: TensorFlow, Modular
Model çıkarımı
- Süreç:
- Prompt girişi → tokenization/vectorization → veri işleme → çıktı üretimi
- Özelleştirme:
- Vektör veritabanı ile LLM entegrasyonu
- Kullanıcının bağlamını yansıtan benzersiz sonuçlar üretme
- Temel dikkat noktaları:
- Veri güvenliği, model kalitesi, compliance
- Başlıca araçlar:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi
Veri hizmetleri
- Kategoriler:
- Veri güvenliği: erişim kontrolü, veri sızıntısı önleme (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Veri görünürlüğü: veri boru hatlarının kalite ve performansını izleme (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Veri kataloğu: metadata'nın merkezileştirilmesi, veri varlıklarının organize edilmesi (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
- Sonuç:
- Veri ne kadar iyi organize edilirse güvenlik, görünürlük ve yönetim o kadar verimli olur
[Yapay zeka nedeniyle verinin yeniden şekillenmesi]
Yapay zeka nedeniyle veri altyapısının şu alanlarında inovasyon gözlemleniyor:
1. Yapay zeka ajanları ve uygulamaları için yapılandırılmamış veri boru hatları
- Yapılandırılmamış veri boru hatlarının yükselişi:
- Konuşmalı yapay zeka ve ajan uygulamalarında dahili yapılandırılmamış veriyi kullanma talebi artıyor
- Yapılandırılmamış veri boru hatları, geleneksel veri boru hatlarına benzer süreçler içerir: veri çıkarma, dönüştürme, indeksleme, depolama
- Başlıca veri kaynakları:
- PDF metinleri, bilgi tabanları, görseller vb.
- Ağırlıklı olarak konuşmalı yapay zeka kullanım senaryolarını destekleyen veriler
- Fark yaratan unsurlar:
- Dönüşüm aşamasında mevcut boru hatlarından farklılaşır:
- Veri chunking: veriyi küçük parçalara bölme
- Metadata çıkarımı: indeksleme için gerekli veriyi üretme
- Embedding: her veri parçasını vektör biçimine dönüştürüp saklama
- Dönüşüm aşamasında mevcut boru hatlarından farklılaşır:
- Başarı faktörleri:
- Chunking stratejisi ve embedding modeli seçimi, veri arama doğruluğunu ciddi biçimde etkiler
- Alan odaklı embedding modelleri ortaya çıkıyor: örneğin kod ve hukuk içeriğine özel modeller
- Vektör uyumlu veritabanlarının kullanımı:
- Yapılandırılmamış veriyi depolayıp sorgulanabilir biçime dönüştürür
- RAG (Retrieval-Augmented Generation) ve ajanlar aracılığıyla LLM kişiselleştirmesi mümkün olur
- Başlıca gözlemler
- Ekipler farklı chunking stratejilerini deniyor
- Alana özel embedding modelleri giderek artıyor ve doğruluk ile performansın iyileşmesine katkı sağlıyor
- Şirketler, veriyi kolay sorgulanabilir formata dönüştüren araçlar arıyor
2. Retrieval-Augmented Generation (RAG)
- RAG özeti:
- RAG, LLM uygulamalarının verimliliğini artırmak için özelleştirilmiş veriyi kullanan mimari bir workflow'dur
- Nasıl çalışır:
- Veri yüklenir ve sorgu işleme için "indekslenir"
- Sorgu, indeks temelinde en ilgili veriyi filtreler
- Filtrelenmiş bağlam ile sorgu, yanıt üretmek üzere prompt olarak LLM'e iletilir
- Veriyi ürün deneyiminin bir parçası olarak etkinleştirmek mümkündür
- RAG'in başlıca avantajları:
- Güncel bilgi sunması:
- LLM'ler ön eğitim verisiyle sınırlı olduğundan eski veya hatalı yanıtlar verebilir
- RAG, harici bilgi kaynaklarına erişerek daha güncel yanıtlar sunar
- Olgusallığı güçlendirmesi:
- LLM'in doğru bilgi veremediği durumları RAG telafi eder
- Seçilmiş bilgi tabanları kullanılarak daha güvenilir bilgi sağlanır
- Kaynak sunması:
- LLM yanıtlarına alıntı ve açıklama eklemek mümkündür
- Kullanıcı güvenini artırır
- Güncel bilgi sunması:
3. Eğitim ve çıkarım performansını artırmak için veri kürasyonu
- Veri kürasyonu: en iyi eğitim ve çıkarım performansı için veri setlerini filtreleme ve yapılandırma süreci
- Başlıca çalışmalar:
- Metin sınıflandırma
- NSFW filtre uygulama
- Veri tekrarlarını giderme
- Batch size optimizasyonu
- Performans temelli kaynak optimizasyonu
- Sentetik veriyle veri artırma
- Başlıca çalışmalar:
- Meta Llama-3 duyurusundan içgörüler:
- Eğitim verisi kürasyonu:
- "En iyi dil modellerini eğitmek için yüksek kaliteli büyük ölçekli veri setlerinin kürasyonu kritiktir"
- Meta, aşağıdaki veri filtreleme boru hattını geliştirdi:
- Heuristic filtreler
- NSFW filtreleri
- Anlamsal tekrar giderme
- Veri kalitesini tahmin eden metin sınıflandırıcıları
- Fine-tuning verisi kürasyonu:
- "Model kalitesindeki en büyük iyileşme, verinin dikkatle kürasyonundan ve insan anotatörlerin anotasyonlarının çok sayıda kalite güvence aşamasından geçirilmesinden elde edilir"
- Eğitim verisi kürasyonu:
- Veri kürasyonunun etkisi:
- Meta AI araştırma ekibine göre:
- Kürasyon, eğitim süresini %20'ye kadar kısaltır
- Downstream doğruluğu iyileştirir
- İnternet verisinin tükenmesi durumunda bile model performansını iyileştirmek için bir yol sunar
- Meta AI araştırma ekibine göre:
- Gelecek yönelim:
- Model eğitimi ve fine-tuning için otomatik yüksek kaliteli veri filtreleri, tekrar giderme ve sınıflandırıcılar önemli olacak
- Datology AI gibi şirketler bunu hayata geçirmek için çalışıyor
4. Yapay zeka için veri depolama
- Yapay zeka verisinin depolanmasında üç ana trend var:
- Vektör veritabanları
- Data lake'lerin yükselişi
- Lakehouse'a artan yatırım
- Vektör veritabanlarının önemi:
- Vektör veritabanları, yapay zeka patlamasının temel teknolojilerinden biri olarak öne çıkıyor
- Veri embedding'lerini (sayısal gösterimler) saklamak için uygundur:
- Yapılandırılmamış veriyi (görüntü, ses, video vb.) sayısal biçime dönüştürüp depolar
- Anlamsal aramayı destekler (ör. "dog" aramasında "wolf" veya "puppy" döndürmek gibi)
- Vektör veritabanı biçimleri:
- Native vektör veritabanı: yalnızca vektör depolama için tasarlanmıştır
- Mevcut veritabanı genişletmeleri: mevcut veritabanlarına vektör desteği ekler
- Kullanım senaryosu: LLM kişiselleştirme
- Şirketin özel verileri vektör embedding olarak depolanıp aranabilir hale gelir
- Yapay zeka ajanları bu yapıyı kullanarak özelleştirilmiş deneyimler sunar
- Data lake ve lakehouse
- Data lake'lerin yükselişi:
- Şirketlerin çoğu büyük ölçekli veriyi data lake içinde depoluyor
- Özel yapay zeka geliştirmek için data lake kullanımı zorunlu hale geliyor
- Lakehouse mimarisi:
- Data lake'i etkili biçimde yönetmek ve sorgulamak için mimari sunar
- Veriyi açık tablo formatı ile düzenler:
- Iceberg, Delta Lake, Hudi vb. kullanılır
- Veri organizasyonunu ve sorgu performansını iyileştirir
- Databricks'in rolü:
- Databricks, Tabular'ı satın alarak Delta Lake ve Iceberg geliştirme ekiplerini birleştirdi
- Rakiplerin girişini zorlaştırırken lakehouse teknolojisinin gelişimine öncülük ediyor
- Data lake'lerin yükselişi:
5. Yapay zeka belleği
- Yapay zeka belleğinin yükselişi:
- ChatGPT'nin bellek özelliğini duyurmasının ardından yapay zeka belleği başlıca tartışma konularından biri oldu
- Standart yapay zeka sistemlerinde güçlü epizodik bellek ve etkileşimler arası süreklilik eksik:
- Mevcut sistemler bir tür kısa süreli hafıza kaybı durumunda
- Karmaşık sıralı akıl yürütme ve çok ajanlı sistemlerde bilgi paylaşımı açısından kısıtlar var
- Çok ajanlı sistemlerde bellek
- Sistemler çok ajanlı yapılara evrildikçe ajanlar arası bellek yönetim sistemlerine ihtiyaç doğuyor
- Fonksiyon gereksinimleri:
- Ajan bazında anıların saklanması ve oturumlar arası erişim desteği
- Erişim ve gizlilik kontrollerinin dahil edilmesi
- Ajanlar arasında bellek havuzlama:
- Bir ajanın başka bir ajanın deneyiminden yararlanabilmesi
- Karar verme yeteneğinin iyileşmesi
- Hiyerarşik bellek ihtiyacı:
- Erişim sıklığına, öneme ve maliyete göre belleğin katmanlı biçimde saklanması
- MemGPT: yapay zeka bellek yönetiminde öncü framework
- MemGPT'nin vizyonu: LLM'lerin yeni nesil işletim sistemi (OS) evrimine öncülük etmesi
- Mimariye genel bakış:
- Bellek türleri:
- Ana bağlam belleği: ana bellek (RAM) benzeri
- Harici bağlam belleği: disk belleği/disk depolama benzeri
- Bellek türleri:
- Yapay zeka belleğinin önemi
- Kişiselleştirme, öğrenme ve reflection'ı destekler; yapay zeka uygulamalarının gelişimi için kritiktir
- Ajanlar arası iş birliği ve bellek paylaşımı sayesinde karmaşık görevleri çözme kapasitesini artırır
Yapay zeka iş yüklerinde fırsatlar
- Yapay zeka iş yükleri ve veri altyapısı:
- GenAI'nin yükselişi veri altyapısının her yönünü değiştirmiş değil, ancak şu teknolojilerin ortaya çıkışı son derece heyecan verici bir gelişme:
- Yapılandırılmamış veri çıkarımı ve boru hatları
- Retrieval-Augmented Generation (RAG)
- Veri kürasyonu
- Veri depolama
- Yapay zeka belleği
- GenAI'nin yükselişi veri altyapısının her yönünü değiştirmiş değil, ancak şu teknolojilerin ortaya çıkışı son derece heyecan verici bir gelişme:
- Felicis'in yatırım stratejisi
- Yapay zeka ve veri altyapısının geleceğine odaklanma:
- Veri ve altyapı katmanıyla ilgili girişimlere yatırım yapıyor
- Başlıca yatırım örnekleri:
- Datology: veri kürasyonu
- Metaplane: data observability
- MotherDuck: serverless veri warehouse
- Weights & Biases: deney izleme aracı
- Yapay zeka ve veri altyapısının geleceğine odaklanma:
- Yapay zeka pazarının büyüme potansiyeli
- Ölçeklenme potansiyeli:
- Yapay zeka pazarı, chatbot'lardan çok ajanlı workflow'lara kadar genişleyerek büyüyor
- Şu an yalnızca başlangıç aşamasındayız ve önümüzde daha çok gelişme alanı var
- Veri çözümlerinin önemi:
- Başarılı yapay zeka uygulamaları için veri çözümleri kritik önemde
- Yapay zeka iş yüklerini destekleyen büyük ölçekli veri işletmelerinin kurulması bekleniyor
- Ölçeklenme potansiyeli:
Henüz yorum yok.