Modern AI yığını: Kurumsal AI mimarilerinin geleceği için tasarım ilkeleri

xguru · 2024-01-29T11:05:01+09:00

Modern AI yığınının tanımı Katman 1: Hesaplama ve temel modeller - Temel modellerin kendisini ve modelleri eğitmek, ince ayar yapmak, optimize etmek ve dağıtmak için gereken altyapıyı içerir Katman 2: Veri - LLM’leri kurumsal veri sistemleri içindeki uygun bağlama bağlayan altyapıyı içerir; veri ön işleme, ETL ve veri pipeline’ları, vektör veritabanları, metadata depoları ve context cache gibi temel bileşenleri kapsar Katman 3: Dağıtım - Geliştiricilerin AI uygulamalarını yönetmesine ve orkestre etmesine yardımcı olan araçları içerir. Agent framework’leri, prompt yönetimi, model routing ve orkestrasyon Katman 4: Gözlemlenebilirlik - LLM’lerin çalışma zamanı davranışını izleyen ve tehditlere karşı koruyan çözümleri içerir Yeni AI olgunluk eğrisi Modern AI yığınını tanımlayan pazar yapısı ve teknolojiler hızla evriliyor; temel bileşenler ve liderler şimdiden ortaya çıkmış durumda LLM öncesinde ML geliştirme doğrusal ve "model merkezli" idi; LLM’ler ise bunu "ürün merkezli" hale getirerek ML uzmanlığı olmayan ekiplerin de AI’ı ürünlerine entegre etmesini mümkün kıldı AI yığını olgunlaştıkça geliştirme ekipleri, kurumsal veya müşteriye özgü veriler üzerinden AI deneyimlerini özelleştirmek istiyor AI olgunluk eğrisi aşama: Closed-source models only yalnızca kapalı kaynak modeller 2023’ün başlarında maliyet ve mühendislik çabası büyük ölçüde temel modelin kendisine odaklanıyordu ve bunun üzerinde yalnızca basit özelleştirmeler vardı (prompt engineering / few-shot learning gibi) OpenAI ve Anthropic gibi önde gelen kapalı kaynak model sağlayıcıları bu aşamada ilk ivmeyi yakalayarak modern AI yığınının ilk kazananları olarak konumlandı aşama: Retrieval-augmented generation arama destekli üretim AI uygulama çabalarının merkezini model katmanından veri katmanına kaydırır Özellikle RAG’in yaygınlaşması, Pinecone gibi vektör veritabanları ve Unstructured gibi veri ön işleme motorları dahil daha güçlü veri katmanı altyapısı gerektirir Kurumların ve startup’ların çoğu şu anda bu aşamadadır aşama: Hybrid model deployment hibrit model dağıtımı Typeface ve Descript gibi öncü şirketler, yüksek hacimli alan-özel görevlerde kapalı kaynak model kullanımını açık kaynakla tamamlamaya başladı Modal, Baseten ve Fireworks gibi model dağıtım sağlayıcıları kayda değer ivme kazanmaya başladı aşama ve sonrası: Custom models özel modeller Henüz kendi modelini geliştirecek kadar olgunlaşmış ya da buna ihtiyaç duyan şirket sayısı az, ancak gelecekte yığını daha derin kullanmak isteyen büyük şirketlerde bunun kullanım örnekleri artacak Bellek verimli ince ayar için araçlar sunan Predibase ve Lamini gibi şirketler (4-bit quantization, QLoRA, memory paging/offload dahil) bunu destekleyecek Yeni AI altyapı yığını için dört temel tasarım ilkesi AI devrimi yalnızca yeni bir altyapı yığınına olan talebi tetiklemiyor, aynı zamanda kurumların uygulama geliştirme, Ar-Ge harcamaları ve ekip yapılanmasına yaklaşımını da yeniden şekillendiriyor Temel tasarım ilkeleri: 1. Harcamaların büyük kısmı inference ve training için kullanılıyor LLM devriminin ilk döneminde her şirketin bir gün kendi büyük dil modelini eğitebileceği düşünülüyordu Mart 2023’te duyurulan BloombergGPT gibi modeller (özellikle finansal veriler üzerinde eğitilmiş 50b bir LLM), kurumsal ve alan-özel LLM’lerin çoğalacağının habercisi olarak görüldü Ancak böyle bir patlama yaşanmadı Menlo Ventures’ın yakın tarihli kurumsal AI anketine göre toplam AI harcamalarının yaklaşık %95’i runtime ve pre-training için kullanılıyor Bu oran yalnızca Anthropic gibi büyük temel model sağlayıcılarında tersine dönüyor. Uygulama katmanında ise Writer gibi gelişmiş AI üreticileri bile hesaplama kaynaklarının %80’inden fazlasını training yerine inference için kullanıyor 2. Çok modelli (Multi-Model) bir dünyada yaşıyoruz Tek bir model "hepsine hükmedemez" Şirketlerin %60’ı birden fazla model kullanıyor ve prompt’ları en iyi performansı veren modele yönlendiriyor Çok modelli yaklaşım, tek modele bağımlılığı ortadan kaldırıyor, daha yüksek kontrol sağlıyor ve maliyeti düşürüyor 3. Baskın mimari yaklaşım RAG LLM’ler güçlü çıkarım motorlarıdır, ancak alan-özel ve kuruma özgü bilgi açısından sınırlıdır Faydalı AI deneyimleri oluşturmak için ekipler, arama destekli üretimden (RAG) başlayarak bilgi destekli teknikleri hızla devreye alıyor RAG, Pinecone gibi vektör veritabanları aracılığıyla temel modellere kuruma özgü bir "hafıza" kazandırır Bu teknik, şu anda üretimde kullanılan fine-tuning, low-rank adaptation veya adapter gibi diğer özelleştirme tekniklerinin epey önünde ve esas olarak model katmanından çok veri katmanında çalışır Bu eğilim gelecekte de sürecek; veri düzleminin, veri ön işleme motorları (ör. Cleanlab) ve ETL pipeline’ları (ör. Unstructured) dahil yeni parçalarının çalışma zamanı mimarisine entegre olması bekleniyor 4. Artık her geliştirici bir AI geliştiricisi Dünya genelinde 30 milyon geliştiriciye karşılık yalnızca 300 bin ML mühendisi ve 30 bin ML araştırmacısı var ML’nin en ileri hattında yenilik yapanlar arasında, GPT-4 veya Claude 2 düzeyinde sistemlerin nasıl kurulacağını bilen araştırmacı sayısının dünya genelinde yalnızca 50 civarında olduğu tahmin ediliyor Bu gerçek karşısında iyi haber şu: yıllarca temel araştırma ve gelişmiş ML uzmanlığı gerektiren işler artık güçlü önceden eğitilmiş LLM’ler üzerinde veri sistemleri mühendisliği yapan ana akım geliştiriciler tarafından günler ya da haftalar içinde tamamlanabiliyor Salesforce’un Einstein GPT’si (Sales için AI CoPilot) ve Intuit Assist’i (üretken AI tabanlı finans asistanı) gibi ürünler, çoğunlukla AI mühendislerinden oluşan yalın ekipler tarafından geliştirildi; bu ekipler modern AI yığınının veri düzleminde çalışan geleneksel full-stack mühendisleridir Sonraki adımlar Modern AI yığını hızla evriliyor ve bu yıl boyunca sürmesi beklenen bazı gelişmeler var Yeni nesil AI uygulamaları daha gelişmiş RAG’i pilotluyor Bugün RAG önde olsa da bu yaklaşım kusursuz değil Birçok uygulama hâlâ token sayısına dayalı belge parçalama, verimsiz indeksleme ve sıralama algoritmaları dahil naif embedding ve retrieval tekniklerini kullanıyor Context parçalanması, halüsinasyon, entity kıtlığı ve verimsiz arama gibi sorunları var Bu sorunları çözmek için yeni nesil mimariler daha gelişmiş RAG yaklaşımlarını test ediyor: Chain-Of-Thought akıl yürütme, Tree-Of-Thought akıl yürütme, Reflexion, kural tabanlı arama vb. Küçük modeller modern AI yığında daha büyük pay alacak AI uygulama geliştiricileri modern AI yığınına daha derin odaklandıkça, daha ince ayarlı ve göreve özgü modellerin artması bekleniyor Büyük kapalı kaynak modellerin hantallaştığı ya da pahalı kaldığı belirli alanlarda, ince ayarlı görev-özel modeller yaygınlaşacak ML pipeline kurma ve fine-tuning altyapısı, kurumlar kendi görev-özel modellerini oluşturdukça bu aşamada kritik hale gelecek Ollama ve ggml tarafından sunulan quantization teknikleri, ekiplerin küçük modellerin sunduğu azami hız artışından yararlanmasına yardımcı oluyor Gözlemlenebilirlik (Observability) ve model değerlendirme (Model Evaluation) için yeni araçlar ortaya çıkıyor 2023’ün büyük bölümünde logging ve değerlendirme ya hiç yapılmıyordu ya manuel yürütülüyordu ya da çoğu kurumsal uygulamanın başlangıç noktası olan akademik benchmark’lar üzerinden yapılıyordu Criteo araştırmasına göre AI’ı benimseyen şirketlerin yaklaşık %70’i temel değerlendirme yöntemi olarak çıktıları insanlar aracılığıyla gözden geçiriyor. Bunun nedeni riskin yüksek olması Müşteriler yüksek kaliteli çıktılar bekliyor ve bunu hak ediyor; şirketler de halüsinasyonlar nedeniyle müşteri güvenini kaybedebileceklerinin farkında Bu nedenle gözlemlenebilirlik ve değerlendirme, yeni araçlar için önemli bir fırsat sunuyor Braintrust, Patronus, Log10 ve AgentOps gibi umut verici yeni yaklaşımlar şimdiden ortaya çıkmış durumda Mimari serverless yönüne kayacak Diğer kurumsal veri sistemlerinde olduğu gibi, modern AI yığını da zaman içinde serverless yapıya geçiyor Burada "geçici makine" tipi serverless’ı (ör. lambda function’lar) gerçek scale-to-zero serverless’tan (ör. Postgres için Neon mimarisi) ayırmak gerekir Scale-to-zero serverless’ta altyapı soyutlandığında geliştiriciler uygulama çalıştırmanın operasyonel karmaşıklığını azaltabilir, daha hızlı yineleme yapabilir ve kurumlar hesaplama yerine yalnızca kullanılabilirlik için ödeme yaparak ciddi kaynak optimizasyonu sağlayabilir Serverless paradigması modern AI yığınının tüm parçalarına uygulanacak Pinecone, vektör hesaplama için modern mimari olarak bu yaklaşımı benimsiyor Neon Postgres için, Momento caching için, Baseten ve Modal ise inference için aynı yaklaşımı izliyor

(menlovc.com)

28 puan yazan xguru 2024-01-29 | 6 yorum | WhatsApp'ta paylaş

Modern AI yığınının tanımı

Katman 1: Hesaplama ve temel modeller - Temel modellerin kendisini ve modelleri eğitmek, ince ayar yapmak, optimize etmek ve dağıtmak için gereken altyapıyı içerir
Katman 2: Veri - LLM’leri kurumsal veri sistemleri içindeki uygun bağlama bağlayan altyapıyı içerir; veri ön işleme, ETL ve veri pipeline’ları, vektör veritabanları, metadata depoları ve context cache gibi temel bileşenleri kapsar
Katman 3: Dağıtım - Geliştiricilerin AI uygulamalarını yönetmesine ve orkestre etmesine yardımcı olan araçları içerir. Agent framework’leri, prompt yönetimi, model routing ve orkestrasyon
Katman 4: Gözlemlenebilirlik - LLM’lerin çalışma zamanı davranışını izleyen ve tehditlere karşı koruyan çözümleri içerir

Yeni AI olgunluk eğrisi

Modern AI yığınını tanımlayan pazar yapısı ve teknolojiler hızla evriliyor; temel bileşenler ve liderler şimdiden ortaya çıkmış durumda
LLM öncesinde ML geliştirme doğrusal ve "model merkezli" idi; LLM’ler ise bunu "ürün merkezli" hale getirerek ML uzmanlığı olmayan ekiplerin de AI’ı ürünlerine entegre etmesini mümkün kıldı
AI yığını olgunlaştıkça geliştirme ekipleri, kurumsal veya müşteriye özgü veriler üzerinden AI deneyimlerini özelleştirmek istiyor
AI olgunluk eğrisi
- 1. aşama: Closed-source models only yalnızca kapalı kaynak modeller
  - 2023’ün başlarında maliyet ve mühendislik çabası büyük ölçüde temel modelin kendisine odaklanıyordu ve bunun üzerinde yalnızca basit özelleştirmeler vardı (prompt engineering / few-shot learning gibi)
  - OpenAI ve Anthropic gibi önde gelen kapalı kaynak model sağlayıcıları bu aşamada ilk ivmeyi yakalayarak modern AI yığınının ilk kazananları olarak konumlandı
- 1. aşama: Retrieval-augmented generation arama destekli üretim
  - AI uygulama çabalarının merkezini model katmanından veri katmanına kaydırır
  - Özellikle RAG’in yaygınlaşması, Pinecone gibi vektör veritabanları ve Unstructured gibi veri ön işleme motorları dahil daha güçlü veri katmanı altyapısı gerektirir
  - Kurumların ve startup’ların çoğu şu anda bu aşamadadır
- 1. aşama: Hybrid model deployment hibrit model dağıtımı
  - Typeface ve Descript gibi öncü şirketler, yüksek hacimli alan-özel görevlerde kapalı kaynak model kullanımını açık kaynakla tamamlamaya başladı
  - Modal, Baseten ve Fireworks gibi model dağıtım sağlayıcıları kayda değer ivme kazanmaya başladı
- 1. aşama ve sonrası: Custom models özel modeller
  - Henüz kendi modelini geliştirecek kadar olgunlaşmış ya da buna ihtiyaç duyan şirket sayısı az, ancak gelecekte yığını daha derin kullanmak isteyen büyük şirketlerde bunun kullanım örnekleri artacak
  - Bellek verimli ince ayar için araçlar sunan Predibase ve Lamini gibi şirketler (4-bit quantization, QLoRA, memory paging/offload dahil) bunu destekleyecek

Yeni AI altyapı yığını için dört temel tasarım ilkesi

AI devrimi yalnızca yeni bir altyapı yığınına olan talebi tetiklemiyor, aynı zamanda kurumların uygulama geliştirme, Ar-Ge harcamaları ve ekip yapılanmasına yaklaşımını da yeniden şekillendiriyor
Temel tasarım ilkeleri:
- 1. Harcamaların büyük kısmı inference ve training için kullanılıyor
  - LLM devriminin ilk döneminde her şirketin bir gün kendi büyük dil modelini eğitebileceği düşünülüyordu
  - Mart 2023’te duyurulan BloombergGPT gibi modeller (özellikle finansal veriler üzerinde eğitilmiş 50b bir LLM), kurumsal ve alan-özel LLM’lerin çoğalacağının habercisi olarak görüldü
  - Ancak böyle bir patlama yaşanmadı
  - Menlo Ventures’ın yakın tarihli kurumsal AI anketine göre toplam AI harcamalarının yaklaşık %95’i runtime ve pre-training için kullanılıyor
  - Bu oran yalnızca Anthropic gibi büyük temel model sağlayıcılarında tersine dönüyor. Uygulama katmanında ise Writer gibi gelişmiş AI üreticileri bile hesaplama kaynaklarının %80’inden fazlasını training yerine inference için kullanıyor
- 2. Çok modelli (Multi-Model) bir dünyada yaşıyoruz
  - Tek bir model "hepsine hükmedemez"
  - Şirketlerin %60’ı birden fazla model kullanıyor ve prompt’ları en iyi performansı veren modele yönlendiriyor
  - Çok modelli yaklaşım, tek modele bağımlılığı ortadan kaldırıyor, daha yüksek kontrol sağlıyor ve maliyeti düşürüyor
- 3. Baskın mimari yaklaşım RAG
  - LLM’ler güçlü çıkarım motorlarıdır, ancak alan-özel ve kuruma özgü bilgi açısından sınırlıdır
  - Faydalı AI deneyimleri oluşturmak için ekipler, arama destekli üretimden (RAG) başlayarak bilgi destekli teknikleri hızla devreye alıyor
  - RAG, Pinecone gibi vektör veritabanları aracılığıyla temel modellere kuruma özgü bir "hafıza" kazandırır
  - Bu teknik, şu anda üretimde kullanılan fine-tuning, low-rank adaptation veya adapter gibi diğer özelleştirme tekniklerinin epey önünde ve esas olarak model katmanından çok veri katmanında çalışır
  - Bu eğilim gelecekte de sürecek; veri düzleminin, veri ön işleme motorları (ör. Cleanlab) ve ETL pipeline’ları (ör. Unstructured) dahil yeni parçalarının çalışma zamanı mimarisine entegre olması bekleniyor
- 4. Artık her geliştirici bir AI geliştiricisi
  - Dünya genelinde 30 milyon geliştiriciye karşılık yalnızca 300 bin ML mühendisi ve 30 bin ML araştırmacısı var
  - ML’nin en ileri hattında yenilik yapanlar arasında, GPT-4 veya Claude 2 düzeyinde sistemlerin nasıl kurulacağını bilen araştırmacı sayısının dünya genelinde yalnızca 50 civarında olduğu tahmin ediliyor
  - Bu gerçek karşısında iyi haber şu: yıllarca temel araştırma ve gelişmiş ML uzmanlığı gerektiren işler artık güçlü önceden eğitilmiş LLM’ler üzerinde veri sistemleri mühendisliği yapan ana akım geliştiriciler tarafından günler ya da haftalar içinde tamamlanabiliyor
  - Salesforce’un Einstein GPT’si (Sales için AI CoPilot) ve Intuit Assist’i (üretken AI tabanlı finans asistanı) gibi ürünler, çoğunlukla AI mühendislerinden oluşan yalın ekipler tarafından geliştirildi; bu ekipler modern AI yığınının veri düzleminde çalışan geleneksel full-stack mühendisleridir

Sonraki adımlar

Modern AI yığını hızla evriliyor ve bu yıl boyunca sürmesi beklenen bazı gelişmeler var
Yeni nesil AI uygulamaları daha gelişmiş RAG’i pilotluyor
- Bugün RAG önde olsa da bu yaklaşım kusursuz değil
- Birçok uygulama hâlâ token sayısına dayalı belge parçalama, verimsiz indeksleme ve sıralama algoritmaları dahil naif embedding ve retrieval tekniklerini kullanıyor
- Context parçalanması, halüsinasyon, entity kıtlığı ve verimsiz arama gibi sorunları var
- Bu sorunları çözmek için yeni nesil mimariler daha gelişmiş RAG yaklaşımlarını test ediyor: Chain-Of-Thought akıl yürütme, Tree-Of-Thought akıl yürütme, Reflexion, kural tabanlı arama vb.
Küçük modeller modern AI yığında daha büyük pay alacak
- AI uygulama geliştiricileri modern AI yığınına daha derin odaklandıkça, daha ince ayarlı ve göreve özgü modellerin artması bekleniyor
- Büyük kapalı kaynak modellerin hantallaştığı ya da pahalı kaldığı belirli alanlarda, ince ayarlı görev-özel modeller yaygınlaşacak
- ML pipeline kurma ve fine-tuning altyapısı, kurumlar kendi görev-özel modellerini oluşturdukça bu aşamada kritik hale gelecek
- Ollama ve ggml tarafından sunulan quantization teknikleri, ekiplerin küçük modellerin sunduğu azami hız artışından yararlanmasına yardımcı oluyor
Gözlemlenebilirlik (Observability) ve model değerlendirme (Model Evaluation) için yeni araçlar ortaya çıkıyor
- 2023’ün büyük bölümünde logging ve değerlendirme ya hiç yapılmıyordu ya manuel yürütülüyordu ya da çoğu kurumsal uygulamanın başlangıç noktası olan akademik benchmark’lar üzerinden yapılıyordu
- Criteo araştırmasına göre AI’ı benimseyen şirketlerin yaklaşık %70’i temel değerlendirme yöntemi olarak çıktıları insanlar aracılığıyla gözden geçiriyor. Bunun nedeni riskin yüksek olması
- Müşteriler yüksek kaliteli çıktılar bekliyor ve bunu hak ediyor; şirketler de halüsinasyonlar nedeniyle müşteri güvenini kaybedebileceklerinin farkında
- Bu nedenle gözlemlenebilirlik ve değerlendirme, yeni araçlar için önemli bir fırsat sunuyor
- Braintrust, Patronus, Log10 ve AgentOps gibi umut verici yeni yaklaşımlar şimdiden ortaya çıkmış durumda
Mimari serverless yönüne kayacak
- Diğer kurumsal veri sistemlerinde olduğu gibi, modern AI yığını da zaman içinde serverless yapıya geçiyor
- Burada "geçici makine" tipi serverless’ı (ör. lambda function’lar) gerçek scale-to-zero serverless’tan (ör. Postgres için Neon mimarisi) ayırmak gerekir
- Scale-to-zero serverless’ta altyapı soyutlandığında geliştiriciler uygulama çalıştırmanın operasyonel karmaşıklığını azaltabilir, daha hızlı yineleme yapabilir ve kurumlar hesaplama yerine yalnızca kullanılabilirlik için ödeme yaparak ciddi kaynak optimizasyonu sağlayabilir
- Serverless paradigması modern AI yığınının tüm parçalarına uygulanacak
- Pinecone, vektör hesaplama için modern mimari olarak bu yaklaşımı benimsiyor
- Neon Postgres için, Momento caching için, Baseten ve Modal ise inference için aynı yaklaşımı izliyor

6 yorum

hyeonseokoh94 2024-01-31

İyi ve keyifli bir yazı.

galadbran 2024-01-30

https://tr.news.hada.io/topic?id=6658 Neon - sunucusuz Postgres açık kaynak

kaistj 2024-01-30

Dönüşen bir ortamda pek çok yeni fırsatın ortaya çıkmasını umuyorum~
İyi yönde

dlehals2 2024-01-29

Dünya genelinde geliştirici sayısı sadece 30 milyon mu acaba??

xguru 2024-01-29

Sıkça alıntılanan Evans Data Corporation raporuna göre, 2022 itibarıyla bu sayı yaklaşık 26,3 milyondu.
https://www.evansdata.com/press/viewRelease.php?pressID=339

GitHub kullanan geliştirici sayısı 100 milyonu geçti, ancak bunların hepsini geliştirici olarak görmek zor gibi.
https://github.blog/2023-01-25-100-million-developers-and-counting/