Modern AI yığınının tanımı
- Katman 1: Hesaplama ve temel modeller - Temel modellerin kendisini ve modelleri eğitmek, ince ayar yapmak, optimize etmek ve dağıtmak için gereken altyapıyı içerir
- Katman 2: Veri - LLM’leri kurumsal veri sistemleri içindeki uygun bağlama bağlayan altyapıyı içerir; veri ön işleme, ETL ve veri pipeline’ları, vektör veritabanları, metadata depoları ve context cache gibi temel bileşenleri kapsar
- Katman 3: Dağıtım - Geliştiricilerin AI uygulamalarını yönetmesine ve orkestre etmesine yardımcı olan araçları içerir. Agent framework’leri, prompt yönetimi, model routing ve orkestrasyon
- Katman 4: Gözlemlenebilirlik - LLM’lerin çalışma zamanı davranışını izleyen ve tehditlere karşı koruyan çözümleri içerir
Yeni AI olgunluk eğrisi
- Modern AI yığınını tanımlayan pazar yapısı ve teknolojiler hızla evriliyor; temel bileşenler ve liderler şimdiden ortaya çıkmış durumda
- LLM öncesinde ML geliştirme doğrusal ve "model merkezli" idi; LLM’ler ise bunu "ürün merkezli" hale getirerek ML uzmanlığı olmayan ekiplerin de AI’ı ürünlerine entegre etmesini mümkün kıldı
- AI yığını olgunlaştıkça geliştirme ekipleri, kurumsal veya müşteriye özgü veriler üzerinden AI deneyimlerini özelleştirmek istiyor
- AI olgunluk eğrisi
-
- aşama: Closed-source models only yalnızca kapalı kaynak modeller
- 2023’ün başlarında maliyet ve mühendislik çabası büyük ölçüde temel modelin kendisine odaklanıyordu ve bunun üzerinde yalnızca basit özelleştirmeler vardı (prompt engineering / few-shot learning gibi)
- OpenAI ve Anthropic gibi önde gelen kapalı kaynak model sağlayıcıları bu aşamada ilk ivmeyi yakalayarak modern AI yığınının ilk kazananları olarak konumlandı
-
- aşama: Retrieval-augmented generation arama destekli üretim
- AI uygulama çabalarının merkezini model katmanından veri katmanına kaydırır
- Özellikle RAG’in yaygınlaşması, Pinecone gibi vektör veritabanları ve Unstructured gibi veri ön işleme motorları dahil daha güçlü veri katmanı altyapısı gerektirir
- Kurumların ve startup’ların çoğu şu anda bu aşamadadır
-
- aşama: Hybrid model deployment hibrit model dağıtımı
- Typeface ve Descript gibi öncü şirketler, yüksek hacimli alan-özel görevlerde kapalı kaynak model kullanımını açık kaynakla tamamlamaya başladı
- Modal, Baseten ve Fireworks gibi model dağıtım sağlayıcıları kayda değer ivme kazanmaya başladı
-
- aşama ve sonrası: Custom models özel modeller
- Henüz kendi modelini geliştirecek kadar olgunlaşmış ya da buna ihtiyaç duyan şirket sayısı az, ancak gelecekte yığını daha derin kullanmak isteyen büyük şirketlerde bunun kullanım örnekleri artacak
- Bellek verimli ince ayar için araçlar sunan Predibase ve Lamini gibi şirketler (4-bit quantization, QLoRA, memory paging/offload dahil) bunu destekleyecek
Yeni AI altyapı yığını için dört temel tasarım ilkesi
- AI devrimi yalnızca yeni bir altyapı yığınına olan talebi tetiklemiyor, aynı zamanda kurumların uygulama geliştirme, Ar-Ge harcamaları ve ekip yapılanmasına yaklaşımını da yeniden şekillendiriyor
- Temel tasarım ilkeleri:
- 1. Harcamaların büyük kısmı inference ve training için kullanılıyor
- LLM devriminin ilk döneminde her şirketin bir gün kendi büyük dil modelini eğitebileceği düşünülüyordu
- Mart 2023’te duyurulan BloombergGPT gibi modeller (özellikle finansal veriler üzerinde eğitilmiş 50b bir LLM), kurumsal ve alan-özel LLM’lerin çoğalacağının habercisi olarak görüldü
- Ancak böyle bir patlama yaşanmadı
- Menlo Ventures’ın yakın tarihli kurumsal AI anketine göre toplam AI harcamalarının yaklaşık %95’i runtime ve pre-training için kullanılıyor
- Bu oran yalnızca Anthropic gibi büyük temel model sağlayıcılarında tersine dönüyor. Uygulama katmanında ise Writer gibi gelişmiş AI üreticileri bile hesaplama kaynaklarının %80’inden fazlasını training yerine inference için kullanıyor
- 2. Çok modelli (Multi-Model) bir dünyada yaşıyoruz
- Tek bir model "hepsine hükmedemez"
- Şirketlerin %60’ı birden fazla model kullanıyor ve prompt’ları en iyi performansı veren modele yönlendiriyor
- Çok modelli yaklaşım, tek modele bağımlılığı ortadan kaldırıyor, daha yüksek kontrol sağlıyor ve maliyeti düşürüyor
- 3. Baskın mimari yaklaşım RAG
- LLM’ler güçlü çıkarım motorlarıdır, ancak alan-özel ve kuruma özgü bilgi açısından sınırlıdır
- Faydalı AI deneyimleri oluşturmak için ekipler, arama destekli üretimden (RAG) başlayarak bilgi destekli teknikleri hızla devreye alıyor
- RAG, Pinecone gibi vektör veritabanları aracılığıyla temel modellere kuruma özgü bir "hafıza" kazandırır
- Bu teknik, şu anda üretimde kullanılan fine-tuning, low-rank adaptation veya adapter gibi diğer özelleştirme tekniklerinin epey önünde ve esas olarak model katmanından çok veri katmanında çalışır
- Bu eğilim gelecekte de sürecek; veri düzleminin, veri ön işleme motorları (ör. Cleanlab) ve ETL pipeline’ları (ör. Unstructured) dahil yeni parçalarının çalışma zamanı mimarisine entegre olması bekleniyor
- 4. Artık her geliştirici bir AI geliştiricisi
- Dünya genelinde 30 milyon geliştiriciye karşılık yalnızca 300 bin ML mühendisi ve 30 bin ML araştırmacısı var
- ML’nin en ileri hattında yenilik yapanlar arasında, GPT-4 veya Claude 2 düzeyinde sistemlerin nasıl kurulacağını bilen araştırmacı sayısının dünya genelinde yalnızca 50 civarında olduğu tahmin ediliyor
- Bu gerçek karşısında iyi haber şu: yıllarca temel araştırma ve gelişmiş ML uzmanlığı gerektiren işler artık güçlü önceden eğitilmiş LLM’ler üzerinde veri sistemleri mühendisliği yapan ana akım geliştiriciler tarafından günler ya da haftalar içinde tamamlanabiliyor
- Salesforce’un Einstein GPT’si (Sales için AI CoPilot) ve Intuit Assist’i (üretken AI tabanlı finans asistanı) gibi ürünler, çoğunlukla AI mühendislerinden oluşan yalın ekipler tarafından geliştirildi; bu ekipler modern AI yığınının veri düzleminde çalışan geleneksel full-stack mühendisleridir
Sonraki adımlar
- Modern AI yığını hızla evriliyor ve bu yıl boyunca sürmesi beklenen bazı gelişmeler var
- Yeni nesil AI uygulamaları daha gelişmiş RAG’i pilotluyor
- Bugün RAG önde olsa da bu yaklaşım kusursuz değil
- Birçok uygulama hâlâ token sayısına dayalı belge parçalama, verimsiz indeksleme ve sıralama algoritmaları dahil naif embedding ve retrieval tekniklerini kullanıyor
- Context parçalanması, halüsinasyon, entity kıtlığı ve verimsiz arama gibi sorunları var
- Bu sorunları çözmek için yeni nesil mimariler daha gelişmiş RAG yaklaşımlarını test ediyor: Chain-Of-Thought akıl yürütme, Tree-Of-Thought akıl yürütme, Reflexion, kural tabanlı arama vb.
- Küçük modeller modern AI yığında daha büyük pay alacak
- AI uygulama geliştiricileri modern AI yığınına daha derin odaklandıkça, daha ince ayarlı ve göreve özgü modellerin artması bekleniyor
- Büyük kapalı kaynak modellerin hantallaştığı ya da pahalı kaldığı belirli alanlarda, ince ayarlı görev-özel modeller yaygınlaşacak
- ML pipeline kurma ve fine-tuning altyapısı, kurumlar kendi görev-özel modellerini oluşturdukça bu aşamada kritik hale gelecek
- Ollama ve ggml tarafından sunulan quantization teknikleri, ekiplerin küçük modellerin sunduğu azami hız artışından yararlanmasına yardımcı oluyor
- Gözlemlenebilirlik (Observability) ve model değerlendirme (Model Evaluation) için yeni araçlar ortaya çıkıyor
- 2023’ün büyük bölümünde logging ve değerlendirme ya hiç yapılmıyordu ya manuel yürütülüyordu ya da çoğu kurumsal uygulamanın başlangıç noktası olan akademik benchmark’lar üzerinden yapılıyordu
- Criteo araştırmasına göre AI’ı benimseyen şirketlerin yaklaşık %70’i temel değerlendirme yöntemi olarak çıktıları insanlar aracılığıyla gözden geçiriyor. Bunun nedeni riskin yüksek olması
- Müşteriler yüksek kaliteli çıktılar bekliyor ve bunu hak ediyor; şirketler de halüsinasyonlar nedeniyle müşteri güvenini kaybedebileceklerinin farkında
- Bu nedenle gözlemlenebilirlik ve değerlendirme, yeni araçlar için önemli bir fırsat sunuyor
- Braintrust, Patronus, Log10 ve AgentOps gibi umut verici yeni yaklaşımlar şimdiden ortaya çıkmış durumda
- Mimari serverless yönüne kayacak
- Diğer kurumsal veri sistemlerinde olduğu gibi, modern AI yığını da zaman içinde serverless yapıya geçiyor
- Burada "geçici makine" tipi serverless’ı (ör. lambda function’lar) gerçek scale-to-zero serverless’tan (ör. Postgres için Neon mimarisi) ayırmak gerekir
- Scale-to-zero serverless’ta altyapı soyutlandığında geliştiriciler uygulama çalıştırmanın operasyonel karmaşıklığını azaltabilir, daha hızlı yineleme yapabilir ve kurumlar hesaplama yerine yalnızca kullanılabilirlik için ödeme yaparak ciddi kaynak optimizasyonu sağlayabilir
- Serverless paradigması modern AI yığınının tüm parçalarına uygulanacak
- Pinecone, vektör hesaplama için modern mimari olarak bu yaklaşımı benimsiyor
- Neon Postgres için, Momento caching için, Baseten ve Modal ise inference için aynı yaklaşımı izliyor
6 yorum
İyi ve keyifli bir yazı.
https://tr.news.hada.io/topic?id=6658 Neon - sunucusuz Postgres açık kaynak
Dönüşen bir ortamda pek çok yeni fırsatın ortaya çıkmasını umuyorum~
İyi yönde
Dünya genelinde geliştirici sayısı sadece 30 milyon mu acaba??
Sıkça alıntılanan Evans Data Corporation raporuna göre, 2022 itibarıyla bu sayı yaklaşık 26,3 milyondu.
https://www.evansdata.com/press/viewRelease.php?pressID=339
GitHub kullanan geliştirici sayısı 100 milyonu geçti, ancak bunların hepsini geliştirici olarak görmek zor gibi.
https://github.blog/2023-01-25-100-million-developers-and-counting/
Anladım, düşündüğümden epey azmış. Bu arada dünya nüfusuna bakınca 7,8 milyarmış.. ne zaman bu kadar arttı acaba, haha