2021 Veri/ML/Yapay Zeka Sektör Haritası ve Son Trendler
(mattturck.com)→ Tüm verileri depolayan tek bir depo. Yapısal/yapısal olmayan verilerin tamamını saklar ve geçmişten geleceğe dönük tahminlere kadar tüm analizleri gerçekleştirir<br />
- Elbette çok sayıda rakip var (AWS, GCP gibi bulut hyperscaler'ları)<br />
- Snowflake ve Databricks, bulut sağlayıcılarıyla hem dost hem düşman (Friend and Foe)<br /> → AWS tabanında büyüyen Snowflake, şimdi diğer bulutlara da genişliyor <br /> → Databricks'in Microsoft ile güçlü bir ortaklığı var, ancak multi-cloud özellikleriyle vendor lock-in oluşmasını engellemeye yardımcı oluyor <br /> → Son birkaç yılda eleştirmenler, Snowflake ve Databricks'in iş modellerinde marjların bulut şirketlerinin fiyatlandırma kararlarına bağlı olduğunu savundu <br />
- Önümüzdeki 5 yılda bulut sağlayıcıları ile veri devleri (Behemoth) arasındaki dansı izlemek belirleyici hikaye olacak <br /> <br />
"Bundling, Unbundling, Consolidation?"<br />
- Snowflake ve Databricks'in yükselişi düşünüldüğünde, bu sektörde uzun süredir beklenen konsolidasyon dalgasının başlangıcı mı?<br />
- Veri / yapay zeka alanında "işlevsel konsolidasyon (functional consolidation) yaşanıyor"<br />
- Ama herkes için durum benzer. Hiç kimse tek ürünlü bir şirket olmak yerine daha fazla şeyi bundle etmek ve daha fazla özelliğe sahip olmak istemiyor<br /> → 2021/6'da halka açılan Confluent de gerçek zamanlı veri alanının ötesine geçerek "hareketli veri ile durağan verinin işlenmesini birleştirmeyi" hedefliyor <br /> → Dataiku, veri hazırlama sürecinden DataOps, MLOps, görselleştirme ve AI explainability'ye kadar her şeyi tek bir platformda bundle etmeye odaklanıyor <br />
- Modern data stack'in ortaya çıkışı da işlevsel konsolidasyonun başka bir örneği <br /> → Bunun merkezinde, veri çıkarımından veri ambarına ve BI'a kadar uzanan şirketlerin (çoğu startup) fiili bir "ittifakı" bulunuyor <br />
- Bu teknolojilerin kullanıcıları için bundling ve yakınsama büyük ölçüde memnuniyetle karşılanacaktır<br /> → Veri endüstrisi olgunlaştıkça, "transaction vs. analytics", "batch processing vs. real-time", "BI vs AI" gibi teknoloji ayrımlarını aşarak evrilmek zorunda <br />
- Şirketler ihtiyaçlarına en uygun kombinasyonu oluşturmak için farklı vendor/platform/araçlarla çalışmaya devam edecek<br /> <br />
- Bunun temel nedeni "yenilik hızının aşırı derecede patlayıcı olması"<br /> → Sürekli yeni startup'lar çıkıyor, büyük teknoloji şirketleri içeride veri/yapay zeka araçları geliştirip bunları open source yapıyor ve mevcut tüm teknoloji/ürünler için her hafta yeni bir şey ortaya çıkıyor <br /> <br />
- Büyük veri ambarı ve data lake sağlayıcıları tüm verilerin merkezileştirilmesini zorlarken, "Data Mesh" gibi yeni framework'ler de ortaya çıkıyor <br /> → Farklı ekiplerin kendi sorumluluğunu üstlendiği dağıtık bir yaklaşım <br /> <br />
- İşlevsel konsolidasyonun ötesinde M&A olup olmayacağını bilmek zor <br /> → İnsanların sevdiği söylentilerden biri de "Microsoft'un Databricks'i satın almak istediği"<br /> <br />
"Financings, IPOs, M&A: A Crazy Market"<br />
- Startup piyasasını biraz takip eden herkes bilir; piyasa çıldırmış durumda <br />
- Geçen yılın ardından bu yıl da veri ve ML/yapay zeka en sıcak yatırım kategorileri arasında<br />
- Halka açılması beklenen şirketler<br /> → UiPath : RPA ve yapay zeka otomasyon şirketi <br /> → Confluent : Kafka <br /> → C3.ai : yapay zeka platformu <br /> → Couchbase : no-SQL DB <br /> → SentinelOne : otomatik yapay zeka endpoint güvenlik platformu <br /> → TuSimple : sürücüsüz kamyon <br /> → Zymergen : biyoproduksiyon <br /> → Recursion : yapay zeka odaklı ilaç geliştirme şirketi<br /> → Darktrace : yapay zeka tabanlı siber güvenlik<br />
- SPAC artışı, yapay zeka pazarının ön saflarında yer alan teknoloji şirketlerine fayda sağlayacak (otonom sürüş, biyoteknoloji vb.)<br /> <br />
"The 2021 MAD Landscape & What’s New this Year"<br />
- Bu yılki haritada "Analytics and Machine Intelligence", “Analytics” ve “Machine Learning & Artificial Intelligence” olarak ayrıldı <br />
- Yeni kategoriler eklendi <br /> → Infrastructure<br /> ⇨ Reverse ETL : veri ambarından SaaS uygulamalarına veriyi geri taşıyan ürünler <br /> ⇨ Data Observability : veri lineage'ına dayanarak veri kalitesi sorunlarını çözmeye odaklanan bir DataOps bileşeni <br /> ⇨ Privacy & Security : veri gizliliği giderek daha önemli hale geliyor ve bu kategoride çok sayıda startup ortaya çıkıyor <br /> → Analytics<br /> ⇨ Data Catalogs & Discovery : Son 12 ayın en hareketli kategorisi. Kullanıcıların istedikleri veri setlerini bulup yönetmesini sağlıyor <br /> ⇨ Augmented Analytics : BI araçları, NLG/NLP'deki ilerlemelerden yararlanarak otomatik olarak içgörü üretiyor ve teknik olmayan kitleler için veriyi erişilebilir hale getiriyor <br /> ⇨ Metrics Stores : temel iş metrikleri için merkezi depo. Veri stack'ine yeni giriyor<br /> ⇨ Query Engines <br /> → Machine Learning and AI <br /> ⇨ MLOps kategorisi alt bölümlere ayrıldı : Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> ⇨ Format, Orchestration, Data Quality & Observability eklendi <br />
- Eskiden daha çok Series C ve üzeri startup'lar veya halka açık şirketler vardı, bu yıl ise Series A/seed aşamasındaki çok sayıda şirket eklendi <br /> <br />
"Veri altyapısındaki başlıca trendler"<br />
-
2020 <br /> → Modern Data Stack ana akıma girdi <br /> → ETL vs ELT <br /> → Veri mühendisliğinin otomasyonu?<br /> → Veri analistinin yükselişi <br /> → Data lake ile veri ambarı birleşecek mi?<br /> → Hâlâ çözülememiş karmaşıklık <br /> <br />
-
2021 <br /> → Data Mesh <br /> → DataOps için yoğun bir yıl <br /> → Artık sıra gerçek zamanda<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />
-
Zhamak Dehghani'nin 2019'da ortaya attığı "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh" başlıklı yazıdan türedi <br />
-
2020~21 arasında büyük ivme kazandı<br />
-
Data Mesh kavramı büyük ölçüde organizasyonel bir fikir<br />
-
Şimdiye kadar veri altyapısı ve ekipleri kurmanın standart yöntemi merkezileştirmeydi. Tek bir veri ekibinin yönettiği büyük bir platform iş ihtiyaçlarını karşılıyordu <br />
-
Çok sayıda avantajı olsa da darboğaz gibi sorunlar da ortaya çıkıyor <br />
-
Merkeziyetsizleşme yoluyla, her biri kendi domain'inden sorumlu bağımsız veri ekipleri oluşturmak ve organizasyondaki diğer kişilere veriyi "ürün olarak" sunmak hedefleniyor <br /> → Yazılım mühendisliğindeki mikroservis kavramına benziyor <br />
-
Birden fazla anlam taşıyor ama <br /> → Bu mümkün hale gelirse, dağıtık veri stack'i içinde mission-critical araçlar geliştiren yeni şirketler için büyük bir fırsat olacak<br />
-
Farklı depolardaki verileri birleşik sorgu ve analizle işleyen bir SQL Query Engine olan Starburst, kendisini "Data Mesh için analytics engine" olarak yeniden konumlandırdı <br />
-
Karmaşık pipeline'ları yöneten orchestration engine'ler (Airflow, Prefect, Dagster gibi) daha da mission-critical hale gelecek <br />
-
Depolama ve pipeline altyapısında veriyi izlemek, compliance ve governance açısından daha da zorunlu hale geldikçe veri soykütüğü (Data Lineage) ihtiyacı güçleniyor (OpenLineage, DataKin)<br /> <br /> [DataOps için yoğun bir yıl]<br />
-
DataOps kavramı birkaç yıldır ortalıkta dolaşıyordu, ancak yakın zamanda gerçekten aktif hale geldi <br />
-
Birden fazla tanımı var <br /> → veri dünyasının DevOps'u <br /> → veri pipeline'larını kurup sürdürmek, veri kataloğu üzerinden doğru veri setlerini bulmak ve veri üreticileriyle tüketicilerinin ihtiyaç duyduğu işleri yapabilmesi için gereken her şey <br />
-
Her halükarda DevOps gibi bu da temelde "metodoloji, süreç, insan, platform ve araçların birleşimi"<br />
-
Daha geniş bağlamda, "veri mühendisliği araçları ve pratikleri"nin yazılım mühendisliğindeki otomasyon seviyesinin oldukça gerisinde kaldığı görülüyor<br />
-
Veri/yapay zeka önem kazandıkça daha iyi araçlara ve pratiklere ihtiyaç duyuluyor <br />
-
Herkes "veri dünyasının DataDog'u" olmak istiyor (gerçekte DataDog DataOps için de kullanılabiliyor, ancak temel olarak yazılım mühendisliği kökenli)<br />
-
Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance gibi çeşitli alt bölümler var<br /> <br /> [Artık sıra gerçek zamanlıda]<br />
-
"Gerçek zamanlı" veya "streaming" veri, üretildikten hemen sonra işlenen ve tüketilen veridir <br />
-
Bu, bugüne kadar veri altyapısının baskın paradigması olan "batch"in karşıtı <br />
-
Gerçek zamanlı veri işleme, 10-15 yıl önce büyük veri çağının başından beri sıcak bir konuydu<br /> → özellikle işlem hızı açısından, Spark'ın HadoopMR'ye kıyasla başarı kazanmasını hızlandıran temel etkenlerden biriydi <br />
-
Ancak birkaç yıldır "yakında patlayacak" denilen bir pazardı, ama patlamamıştı <br />
-
Confluent IPO'sunun büyük başarısı, karşı çıkanların haksız olduğunu kanıtladı <br />
-
Ve Confluent'in ötesinde tüm gerçek zamanlı veri ekosistemi hızlandı <br />
-
Özellikle "gerçek zamanlı analitik" çok fazla hareketlilik gösterdi <br /> → Rusya'daki Yandex tarafından geliştirilen ClickHouse, ABD'de şirket kurdu ve $50M yatırım aldı <br /> → Druid açık kaynak tabanlı gerçek zamanlı analitik platformu Imply, $70M yatırım aldı <br /> <br /> [Metrics Stores]<br />
-
Son birkaç yılda şirketlerin veri hacmi ile veriyi kullanım sıklığı ve karmaşıklığı arttı <br />
-
Karmaşıklık arttıkça veri tutarsızlığından kaynaklanan sorunlar da büyüdü <br />
-
Metrikler, dimension/tanım ve diğer nedenlerle çok küçük değişikliklerde bile kolayca hizasını kaybedebilir<br />
-
Veri, ekipler tarafından ancak doğru ve güvenilir olduğunda faydalıdır <br />
-
Metrikleri merkezileştirme çabası, AirBnB'nin Minerva'sı gibi şirket içi çözümlerin geliştirilmesine yol açtı: "Define Once, Use Anywhere"<br />
-
Temel iş metriklerinin ve tüm dimension tanımlarının standartlaştırılması, paydaşlara bu tanımlara dayalı doğru ve analiz edilebilir veri setleri sunulması amaçlanıyor <br />
-
Merkezi metrik tanımları üzerinden veriye güven oluşturuluyor ve herkese metriklere çapraz fonksiyonlu erişim sağlanıyor <br />
-
Metrik depoları <br /> → veri warehouse'unun üstünde konumlanarak BI platformları, analitik ve veri bilimi araçları ile operasyonel uygulamalar dahil tüm downstream uygulamalara veriyi bildirir <br /> → verinin tutarlı kalmasını sağlar, böylece iş mantığı değiştiğinde otomatik olarak yansıtılır <br />
-
Transform, Trace, Supergrain gibi girişimler var <br /> <br /> [Reverse ETL]<br />
-
Modern veri yığınında Reverse ETL başlı başına bir kategori haline geldi <br />
-
Verinin data warehouse'tan CRM, pazarlama otomasyonu sistemleri ve müşteri destek platformları gibi iş uygulamalarına geri taşınmasını ifade ediyor <br />
-
Amaç, gerçek operasyon araçlarının diğer iş uygulamalarında zenginleştirilmiş güncel veriden yararlanabilmesini sağlamak <br />
-
Pek çok Reverse ETL aracı yatırım aldı: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />
-
Verinin yalnızca şirket içinde değil, organizasyonlar genelinde paylaşılması ve veri işbirliğinin yükselişi <br />
-
Tedarik zinciri görünürlüğü, makine öğrenimi modeli eğitimi ve pazara çıkış planlarının paylaşımı gibi amaçlarla tedarikçi, iş ortağı ve müşteri ekosistemiyle veri paylaşmak isteniyor <br />
-
Kurumlar arası veri paylaşımı, "data cloud" sağlayıcılarının ana temalarından biri <br />
-
2021/5'te Google, Analytics Hub'ı duyurdu. Kurum içi/dışı veri, içgörü, dashboard ve makine öğrenimi modellerinin paylaşımını sağlıyor. Ayrıca finansal hizmetler için DataShare'i de tanıttı <br />
-
Google ile aynı gün Databricks, kurumlar arası veri paylaşımı için açık kaynak bir protokol olan Delta Sharing'i tanıttı <br />
-
2021/6'da Snowflake, veri marketplace'i üzerinden Secure Data Sharing özelliğini duyurdu <br />
-
Habr, Crossbeam gibi girişimler var </p><p>## "ML/AI'nin başlıca trendleri"<br /> 2020<br />
-
Veri bilimi ve makine öğrenimi platformları (DSML) için patlama dönemi<br />
-
ML'nin devreye alınması ve ürünlere gömülmesi<br />
-
NLP'nin yılı<br /> <br /> 2021<br />
-
Feature Stores<br />
-
ModelOps'un yükselişi<br />
-
Yapay zeka ile içerik üretimi<br />
-
Ayrı bir Çin yapay zeka yığınının yükselişini sürdürmesi<br /> <br />
-
Yapay zeka araştırmaları hızla ilerlemeye devam ediyor<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />
-
Uber'in 2017'de fikri tanıtmasından bu yana makine öğrenimi yığınında giderek daha yaygın hale geldi <br /> → Tecton, Rasgo, Logical Clocks, Kaskada gibi şirketler yatırım turları gerçekleştirdi <br />
-
Makine öğreniminde feature (değişken veya öznitelik), veri parçacığında sütun olarak ifade edilen, tek tek ölçülebilir özellik veya niteliktir<br /> → makine öğrenimi modelleri tek bir feature'dan milyonlarca feature'a kadar kullanabilir <br />
-
Modeller ve pipeline'lar giderek karmaşıklaştıkça bunlar giderek daha fazla ad-hoc şekilde yürütüldü <br />
-
Mühendisler ve veri bilimciler, raw veriden feature'ları yeniden çıkarmak için sık sık çok zaman harcıyor <br />
-
Production ortamı ile deney ortamı arasındaki fark, model performansında veya davranışında tutarsızlıklara yol açabiliyor<br />
-
Organizasyonlar makine öğrenimi modellerinde governance ve yeniden üretilebilirlik gibi konularla ilgilendikçe, feature'ların silo halinde kalması işi daha da zorlaştırıyor <br />
-
Feature store'lar işbirliğini teşvik ediyor ve bu siloları ortadan kaldırıyor <br />
-
Eğitim ve production için tek bir bilgi kaynağı sağlayarak karmaşıklığı azaltıyor, feature'ları standartlaştırıyor ve yeniden kullanılabilir hale getiriyor <br />
-
Organizasyon içindeki seçilmiş feature'ları depoluyor, raw veriyi feature value'lara dönüştüren veri pipeline'larını çalıştırıyor ve API üzerinden hızlı erişim sunuyor <br /> <br /> [The Rise of ModelOps]<br />
-
Birçok şirket, modelleri deney aşamasından production'a taşımanın zor olduğunu fark etti; ayrıca kullanımda olan modellerin sürekli izleme ve yeniden eğitilmesi gerektiğini de gördü <br />
-
MLOps, DevOps'un en iyi uygulamalarını uygular. Büyük ölçekte modellerin hızlı ve sürekli geliştirilmesi ile dağıtımını sadeleştirir <br />
-
ModelOps, MLOps'un üst kümesidir. ML dahil tüm yapay zeka modellerinin eğitimden production'a kadar tüm aşamalarda daha hızlı işletilmesini hedefler <br />
-
ModelOps hem araçları hem süreçleri kapsar, süreçleri entegre eder, model orkestrasyonunu standartlaştırır ve kapsamlı governance işlevleriyle birlikte tüm modeller için merkezi bir depo sunar <br />
-
İyi uygulanmış bir ModelOps, tüm modelleri deploy etme/izleme ve yönetme için birleşik bir sistem sağlayarak riski azaltır ve compliance'ı artırır <br /> <br /> [AI Content Generation]<br />
-
Yapay zeka son birkaç yılda büyük ölçüde olgunlaştı ve metin, görsel, kod ve video dahil her türlü medya türünde içerik üretmek için kullanılmaya başlandı<br />
-
OpenAI, GPT-3'ü duyurdu. GitHub, OpenAI Codex'i kullanan GitHub Copilot'u tanıttı <br />
-
OpenAI İngilizce merkezli modellere odaklansa da, başka diller üzerinde çalışan çok sayıda şirket var <br /> → Almanya'dan Aleph Alpha, AI21 Labs, Huawei'nin PanGu'su, Naver'ın HyperCLOVA'sı<br /> <br /> [Bağımsız bir Çin yapay zeka yığınının ortaya çıkışının sürmesi]<br />
-
Çin, dünyanın en büyük veri üreticisi olan kendi pazarıyla birlikte küresel bir yapay zeka gücü olarak gelişmeye devam ediyor <br />
-
En iyi öneri algoritmalarından biri olan TikTok'un Batı'da başarı yakalamasıyla, Çin'in yapay zeka odaklı tüketici teknolojileri ilk kez gerçekten yayılmaya başladı <br />
-
Çin'in 2030'a kadar yapay zeka üstünlüğü hedefini ilan etmesi ve bunun mali olarak desteklenmesiyle, o zamana kadar hâlâ Batılı araçlardan yararlanan Çin'de ayrı, yerel bir yığın ortaya çıkmaya başladı </p>
3 yorum