21 puan yazan xguru 2021-11-01 | 3 yorum | WhatsApp'ta paylaş
<p>2021 Data &amp; AI Landscape’ı tek bir görselle özetleyen ve ayrıntılı biçimde açıklayan içerik<br /> 1. Makro bakış açısı: ekosistemin karmaşıklığını anlamak <br /> 2. Fonlama, IPO ve M&amp;A <br /> 3. 2021 Landscape<br /> 4. Veri altyapısındaki başlıca trendler <br /> → Data Mesh <br /> → DataOps için yoğun bir yıl <br /> → Artık gerçek zamanlı<br /> → Metrics Store<br /> → Reverse ETL <br /> → Data Sharing <br /> 5. Analitik &amp; kurumsal yapay zekadaki başlıca trendler <br /> → Feature Store<br /> → ModelOps’un yükselişi<br /> → Yapay zeka içerik üretimi<br /> → Çin yapay zeka yığınının gelişimi<br /> <br /> ## &quot;Makro bakış açısı: ekosistemin karmaşıklığını anlamak&quot;<br /> - Veri&amp;yapay zeka şirketleri neden durmadan ortaya çıkıyor ve bu durum daha ne kadar sürecek?<br /> - Temel eğilim şu: &quot;Tüm şirketler artık sadece yazılım şirketi değil, veri şirketi hâline geliyor&quot;<br /> - Birçok organizasyonda &quot;veri&quot;, RDBMS’te saklanan işlem verileri ve son birkaç ayda olup bitenleri analiz etmek için kullanılan birkaç dashboard anlamına geliyordu <br /> - Ancak artık şirketler, &quot;veri ve yapay zekanın&quot; &quot;analiz ve operasyonlar&quot; için &quot;iç süreçlere ve dış uygulamalara&quot; gömüldüğü bir dünyaya doğru ilerliyor <br /> - Bu temel evrim, altyapı teknolojilerindeki olağanüstü ilerlemelerle — özellikle &quot;veri altyapısı ile makine öğrenimi/yapay zeka&quot; arasındaki simbiyotik ilişkiyle — mümkün oldu<br /> → İki alan giderek daha sıkı iş birliği yapıyor<br /> → Bunun ilk aşaması 2010’ların başındaki &quot;Big Data çağı&quot; idi<br /> → Bu big data’yı 10 yıldan daha eski yapay zeka algoritmalarına (deep learning) uyguladığınızda şaşırtıcı sonuçlar alınabildiğinin anlaşılması, yapay zekaya yönelik heyecanı körükledi<br /> → Sonuç olarak yapay zeka, veri altyapısı geliştirmesinin önemli itici güçlerinden biri oldu<br /> → Tüm uygulamalar yapay zeka temelli inşa edilecekse, daha iyi veri altyapılarına ihtiyaç olacak <br /> - 2021’e gelene kadar Big Data ve AI terimlerinin hepsi iniş çıkışlar yaşadı; bugünlerde daha çok &quot;Automation&quot; konuşuluyor ama temelde bunların hepsi aynı mega trendin parçası <br /> <br /> - Bugün Data/AI alanındaki ivmelenme, son birkaç yılda bulut veri ambarlarının büyümesinden izlenebiliyor<br /> - Veri ambarı, veri altyapısının çok temel ama vazgeçilmez bir unsuru olan &quot;veriyi nerede saklayacağız&quot; sorusunu çözüyor<br /> → Big Data devriminin başlamasının üzerinden 15 yıldan fazla geçtiği için bu sorunun çözülmüş olduğu düşünülebilir, ama durum öyle değil <br /> → Geriye dönüp bakıldığında Hadoop’un ilk başarısı, bir bakıma ölçek konusunda yanıltıcıydı <br /> → Çok büyük miktardaki veriden gerçekten değer çıkarılabileceği fikrini yayması açısından önemliydi; ancak teknik karmaşıklığı nedeniyle yalnızca sınırlı sayıdaki şirket tarafından kullanılabildi ve pazara nüfuz edemedi <br /> - Günümüzün bulut veri ambarları (Snowflake, Redshift, BigQuery) ve lakehouse’ları (Databricks) ise <br /> → daha düşük maliyetle<br /> → çok büyük sayıda teknik personele ihtiyaç duymadan <br /> → devasa veriyi faydalı biçimde depolama imkânı sağlıyor <br /> - Başka bir deyişle, ancak şimdi gerçekten Big Data’yı depolayıp işleyebilir hâle geldik. Bu son derece önemli bir gelişme ve diğer Data/AI alanları için büyük bir kilit açıcı olduğunu kanıtladı<br /> → Birincisi, veri ambarları tüm veri ve yapay zeka ekosisteminin pazar büyüklüğünü artırıyor. Kullanım kolaylığı ve kullanıma dayalı fiyatlandırma sayesinde veri ambarları, her şirketin bir veri şirketine dönüşmesi için bir geçit işlevi görüyor<br /> → İkincisi, veri ambarları bunların etrafındaki araçlar dâhil tüm ekosistemin kullanılabilmesini sağlıyor. <br /> ⇨ ETL, ELT, reverse ETL, warehouse merkezli veri kalitesi araçları, metrics store, augmented analytics vb. <br /> ⇨ &quot;Modern Data Stack&quot; ( https://tr.news.hada.io/topic?id=3055 bkz. )<br /> ⇨ Modern veri yığınının ortaya çıkışıyla çok sayıda girişim doğdu ve yatırımlar bu alana yoğunlaştı (DBT, Fivetran..)<br /> → Üçüncüsü, veri ambarları en temel depolama katmanını çözdüğü için şirketlerin veri ihtiyaç hiyerarşisinde daha yüksek değer üreten projelere odaklanmasını sağlıyor<br /> ⇨ Artık veri depolandığına göre gerçek zamanlı işleme, augmented analytics ve makine öğrenimi gibi işlere daha kolay odaklanılabiliyor <br /> ⇨ Bu da sırayla her türden veri/yapay zeka aracı ve platformuna yönelik pazar talebini artırıyor <br /> ⇨ Daha fazla müşteri talebi, veri/ML şirketlerinde daha fazla inovasyon yaratan bir flywheel oluşturuyor <br /> <br /> &quot;Veri ambarı, tüm veri endüstrisinin önemli bir göstergesi; DW büyüdükçe geri kalan her şey de onunla birlikte büyüyor&quot;<br /> <br /> - Veri/AI endüstrisi için iyi haber, veri ambarları ve lakehouse’ların son derece hızlı ve büyük ölçekte büyüyor olması <br /> → Snowflake, Q2 sonuçlarına göre yıllık bazda %103 büyüdü ve Net Revenue Retention’da %169 gibi çarpıcı bir rakam gösterdi (yani mevcut müşteriler giderek daha fazla kullanıyor)<br /> → 2028 için 12 trilyon won ($10B) gelir bekleniyor <br /> - Bazıları gelecekte her şirketin en az bir bulut veri ambarına sahip olacağını da söylüyor <br /> <br /> ## &quot;The Titanic Shock: Snowflake vs Databricks&quot;<br /> - Snowflake, son dönemde veri alanının amiral gemisi oyuncusu. 2020/9 ayındaki IPO’su, yazılım IPO tarihi boyunca en büyüklerden biriydi. Bu yazının yazıldığı sırada şirketin değeri $95B<br /> - Sektördeki yeni rakip olarak Databricks yükseliyor. 31 Ağustos’ta $38B değerlemeyle $1.6B yatırım aldı <br /> - Yakın zamana kadar iki şirket pazarda oldukça farklı segmentlerde yer alıyordu (hatta bir dönem yakın partnerlerdi)<br /> - Snowflake, bir bulut veri ambarı olarak, büyük miktarda yapılandırılmış veriyi (satır ve sütunlarda iyi saklanabilen veriyi) depolayıp işleyen bir veritabanı <br /> → Şirketler buna BI araçlarını bağlayarak geçmiş ve mevcut performansa dair soruları yanıtlamak için kullanıyor (&quot;Geçen çeyrekte en hızlı büyüyen bölge hangisiydi?&quot;) <br /> → Diğer veritabanlarında olduğu gibi SQL kullandığı için yüz milyonlarca potansiyel kullanıcıya sahip <br /> - Databricks ise veri dünyasının farklı bir köşesinden geliyor <br /> → 2013’te açık kaynak Spark’ı ticarileştirerek başladı <br /> → Genel olarak yapılandırılmamış veriyi (metin, ses, video) işlemek üzere tasarlanmıştı <br /> → Spark kullanıcıları, veri yapısı ya da organizasyonu konusunda endişelenmeden her türlü veriyi içine alabilen bir &quot;Data Lake&quot; kurmak için bunu kullandı <br /> → Veri gölünün başlıca kullanım alanı, ML/AI uygulamalarını eğiterek şirketlerin geleceğe dair sorulara yanıt verebilmesini sağlamaktı (&quot;Gelecek çeyrekte satın alma olasılığı en yüksek müşteri kim?&quot; yani tahmine dayalı analitik)<br /> → Databricks, veri gölü desteği için Delta’yı; ML/AI desteği için ise ML Flow’u geliştirdi <br /> - Ancak son dönemde iki şirket birbirine doğru yakınsıyor <br /> → Databricks, veri gölüne DW özellikleri ekleyerek analistlerin standart SQL sorguları çalıştırmasına ve Tableau ya da MS PowerBI gibi araçları bağlamasına imkân verdi. Buna &quot;Lakehouse&quot; adını veriyor <br /> → Databricks veri gölünü daha çok veri ambarı gibi yaparken, Snowflake de veri ambarını veri gölüne benzetmek için yapılandırılmamış veri (ses, video, PDF, görsel vb.) depolama özelliğini önizleme olarak sundu <br /> → Databricks, AI özelliklerine BI ekliyor; Snowflake ise BI uyumluluğu özelliklerine AI ekliyor <br /> - Sonuç olarak hem Snowflake hem de Databricks, &quot;veriyle ilgili her şeyin merkezi&quot; olmak istiyor<br />

→ Tüm verileri depolayan tek bir depo. Yapısal/yapısal olmayan verilerin tamamını saklar ve geçmişten geleceğe dönük tahminlere kadar tüm analizleri gerçekleştirir<br />

  • Elbette çok sayıda rakip var (AWS, GCP gibi bulut hyperscaler'ları)<br />
  • Snowflake ve Databricks, bulut sağlayıcılarıyla hem dost hem düşman (Friend and Foe)<br /> → AWS tabanında büyüyen Snowflake, şimdi diğer bulutlara da genişliyor <br /> → Databricks'in Microsoft ile güçlü bir ortaklığı var, ancak multi-cloud özellikleriyle vendor lock-in oluşmasını engellemeye yardımcı oluyor <br /> → Son birkaç yılda eleştirmenler, Snowflake ve Databricks'in iş modellerinde marjların bulut şirketlerinin fiyatlandırma kararlarına bağlı olduğunu savundu <br />
  • Önümüzdeki 5 yılda bulut sağlayıcıları ile veri devleri (Behemoth) arasındaki dansı izlemek belirleyici hikaye olacak <br /> <br />

"Bundling, Unbundling, Consolidation?"<br />

  • Snowflake ve Databricks'in yükselişi düşünüldüğünde, bu sektörde uzun süredir beklenen konsolidasyon dalgasının başlangıcı mı?<br />
  • Veri / yapay zeka alanında "işlevsel konsolidasyon (functional consolidation) yaşanıyor"<br />
  • Ama herkes için durum benzer. Hiç kimse tek ürünlü bir şirket olmak yerine daha fazla şeyi bundle etmek ve daha fazla özelliğe sahip olmak istemiyor<br /> → 2021/6'da halka açılan Confluent de gerçek zamanlı veri alanının ötesine geçerek "hareketli veri ile durağan verinin işlenmesini birleştirmeyi" hedefliyor <br /> → Dataiku, veri hazırlama sürecinden DataOps, MLOps, görselleştirme ve AI explainability'ye kadar her şeyi tek bir platformda bundle etmeye odaklanıyor <br />
  • Modern data stack'in ortaya çıkışı da işlevsel konsolidasyonun başka bir örneği <br /> → Bunun merkezinde, veri çıkarımından veri ambarına ve BI'a kadar uzanan şirketlerin (çoğu startup) fiili bir "ittifakı" bulunuyor <br />
  • Bu teknolojilerin kullanıcıları için bundling ve yakınsama büyük ölçüde memnuniyetle karşılanacaktır<br /> → Veri endüstrisi olgunlaştıkça, "transaction vs. analytics", "batch processing vs. real-time", "BI vs AI" gibi teknoloji ayrımlarını aşarak evrilmek zorunda <br />
  • Şirketler ihtiyaçlarına en uygun kombinasyonu oluşturmak için farklı vendor/platform/araçlarla çalışmaya devam edecek<br /> <br />
  • Bunun temel nedeni "yenilik hızının aşırı derecede patlayıcı olması"<br /> → Sürekli yeni startup'lar çıkıyor, büyük teknoloji şirketleri içeride veri/yapay zeka araçları geliştirip bunları open source yapıyor ve mevcut tüm teknoloji/ürünler için her hafta yeni bir şey ortaya çıkıyor <br /> <br />
  • Büyük veri ambarı ve data lake sağlayıcıları tüm verilerin merkezileştirilmesini zorlarken, "Data Mesh" gibi yeni framework'ler de ortaya çıkıyor <br /> → Farklı ekiplerin kendi sorumluluğunu üstlendiği dağıtık bir yaklaşım <br /> <br />
  • İşlevsel konsolidasyonun ötesinde M&A olup olmayacağını bilmek zor <br /> → İnsanların sevdiği söylentilerden biri de "Microsoft'un Databricks'i satın almak istediği"<br /> <br />

"Financings, IPOs, M&A: A Crazy Market"<br />

  • Startup piyasasını biraz takip eden herkes bilir; piyasa çıldırmış durumda <br />
  • Geçen yılın ardından bu yıl da veri ve ML/yapay zeka en sıcak yatırım kategorileri arasında<br />
  • Halka açılması beklenen şirketler<br /> → UiPath : RPA ve yapay zeka otomasyon şirketi <br /> → Confluent : Kafka <br /> → C3.ai : yapay zeka platformu <br /> → Couchbase : no-SQL DB <br /> → SentinelOne : otomatik yapay zeka endpoint güvenlik platformu <br /> → TuSimple : sürücüsüz kamyon <br /> → Zymergen : biyoproduksiyon <br /> → Recursion : yapay zeka odaklı ilaç geliştirme şirketi<br /> → Darktrace : yapay zeka tabanlı siber güvenlik<br />
  • SPAC artışı, yapay zeka pazarının ön saflarında yer alan teknoloji şirketlerine fayda sağlayacak (otonom sürüş, biyoteknoloji vb.)<br /> <br />

"The 2021 MAD Landscape & What’s New this Year"<br />

  • Bu yılki haritada "Analytics and Machine Intelligence", “Analytics” ve “Machine Learning & Artificial Intelligence” olarak ayrıldı <br />
  • Yeni kategoriler eklendi <br /> → Infrastructure<br /> ⇨ Reverse ETL : veri ambarından SaaS uygulamalarına veriyi geri taşıyan ürünler <br /> ⇨ Data Observability : veri lineage'ına dayanarak veri kalitesi sorunlarını çözmeye odaklanan bir DataOps bileşeni <br /> ⇨ Privacy & Security : veri gizliliği giderek daha önemli hale geliyor ve bu kategoride çok sayıda startup ortaya çıkıyor <br /> → Analytics<br /> ⇨ Data Catalogs & Discovery : Son 12 ayın en hareketli kategorisi. Kullanıcıların istedikleri veri setlerini bulup yönetmesini sağlıyor <br /> ⇨ Augmented Analytics : BI araçları, NLG/NLP'deki ilerlemelerden yararlanarak otomatik olarak içgörü üretiyor ve teknik olmayan kitleler için veriyi erişilebilir hale getiriyor <br /> ⇨ Metrics Stores : temel iş metrikleri için merkezi depo. Veri stack'ine yeni giriyor<br /> ⇨ Query Engines <br /> → Machine Learning and AI <br /> ⇨ MLOps kategorisi alt bölümlere ayrıldı : Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> ⇨ Format, Orchestration, Data Quality & Observability eklendi <br />
  • Eskiden daha çok Series C ve üzeri startup'lar veya halka açık şirketler vardı, bu yıl ise Series A/seed aşamasındaki çok sayıda şirket eklendi <br /> <br />

"Veri altyapısındaki başlıca trendler"<br />

  • 2020 <br /> → Modern Data Stack ana akıma girdi <br /> → ETL vs ELT <br /> → Veri mühendisliğinin otomasyonu?<br /> → Veri analistinin yükselişi <br /> → Data lake ile veri ambarı birleşecek mi?<br /> → Hâlâ çözülememiş karmaşıklık <br /> <br />

  • 2021 <br /> → Data Mesh <br /> → DataOps için yoğun bir yıl <br /> → Artık sıra gerçek zamanda<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />

  • Zhamak Dehghani'nin 2019'da ortaya attığı "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh" başlıklı yazıdan türedi <br />

  • 2020~21 arasında büyük ivme kazandı<br />

  • Data Mesh kavramı büyük ölçüde organizasyonel bir fikir<br />

  • Şimdiye kadar veri altyapısı ve ekipleri kurmanın standart yöntemi merkezileştirmeydi. Tek bir veri ekibinin yönettiği büyük bir platform iş ihtiyaçlarını karşılıyordu <br />

  • Çok sayıda avantajı olsa da darboğaz gibi sorunlar da ortaya çıkıyor <br />

  • Merkeziyetsizleşme yoluyla, her biri kendi domain'inden sorumlu bağımsız veri ekipleri oluşturmak ve organizasyondaki diğer kişilere veriyi "ürün olarak" sunmak hedefleniyor <br /> → Yazılım mühendisliğindeki mikroservis kavramına benziyor <br />

  • Birden fazla anlam taşıyor ama <br /> → Bu mümkün hale gelirse, dağıtık veri stack'i içinde mission-critical araçlar geliştiren yeni şirketler için büyük bir fırsat olacak<br />

  • Farklı depolardaki verileri birleşik sorgu ve analizle işleyen bir SQL Query Engine olan Starburst, kendisini "Data Mesh için analytics engine" olarak yeniden konumlandırdı <br />

  • Karmaşık pipeline'ları yöneten orchestration engine'ler (Airflow, Prefect, Dagster gibi) daha da mission-critical hale gelecek <br />

  • Depolama ve pipeline altyapısında veriyi izlemek, compliance ve governance açısından daha da zorunlu hale geldikçe veri soykütüğü (Data Lineage) ihtiyacı güçleniyor (OpenLineage, DataKin)<br /> <br /> [DataOps için yoğun bir yıl]<br />

  • DataOps kavramı birkaç yıldır ortalıkta dolaşıyordu, ancak yakın zamanda gerçekten aktif hale geldi <br />

  • Birden fazla tanımı var <br /> → veri dünyasının DevOps'u <br /> → veri pipeline'larını kurup sürdürmek, veri kataloğu üzerinden doğru veri setlerini bulmak ve veri üreticileriyle tüketicilerinin ihtiyaç duyduğu işleri yapabilmesi için gereken her şey <br />

  • Her halükarda DevOps gibi bu da temelde "metodoloji, süreç, insan, platform ve araçların birleşimi"<br />

  • Daha geniş bağlamda, "veri mühendisliği araçları ve pratikleri"nin yazılım mühendisliğindeki otomasyon seviyesinin oldukça gerisinde kaldığı görülüyor<br />

  • Veri/yapay zeka önem kazandıkça daha iyi araçlara ve pratiklere ihtiyaç duyuluyor <br />

  • Herkes "veri dünyasının DataDog'u" olmak istiyor (gerçekte DataDog DataOps için de kullanılabiliyor, ancak temel olarak yazılım mühendisliği kökenli)<br />

  • Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance gibi çeşitli alt bölümler var<br /> <br /> [Artık sıra gerçek zamanlıda]<br />

  • "Gerçek zamanlı" veya "streaming" veri, üretildikten hemen sonra işlenen ve tüketilen veridir <br />

  • Bu, bugüne kadar veri altyapısının baskın paradigması olan "batch"in karşıtı <br />

  • Gerçek zamanlı veri işleme, 10-15 yıl önce büyük veri çağının başından beri sıcak bir konuydu<br /> → özellikle işlem hızı açısından, Spark'ın HadoopMR'ye kıyasla başarı kazanmasını hızlandıran temel etkenlerden biriydi <br />

  • Ancak birkaç yıldır "yakında patlayacak" denilen bir pazardı, ama patlamamıştı <br />

  • Confluent IPO'sunun büyük başarısı, karşı çıkanların haksız olduğunu kanıtladı <br />

  • Ve Confluent'in ötesinde tüm gerçek zamanlı veri ekosistemi hızlandı <br />

  • Özellikle "gerçek zamanlı analitik" çok fazla hareketlilik gösterdi <br /> → Rusya'daki Yandex tarafından geliştirilen ClickHouse, ABD'de şirket kurdu ve $50M yatırım aldı <br /> → Druid açık kaynak tabanlı gerçek zamanlı analitik platformu Imply, $70M yatırım aldı <br /> <br /> [Metrics Stores]<br />

  • Son birkaç yılda şirketlerin veri hacmi ile veriyi kullanım sıklığı ve karmaşıklığı arttı <br />

  • Karmaşıklık arttıkça veri tutarsızlığından kaynaklanan sorunlar da büyüdü <br />

  • Metrikler, dimension/tanım ve diğer nedenlerle çok küçük değişikliklerde bile kolayca hizasını kaybedebilir<br />

  • Veri, ekipler tarafından ancak doğru ve güvenilir olduğunda faydalıdır <br />

  • Metrikleri merkezileştirme çabası, AirBnB'nin Minerva'sı gibi şirket içi çözümlerin geliştirilmesine yol açtı: "Define Once, Use Anywhere"<br />

  • Temel iş metriklerinin ve tüm dimension tanımlarının standartlaştırılması, paydaşlara bu tanımlara dayalı doğru ve analiz edilebilir veri setleri sunulması amaçlanıyor <br />

  • Merkezi metrik tanımları üzerinden veriye güven oluşturuluyor ve herkese metriklere çapraz fonksiyonlu erişim sağlanıyor <br />

  • Metrik depoları <br /> → veri warehouse'unun üstünde konumlanarak BI platformları, analitik ve veri bilimi araçları ile operasyonel uygulamalar dahil tüm downstream uygulamalara veriyi bildirir <br /> → verinin tutarlı kalmasını sağlar, böylece iş mantığı değiştiğinde otomatik olarak yansıtılır <br />

  • Transform, Trace, Supergrain gibi girişimler var <br /> <br /> [Reverse ETL]<br />

  • Modern veri yığınında Reverse ETL başlı başına bir kategori haline geldi <br />

  • Verinin data warehouse'tan CRM, pazarlama otomasyonu sistemleri ve müşteri destek platformları gibi iş uygulamalarına geri taşınmasını ifade ediyor <br />

  • Amaç, gerçek operasyon araçlarının diğer iş uygulamalarında zenginleştirilmiş güncel veriden yararlanabilmesini sağlamak <br />

  • Pek çok Reverse ETL aracı yatırım aldı: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />

  • Verinin yalnızca şirket içinde değil, organizasyonlar genelinde paylaşılması ve veri işbirliğinin yükselişi <br />

  • Tedarik zinciri görünürlüğü, makine öğrenimi modeli eğitimi ve pazara çıkış planlarının paylaşımı gibi amaçlarla tedarikçi, iş ortağı ve müşteri ekosistemiyle veri paylaşmak isteniyor <br />

  • Kurumlar arası veri paylaşımı, "data cloud" sağlayıcılarının ana temalarından biri <br />

  • 2021/5'te Google, Analytics Hub'ı duyurdu. Kurum içi/dışı veri, içgörü, dashboard ve makine öğrenimi modellerinin paylaşımını sağlıyor. Ayrıca finansal hizmetler için DataShare'i de tanıttı <br />

  • Google ile aynı gün Databricks, kurumlar arası veri paylaşımı için açık kaynak bir protokol olan Delta Sharing'i tanıttı <br />

  • 2021/6'da Snowflake, veri marketplace'i üzerinden Secure Data Sharing özelliğini duyurdu <br />

  • Habr, Crossbeam gibi girişimler var </p><p>## "ML/AI'nin başlıca trendleri"<br /> 2020<br />

  • Veri bilimi ve makine öğrenimi platformları (DSML) için patlama dönemi<br />

  • ML'nin devreye alınması ve ürünlere gömülmesi<br />

  • NLP'nin yılı<br /> <br /> 2021<br />

  • Feature Stores<br />

  • ModelOps'un yükselişi<br />

  • Yapay zeka ile içerik üretimi<br />

  • Ayrı bir Çin yapay zeka yığınının yükselişini sürdürmesi<br /> <br />

  • Yapay zeka araştırmaları hızla ilerlemeye devam ediyor<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />

  • Uber'in 2017'de fikri tanıtmasından bu yana makine öğrenimi yığınında giderek daha yaygın hale geldi <br /> → Tecton, Rasgo, Logical Clocks, Kaskada gibi şirketler yatırım turları gerçekleştirdi <br />

  • Makine öğreniminde feature (değişken veya öznitelik), veri parçacığında sütun olarak ifade edilen, tek tek ölçülebilir özellik veya niteliktir<br /> → makine öğrenimi modelleri tek bir feature'dan milyonlarca feature'a kadar kullanabilir <br />

  • Modeller ve pipeline'lar giderek karmaşıklaştıkça bunlar giderek daha fazla ad-hoc şekilde yürütüldü <br />

  • Mühendisler ve veri bilimciler, raw veriden feature'ları yeniden çıkarmak için sık sık çok zaman harcıyor <br />

  • Production ortamı ile deney ortamı arasındaki fark, model performansında veya davranışında tutarsızlıklara yol açabiliyor<br />

  • Organizasyonlar makine öğrenimi modellerinde governance ve yeniden üretilebilirlik gibi konularla ilgilendikçe, feature'ların silo halinde kalması işi daha da zorlaştırıyor <br />

  • Feature store'lar işbirliğini teşvik ediyor ve bu siloları ortadan kaldırıyor <br />

  • Eğitim ve production için tek bir bilgi kaynağı sağlayarak karmaşıklığı azaltıyor, feature'ları standartlaştırıyor ve yeniden kullanılabilir hale getiriyor <br />

  • Organizasyon içindeki seçilmiş feature'ları depoluyor, raw veriyi feature value'lara dönüştüren veri pipeline'larını çalıştırıyor ve API üzerinden hızlı erişim sunuyor <br /> <br /> [The Rise of ModelOps]<br />

  • Birçok şirket, modelleri deney aşamasından production'a taşımanın zor olduğunu fark etti; ayrıca kullanımda olan modellerin sürekli izleme ve yeniden eğitilmesi gerektiğini de gördü <br />

  • MLOps, DevOps'un en iyi uygulamalarını uygular. Büyük ölçekte modellerin hızlı ve sürekli geliştirilmesi ile dağıtımını sadeleştirir <br />

  • ModelOps, MLOps'un üst kümesidir. ML dahil tüm yapay zeka modellerinin eğitimden production'a kadar tüm aşamalarda daha hızlı işletilmesini hedefler <br />

  • ModelOps hem araçları hem süreçleri kapsar, süreçleri entegre eder, model orkestrasyonunu standartlaştırır ve kapsamlı governance işlevleriyle birlikte tüm modeller için merkezi bir depo sunar <br />

  • İyi uygulanmış bir ModelOps, tüm modelleri deploy etme/izleme ve yönetme için birleşik bir sistem sağlayarak riski azaltır ve compliance'ı artırır <br /> <br /> [AI Content Generation]<br />

  • Yapay zeka son birkaç yılda büyük ölçüde olgunlaştı ve metin, görsel, kod ve video dahil her türlü medya türünde içerik üretmek için kullanılmaya başlandı<br />

  • OpenAI, GPT-3'ü duyurdu. GitHub, OpenAI Codex'i kullanan GitHub Copilot'u tanıttı <br />

  • OpenAI İngilizce merkezli modellere odaklansa da, başka diller üzerinde çalışan çok sayıda şirket var <br /> → Almanya'dan Aleph Alpha, AI21 Labs, Huawei'nin PanGu'su, Naver'ın HyperCLOVA'sı<br /> <br /> [Bağımsız bir Çin yapay zeka yığınının ortaya çıkışının sürmesi]<br />

  • Çin, dünyanın en büyük veri üreticisi olan kendi pazarıyla birlikte küresel bir yapay zeka gücü olarak gelişmeye devam ediyor <br />

  • En iyi öneri algoritmalarından biri olan TikTok'un Batı'da başarı yakalamasıyla, Çin'in yapay zeka odaklı tüketici teknolojileri ilk kez gerçekten yayılmaya başladı <br />

  • Çin'in 2030'a kadar yapay zeka üstünlüğü hedefini ilan etmesi ve bunun mali olarak desteklenmesiyle, o zamana kadar hâlâ Batılı araçlardan yararlanan Çin'de ayrı, yerel bir yığın ortaya çıkmaya başladı </p>

3 yorum

 
ehanmire 2021-11-11
<p>Birçok cümleden değerli içgörüler ediniyor ve epey düşünüyorum<br /> Teşekkürler~<br /> <br /> Bir an için süreçlerin ve verinin kemikler ile kan gibi olduğunu düşündüm;<br /> kan bir yerde toplanıp damarlar oluşurken dokular da meydana gelecektir ama<br /> şirketlerin para kazanması aslında hareketten gelmiyor mu diye<br /> bir anda aklıma böyle tuhaf bir benzetme geldi. </p>
 
sungwoo 2021-11-08
<p>Her zaman çok~~ değerli bilgileri tertemiz derleyip paylaştığınız için teşekkür ederim.</p>
 
xguru 2021-11-07
<p>2020 Data &amp; AI Landscape https://tr.news.hada.io/topic?id=2979</p&gt;