OpenAI'nin DevDay'de duyurduğu her şey

xguru · 2024-10-03T10:20:02+09:00

Öne çıkan duyurular ChatGPT'nin gelişmiş ses modu benzeri özelliklerin uygulanmasını sağlayan Realtime API o1 modelinin rate limit'inin GPT-4o ile aynı seviyeye yükseltilmesi (dakikada 10 bin istek) Otomatik prompt caching ile GPT-4o API fiyatlarında indirim. Tekrarlanan çağrılar için ek geliştirme olmadan %50 daha ucuz Çok modlu fine-tuning API Geçen yıldan bu yıla OpenAI platformunda aktif olan uygulama sayısı 3 kat arttı ve aktif geliştirici sayısı 3 milyona ulaştı o1 modeli hakkında genel bakış OpenAI, yeni akıl yürütme modeli o1'i yayınladı o1, mevcut GPT-4o'dan farklı yeni bir model ailesi olarak sınıflandırılıyor OpenAI, farklı kullanım senaryolarına uygun birden fazla model geliştirmenin geleceğin yönü olacağını düşünüyor o1, chain-of-thought tarzında düşünebilme becerisiyle programlama işlerine uygun, ancak yavaş ve maliyetli Çoğu prompt, o1'in gelişmiş akıl yürütme yeteneklerine ihtiyaç duymadığından o1 varsayılan model olmayacak OpenAI geliştirici ilişkileri sorumlusu Romain Huet, o1 kullanarak tek bir prompt ile 30 saniyede baştan sona bir iPhone uygulaması geliştirdiğini gösteren bir demo sundu Ayrıca sahneye bir drone getirip bir web uygulaması geliştirerek izleyicilerin önünde drone'u kontrol ettiği bir demo da gösterdi Bu demolar önceki GPT modelleriyle de mümkün olabilirdi, ancak o1 ile çok daha hızlı geliştirilebiliyor o1, fikirden uygulamaya 1-2 dakika içinde gidilebilecek bir geleceği gösteriyor Sesli konuşma odaklı gerçek zamanlı API OpenAI'nin yayınladığı en etkileyici özellik, geliştiricilerin kendi uygulamalarına ChatGPT'nin gelişmiş ses modu benzeri yetenekler eklemesini sağlayan Realtime API oldu Geliştiriciler kaydedilmiş sesi OpenAI sunucularına gönderebilir ve gerçek zamanlı olarak kaydedilmiş yanıtlar, dökümler ve function calling sonuçları alabilir Realtime API bugünden itibaren açık beta olarak sunuluyor ve ileride video gibi daha fazla modaliteyi de destekleyecek Realtime API'nin maliyeti ses girdisi için dakika başına 0.06 dolar, ses çıktısı için 0.24 dolar; toplamda 0.15 dolar tutuyor (ses giriş ve çıkışının aynı olduğu varsayımıyla) Bu, dakika başına yaklaşık 0.11 dolar olan ElevenLabs'in speech-to-speech hizmetinden daha pahalı, ancak kullanım başına ödeme yerine her ay belirli miktarda süre satın almak gerekiyor Gerçek zamanlı ses; daha iyi okuma yardımcıları, daha sürükleyici dil eğitimi gibi pek çok yeni kullanım senaryosunun önünü açıyor Fine-tuning araçları OpenAI, bir büyük modeli kullanmaktansa birden çok modeli kullanmanın daha iyi olduğu fikrini ciddiye alıyor Şirketlerin kendi kullanım senaryolarına uygun özelleştirilmiş GPT-4o sürümleri oluşturmasını destekliyor OpenAI, gelecekte her şirketin kendi verilerine erişebilen fine-tune edilmiş bir modele sahip olacağını öngörüyor Görüntü fine-tuning API Herkes kendi görüntü verisini kullanarak GPT-4o'yu fine-tune edebilir Örneğin sağlık alanında çalışıyor ve GPT-4o'nun MRI görüntülerini okuyup etiketleme becerisini ince ayarlamak istiyorsanız bu API'yi kullanabilirsiniz Model distillation araçları OpenAI, belirli kullanım senaryolarına uygun daha küçük, daha hızlı ve daha ucuz foundation model sürümleri üretme süreci olan model distillation'ı daha iyi yapabilmek için iki araç yayınladı Developer Playground'a, önceki API etkileşimlerini kaydedip bunu fine-tuning verisi olarak kullanabilme özelliği ekleyerek distillation'ı kolaylaştırdı Ayrıca geliştiricilerin fine-tune edilmiş modellerin performansını değerlendirebilmesi için Playground'a Evals aracını ekledi Prompt caching ile tekrarlanan API çağrılarında %50 maliyet düşüşü OpenAI, tekrarlanan API çağrılarını algılayıp daha önce üretilmiş yanıtları döndüren yeni bir prompt caching özelliği yayınladı Bu özellik bugünden itibaren otomatik olarak çalışıyor ve geliştiriciler ek iş yapmadan birçok API çağrısında maliyeti %50 azaltabiliyor Bu özellik, OpenAI'nin API kullanım maliyetlerini giderek daha ucuz hale getirmek için rekabet ettiği eğilimin bir uzantısı Geliştiriciler için iyi haber, ancak OpenAI'nin en büyük ortağı Microsoft ile ilginç bir dinamik oluşturuyor Microsoft, büyük şirketleri kapasite garantisi alabilmek için GPT-4 API çağrılarını belirli bir tutarın üzerinde önceden satın almaya zorluyordu Halihazırda satın alma taahhüdü vermiş Microsoft ve müşterilerinin bu fiyat indirimlerini nasıl değerlendireceği merak konusu OpenAI'nin stratejisi 1. Farklı kullanım senaryolarına uygun birden çok model geliştirmeye odaklanmak OpenAI, her şeyi tek bir modelle çözmek yerine birden fazla modeli birlikte kullanmanın en etkili uygulamaları ortaya çıkaracağına inanıyor Geliştiriciler, o1 gibi akıl yürütmede güçlü modelleri ve GPT-4o gibi uzun bağlam ya da görsel prompt işleme konusunda güçlü modelleri birlikte kullanarak kullanıcılara tutarlı bir deneyim sunabilir 2. o1, otonom çalışabilen ajanlara giden yolda önemli bir adım Ajanlar uzun süredir en göz alıcı yapay zeka uygulamalarından biri olsa da önceki GPT modelleri bir görevi kendi başına çözmeye çalıştığında çoğu zaman düzgün çalışmıyordu o1'in, kendi düşünme sürecini değerlendirme ve sonraki adımları planlama becerisi sayesinde gerçekten otonom ajanlar oluşturmada kilit rol oynaması bekleniyor 3. Geliştiricilerin kullanıcılar için olağanüstü deneyimler oluşturmasını sağlayacak teknoloji inanılmaz ölçüde arttı Sadece birkaç yıl önce bugün demoda gösterilenlerin hiçbirinin mümkün olmadığını ya da ilgi alanına girmediğini unutmak kolay Bugün boş zamanlarında uygulama geliştiren tek bir geliştirici bile, eskiden tam bir geliştirme ekibinin yapamadığı şeyleri başarabiliyor

(every.to)

12 puan yazan xguru 2024-10-03 | Henüz yorum yok. | WhatsApp'ta paylaş

Öne çıkan duyurular

ChatGPT'nin gelişmiş ses modu benzeri özelliklerin uygulanmasını sağlayan Realtime API
o1 modelinin rate limit'inin GPT-4o ile aynı seviyeye yükseltilmesi (dakikada 10 bin istek)
Otomatik prompt caching ile GPT-4o API fiyatlarında indirim. Tekrarlanan çağrılar için ek geliştirme olmadan %50 daha ucuz
Çok modlu fine-tuning API
Geçen yıldan bu yıla OpenAI platformunda aktif olan uygulama sayısı 3 kat arttı ve aktif geliştirici sayısı 3 milyona ulaştı

o1 modeli hakkında genel bakış

OpenAI, yeni akıl yürütme modeli o1'i yayınladı
o1, mevcut GPT-4o'dan farklı yeni bir model ailesi olarak sınıflandırılıyor
OpenAI, farklı kullanım senaryolarına uygun birden fazla model geliştirmenin geleceğin yönü olacağını düşünüyor
o1, chain-of-thought tarzında düşünebilme becerisiyle programlama işlerine uygun, ancak yavaş ve maliyetli
Çoğu prompt, o1'in gelişmiş akıl yürütme yeteneklerine ihtiyaç duymadığından o1 varsayılan model olmayacak
OpenAI geliştirici ilişkileri sorumlusu Romain Huet, o1 kullanarak tek bir prompt ile 30 saniyede baştan sona bir iPhone uygulaması geliştirdiğini gösteren bir demo sundu
Ayrıca sahneye bir drone getirip bir web uygulaması geliştirerek izleyicilerin önünde drone'u kontrol ettiği bir demo da gösterdi
Bu demolar önceki GPT modelleriyle de mümkün olabilirdi, ancak o1 ile çok daha hızlı geliştirilebiliyor
o1, fikirden uygulamaya 1-2 dakika içinde gidilebilecek bir geleceği gösteriyor

Sesli konuşma odaklı gerçek zamanlı API

OpenAI'nin yayınladığı en etkileyici özellik, geliştiricilerin kendi uygulamalarına ChatGPT'nin gelişmiş ses modu benzeri yetenekler eklemesini sağlayan Realtime API oldu
Geliştiriciler kaydedilmiş sesi OpenAI sunucularına gönderebilir ve gerçek zamanlı olarak kaydedilmiş yanıtlar, dökümler ve function calling sonuçları alabilir
Realtime API bugünden itibaren açık beta olarak sunuluyor ve ileride video gibi daha fazla modaliteyi de destekleyecek
Realtime API'nin maliyeti ses girdisi için dakika başına 0.06 dolar, ses çıktısı için 0.24 dolar; toplamda 0.15 dolar tutuyor (ses giriş ve çıkışının aynı olduğu varsayımıyla)
Bu, dakika başına yaklaşık 0.11 dolar olan ElevenLabs'in speech-to-speech hizmetinden daha pahalı, ancak kullanım başına ödeme yerine her ay belirli miktarda süre satın almak gerekiyor
Gerçek zamanlı ses; daha iyi okuma yardımcıları, daha sürükleyici dil eğitimi gibi pek çok yeni kullanım senaryosunun önünü açıyor

Fine-tuning araçları

OpenAI, bir büyük modeli kullanmaktansa birden çok modeli kullanmanın daha iyi olduğu fikrini ciddiye alıyor
Şirketlerin kendi kullanım senaryolarına uygun özelleştirilmiş GPT-4o sürümleri oluşturmasını destekliyor
OpenAI, gelecekte her şirketin kendi verilerine erişebilen fine-tune edilmiş bir modele sahip olacağını öngörüyor

Görüntü fine-tuning API

Herkes kendi görüntü verisini kullanarak GPT-4o'yu fine-tune edebilir
Örneğin sağlık alanında çalışıyor ve GPT-4o'nun MRI görüntülerini okuyup etiketleme becerisini ince ayarlamak istiyorsanız bu API'yi kullanabilirsiniz

Model distillation araçları

OpenAI, belirli kullanım senaryolarına uygun daha küçük, daha hızlı ve daha ucuz foundation model sürümleri üretme süreci olan model distillation'ı daha iyi yapabilmek için iki araç yayınladı
Developer Playground'a, önceki API etkileşimlerini kaydedip bunu fine-tuning verisi olarak kullanabilme özelliği ekleyerek distillation'ı kolaylaştırdı
Ayrıca geliştiricilerin fine-tune edilmiş modellerin performansını değerlendirebilmesi için Playground'a Evals aracını ekledi

Prompt caching ile tekrarlanan API çağrılarında %50 maliyet düşüşü

OpenAI, tekrarlanan API çağrılarını algılayıp daha önce üretilmiş yanıtları döndüren yeni bir prompt caching özelliği yayınladı
Bu özellik bugünden itibaren otomatik olarak çalışıyor ve geliştiriciler ek iş yapmadan birçok API çağrısında maliyeti %50 azaltabiliyor
Bu özellik, OpenAI'nin API kullanım maliyetlerini giderek daha ucuz hale getirmek için rekabet ettiği eğilimin bir uzantısı
Geliştiriciler için iyi haber, ancak OpenAI'nin en büyük ortağı Microsoft ile ilginç bir dinamik oluşturuyor
Microsoft, büyük şirketleri kapasite garantisi alabilmek için GPT-4 API çağrılarını belirli bir tutarın üzerinde önceden satın almaya zorluyordu
Halihazırda satın alma taahhüdü vermiş Microsoft ve müşterilerinin bu fiyat indirimlerini nasıl değerlendireceği merak konusu

OpenAI'nin stratejisi

1. Farklı kullanım senaryolarına uygun birden çok model geliştirmeye odaklanmak

OpenAI, her şeyi tek bir modelle çözmek yerine birden fazla modeli birlikte kullanmanın en etkili uygulamaları ortaya çıkaracağına inanıyor
Geliştiriciler, o1 gibi akıl yürütmede güçlü modelleri ve GPT-4o gibi uzun bağlam ya da görsel prompt işleme konusunda güçlü modelleri birlikte kullanarak kullanıcılara tutarlı bir deneyim sunabilir

2. o1, otonom çalışabilen ajanlara giden yolda önemli bir adım

Ajanlar uzun süredir en göz alıcı yapay zeka uygulamalarından biri olsa da önceki GPT modelleri bir görevi kendi başına çözmeye çalıştığında çoğu zaman düzgün çalışmıyordu
o1'in, kendi düşünme sürecini değerlendirme ve sonraki adımları planlama becerisi sayesinde gerçekten otonom ajanlar oluşturmada kilit rol oynaması bekleniyor

3. Geliştiricilerin kullanıcılar için olağanüstü deneyimler oluşturmasını sağlayacak teknoloji inanılmaz ölçüde arttı

Sadece birkaç yıl önce bugün demoda gösterilenlerin hiçbirinin mümkün olmadığını ya da ilgi alanına girmediğini unutmak kolay
Bugün boş zamanlarında uygulama geliştiren tek bir geliştirici bile, eskiden tam bir geliştirme ekibinin yapamadığı şeyleri başarabiliyor