OpenAI, daha fazla düşünüp yanıt veren o1 model önizlemesini duyurdu

xguru · 2024-09-13T08:50:46+09:00

Karmaşık problemleri çözmek için yeni bir akıl yürütme modeli Model, yanıt vermeden önce problemi daha uzun süre düşünecek şekilde eğitildi Eğitimle birlikte düşünme sürecini iyileştirmeyi, farklı stratejiler denemeyi ve hatalarını fark etmeyi öğrendi Fizik, kimya ve biyolojideki zorlu benchmark görevlerinde doktora öğrencilerine benzer performans gösteriyor Matematik ve kodlamada da üstün sonuçlar veriyor Uluslararası Matematik Olimpiyatı (IMO) eleme sınavında GPT-4o yalnızca %13 doğru yaparken, akıl yürütme modeli %83 başarı sağladı Codeforces yarışmalarında kodlama yeteneği %89 persentile ulaştı Güvenlik Modelin güvenlik ve hizalama yönergelerine uymasını sağlamak için yeni bir güvenlik eğitimi yaklaşımı geliştirildi En zor jailbreak testlerinden birinde GPT-4o 22 puan alırken (100 üzerinden), o1-preview modeli 84 puan aldı Güvenlik çalışmaları, iç yönetişim ve federal hükümetle iş birliği güçlendirildi Preparedness Framework kullanılarak sıkı test ve değerlendirme En üst düzey red team operasyonları Safety & Security Committee dahil yönetim kurulu düzeyinde inceleme süreci ABD ve Birleşik Krallık yapay zeka güvenliği enstitüleriyle anlaşmalar imzalandı ve uygulamaya alındı Bu model kimler için Özellikle bilim, kodlama ve matematik gibi alanlarda karmaşık problemlerle uğraşanlar için faydalı olabilir Örneğin Sağlık araştırmacıları hücre dizileme verilerini açıklamalı hâle getirebilir, Fizikçiler kuantum optiği için gerekli karmaşık matematiksel formülleri üretebilir, Geliştiriciler çok adımlı workflow'lar kurup çalıştırmak için kullanabilir OpenAI o1-mini o1 serisi, karmaşık kodları doğru şekilde üretme ve debug etme konusunda öne çıkıyor Geliştiricilere daha verimli çözümler sunmak için o1-mini adlı daha hızlı ve daha ucuz bir akıl yürütme modeli de yayımlandı o1-mini, o1-preview'dan %80 daha ucuz Akıl yürütmenin gerekli olduğu ancak geniş dünya bilgisinin gerekmediği uygulamalar için güçlü ve maliyet etkin bir model OpenAI o1 nasıl kullanılır ChatGPT Plus ve Team kullanıcıları bugünden itibaren ChatGPT içinde o1 modeline erişebiliyor Hem o1-preview hem de o1-mini manuel olarak seçilebiliyor Lansmanda o1-preview için haftalık 30, o1-mini için haftalık 50 mesaj sınırı bulunuyor ChatGPT Enterprise ve Edu kullanıcıları gelecek haftadan itibaren iki modele de erişebilecek API kullanım seviyesi 5'teki geliştiriciler bugünden itibaren API'de 20 RPM hız sınırıyla iki model üzerinde prototiplemeye başlayabilecek Bu modellerin API'sinde şu anda function calling, streaming ve system message desteği gibi özellikler bulunmuyor Tüm ChatGPT Free kullanıcılarına o1-mini erişimi sunulması planlanıyor Gelecek planları Bu, ChatGPT ve API için akıl yürütme modellerinin ilk önizlemesi Model güncellemelerine ek olarak browsing, dosya ve görsel yükleme gibi özellikler eklenerek herkes için daha kullanışlı hâle getirilmesi planlanıyor Yeni OpenAI o1 serisiyle birlikte GPT serisi modellerin geliştirilmesine ve yayımlanmasına devam edilmesi planlanıyor

(openai.com)

8 puan yazan xguru 2024-09-13 | 4 yorum | WhatsApp'ta paylaş

Karmaşık problemleri çözmek için yeni bir akıl yürütme modeli
Model, yanıt vermeden önce problemi daha uzun süre düşünecek şekilde eğitildi
Eğitimle birlikte düşünme sürecini iyileştirmeyi, farklı stratejiler denemeyi ve hatalarını fark etmeyi öğrendi
Fizik, kimya ve biyolojideki zorlu benchmark görevlerinde doktora öğrencilerine benzer performans gösteriyor
Matematik ve kodlamada da üstün sonuçlar veriyor
- Uluslararası Matematik Olimpiyatı (IMO) eleme sınavında GPT-4o yalnızca %13 doğru yaparken, akıl yürütme modeli %83 başarı sağladı
- Codeforces yarışmalarında kodlama yeteneği %89 persentile ulaştı

Güvenlik

Modelin güvenlik ve hizalama yönergelerine uymasını sağlamak için yeni bir güvenlik eğitimi yaklaşımı geliştirildi
En zor jailbreak testlerinden birinde GPT-4o 22 puan alırken (100 üzerinden), o1-preview modeli 84 puan aldı
Güvenlik çalışmaları, iç yönetişim ve federal hükümetle iş birliği güçlendirildi
- Preparedness Framework kullanılarak sıkı test ve değerlendirme
- En üst düzey red team operasyonları
- Safety & Security Committee dahil yönetim kurulu düzeyinde inceleme süreci
ABD ve Birleşik Krallık yapay zeka güvenliği enstitüleriyle anlaşmalar imzalandı ve uygulamaya alındı

Bu model kimler için

Özellikle bilim, kodlama ve matematik gibi alanlarda karmaşık problemlerle uğraşanlar için faydalı olabilir
Örneğin
- Sağlık araştırmacıları hücre dizileme verilerini açıklamalı hâle getirebilir,
- Fizikçiler kuantum optiği için gerekli karmaşık matematiksel formülleri üretebilir,
- Geliştiriciler çok adımlı workflow'lar kurup çalıştırmak için kullanabilir

OpenAI o1-mini

o1 serisi, karmaşık kodları doğru şekilde üretme ve debug etme konusunda öne çıkıyor
Geliştiricilere daha verimli çözümler sunmak için o1-mini adlı daha hızlı ve daha ucuz bir akıl yürütme modeli de yayımlandı
o1-mini, o1-preview'dan %80 daha ucuz
- Akıl yürütmenin gerekli olduğu ancak geniş dünya bilgisinin gerekmediği uygulamalar için güçlü ve maliyet etkin bir model

OpenAI o1 nasıl kullanılır

ChatGPT Plus ve Team kullanıcıları bugünden itibaren ChatGPT içinde o1 modeline erişebiliyor
Hem o1-preview hem de o1-mini manuel olarak seçilebiliyor
Lansmanda o1-preview için haftalık 30, o1-mini için haftalık 50 mesaj sınırı bulunuyor
ChatGPT Enterprise ve Edu kullanıcıları gelecek haftadan itibaren iki modele de erişebilecek
API kullanım seviyesi 5'teki geliştiriciler bugünden itibaren API'de 20 RPM hız sınırıyla iki model üzerinde prototiplemeye başlayabilecek
Bu modellerin API'sinde şu anda function calling, streaming ve system message desteği gibi özellikler bulunmuyor
Tüm ChatGPT Free kullanıcılarına o1-mini erişimi sunulması planlanıyor

Gelecek planları

Bu, ChatGPT ve API için akıl yürütme modellerinin ilk önizlemesi
Model güncellemelerine ek olarak browsing, dosya ve görsel yükleme gibi özellikler eklenerek herkes için daha kullanışlı hâle getirilmesi planlanıyor
Yeni OpenAI o1 serisiyle birlikte GPT serisi modellerin geliştirilmesine ve yayımlanmasına devam edilmesi planlanıyor

4 yorum

dbs0829 2024-09-13

GitHub Copilot ile sinerjisinin nasıl olacağını merak ediyorum.

wedding 2024-09-13

Bu, hakkında söylentiler çıkan Strawberry mi?

brainer 2024-09-13

Evet. Altman o söylentiyi yayan kişiyi teselli etti.

xguru 2024-09-13

Doğrudur muhtemelen. Sanırım sadece muhakemeye odaklandığını vurgulamak için yeni sürüm numarası olarak 1'i seçtiklerini söylüyor.