- OpenAI, görüntü üretiminin uzun zamandır dil modelinin temel yeteneklerinden biri olması gerektiğine inanıyordu ve bu vizyon doğrultusunda en gelişmiş ve güçlü görüntü üreticisini GPT‑4o'ya entegre etti
- GPT‑4o'nun görüntü üretimi, yalnızca güzel görseller üretmenin ötesine geçerek gerçekten kullanışlı ve değerli çıktılar ortaya koyuyor
- Hassas ve doğru; fotogerçekçilik düzeyinde yüksek kaliteli görseller üretmek mümkün
- Çok modlu yetenekler yerleşik olarak sunulduğu için dil, görsel ve bağlamı birlikte kullanarak görsel içerik üretmek mümkün
Kullanışlı görüntü üretme yetenekleri
- İnsanlar, antik duvar resimlerinden modern infografiklere kadar, bilgi aktarmak, ikna etmek ve analiz yapmak için görsel imgeleri kullandı
- Mevcut üretici modeller fantastik veya etkileyici görseller oluşturabiliyor, ancak pratik bilgi aktarımına yönelik görsellerde zorlanıyordu
- GPT‑4o'nun görüntü üretimi, logo veya diyagram gibi anlamı doğru aktaran görseller üretmede güçlü yönlere sahip
- Metni doğru render etme, kullanıcı konuşmasının bağlamını kullanma ve yüklenen görselleri temel alarak üretim yapma gibi gelişmiş yetenekler içeriyor
- Bu yetenekler, kullanıcıların istedikleri görselleri daha isabetli biçimde oluşturmalarına yardımcı oluyor
Geliştirilmiş görüntü üretme kapasitesi
- Çevrimiçi görseller ile metinlerin birleşik dağılımını öğrenerek görsel ile dil ve görseller arası ilişkileri anlıyor
- Eğitim sonrası iyileştirme süreciyle görsel akıcılık artıyor ve kullanışlı, tutarlı görseller üretilebiliyor
Metin render etme yeteneği
- Görseller binlerce kelime taşıyabilir; ancak doğru yere yerleştirilmiş birkaç metin parçası anlamı güçlendirebilir
- GPT‑4o, görsellere hassas semboller veya metin ekleyerek bunları görsel iletişim aracı olarak kullanabiliyor
Konuşmalı görüntü üretimi
- GPT‑4o, görüntü üretimini doğal bir yetenek olarak entegre ettiği için konuşma akışı içinde görsel üretip düzenleyebiliyor
- Örnek: Bir oyun karakteri tasarlanırken görünümü sürekli koruyup yinelemeli düzenlemeler yapmak mümkün
Talimatların doğru yansıtılması
- GPT‑4o, ayrıntılı prompt'ları doğru biçimde uygular
- Diğer sistemler yaklaşık 5-8 nesneyi işleyebilirken GPT‑4o, en fazla 10-20 nesneyi tutarlı şekilde üretebilir
- Nesne özelliklerini ve aralarındaki ilişkileri daha doğru korur
Bağlam temelli öğrenme
- Kullanıcının yüklediği görselleri analiz ederek bu görsellerin ayrıntılarını yeni görüntü üretimine yansıtır
Dünya bilgisiyle bağlantı
- GPT‑4o, metin ile görsel arasındaki bilgiyi bağlayarak daha akıllı ve verimli görüntü üretimi sağlar
Fotogerçekçilik ve çeşitli stiller
- Farklı görsel stiller üzerinde eğitildiği için gerçekçi görseller üretebilir ve stil dönüşümü yapabilir
Modelin sınırlamaları
- Kusursuz bir model değil
- İlk lansmandan sonra kullanıcı geri bildirimleri ve veriler doğrultusunda sürekli iyileştirilecek
Güvenliği sağlama çalışmaları
- Oyun geliştirme, tarih araştırması ve eğitim gibi faydalı yaratıcı faaliyetleri teşvik ederken güçlü güvenlik standartlarını koruyor
- Uygunsuz görsel üretimini önlemek için sıkı politikalar uygulanıyor
-
C2PA ve dahili arama aracıyla şeffaflık sağlama
- GPT‑4o tarafından üretilen tüm görsellerde, kaynağı açıkça göstermek için C2PA meta verisi bulunuyor
- Dahili arama aracı kullanılarak teknik özellikler temelinde görselin kaynağı doğrulanabiliyor
-
Uygunsuz görsellerin engellenmesi
- Çocuklara yönelik cinsel içerikli görseller veya deepfake gibi politika ihlali niteliğindeki görsel üretim istekleri engelleniyor
- Gerçek kişilerin yer aldığı görseller için daha sıkı kısıtlamalar uygulanıyor
- Çıplaklık ve şiddet içeren görseller için kapsamlı bir ön engelleme sistemi işletiliyor
-
Akıl yürütme temelli güvenliğin güçlendirilmesi
- İnsanlar tarafından yazılmış politika tanımlarını temel alan, akıl yürütme odaklı bir LLM eğitildi
- Politikalardaki belirsizlikleri tespit edip çözmek için kullanıldı; çok modlu teknolojiyle birleştirilerek hem giriş metninin hem de çıktı görselin politika standartlarına uygun olması sağlandı
Kullanıma sunulması
- Bugünden itibaren Plus, Pro, Team ve Free kullanıcılarına varsayılan görüntü üreticisi olarak sunuluyor
- Enterprise ve Edu desteği yakında gelecek
- Sora'da da kullanılabiliyor; mevcut DALL·E modeli ise ayrı bir GPT üzerinden erişilebilir durumda
- API üzerinden görüntü üretme yeteneği birkaç hafta içinde geliştiricilere sunulacak
- Kullanıcılar yalnızca istedikleri görselin açıklamasıyla üretim yapabilir; oran, renk (
hex kodu) ve arka planın şeffaf olup olmaması gibi ayrıntıları da belirleyebilir
- Yüksek hassasiyetli görüntü üretimi nedeniyle render süresi 1 dakikaya kadar çıkabilir
3 yorum
Henüz free'de görünmüyor gibi; sadece Plus, Pro ve Team'e mi açıldı?
Pro'da sohbet penceresinin altında
...a basınca "Görsel oluştur (güncellendi)" diye görünüyor; sanırım bu o.Ama Best of # görünmüyor; uygulanmamış mı uygulanmış mı, karıştırıyorum.
Hacker News görüşleri
Yeni görüntü üretim yaklaşımı, difüzyon yerine piksel uzayında çıkarım yapmak için token kullanıyor
4o Image Generation tanıtıldı: en gelişmiş görüntü üretici olduğu söyleniyor
Neden o1 ile kıyaslama eklenmediğini merak ediyorum
OpenAI'nin GPT-4o Image Generation canlı yayını yavaştı; görüntü başına yaklaşık 30 saniye sürüyor
Denediğimde, kızımın doğum günü davetiyesini tek seferde oluşturabildim
Aşırı doygun CG/karikatür tarzı olmaması hoşuma gitti
Verilen prompt'un 4o mu yoksa DALL-E mi tarafından işlendiğini anlamanın bir yolu olup olmadığını merak ediyorum
Şarap kadehi testinde hâlâ başarısız oluyor
"Best of 8" etiketi taşıyan birçok görüntünün ne kadar seçilmiş olduğunu merak ediyorum
Yeni modelle yinelemeli düzenlemeye dair örnekler var