ChatGPT Images 2.0 tanıtıldı
(openai.com)- OpenAI, görüntü üretim modelinin yeni nesil sürümünü tanıttı; tanıtım yazısının kendisini düz metinle yazmak yerine yalnızca Images 2.0 ile üretilen görsellerin içine yerleştirilen metinlerle sundu
- Karmaşık görsel işler ve hassas metin render'ı içeren, anında kullanılabilir çıktılar üretmeye odaklanıyor
- İlk kez düşünme (
thinking) yeteneğine sahip görüntü modeli olarak; web araması, aynı anda çoklu görsel üretimi ve çıktının kendi kendini doğrulaması mümkün - Japonca, Korece, Çince, Hintçe, Bengalce gibi Latin dışı karakterlerde render performansı büyük ölçüde iyileştirildiği için çok dilli tasarım üretiminde pratik
- 3:1'den 1:3'e kadar esnek en-boy oranı desteği ile banner, poster, mobil ekran gibi farklı formatlara anında uyum sağlıyor
- Bir render aracından stratejik bir tasarım sistemine dönüşümü savunuyor ve ChatGPT, Codex ve API genelinde kullanılabiliyor
Yeni bir görüntü üretimi çağı
- Görselleri basit bir süsleme değil, başlı başına bir dil olarak tanımlıyor; mekanizma açıklama, atmosfer kurma, fikir doğrulama ve argüman aktarma gibi roller üstleniyor
- Bir yıl önce çıkan ChatGPT Images, yapay zeka görsellerinin hem güzel hem de kullanışlı olabileceğini göstermişti; Images 2.0 ise karmaşık görsel işleri hassas biçimde işleyen yeni nesil model
- Ayrıntılı talimatlara sadık kalma, nesnelerin doğru yerleşimi ve ilişkilerini ifade etme, yoğun metin render'ında sıçrama düzeyinde iyileşme sağlıyor
- Kompozisyonu ve görsel sezgisi güçlü; sonuçlar yapay zeka üretimi değil de kasıtlı tasarım gibi hissettiren bir seviyeye ulaşıyor
- Farklı dillerde doğru çalışıyor ve genişletilmiş görsel ile dünya bilgisini kullanarak daha az prompt ile daha akıllı görsel üretimi mümkün kılıyor
- Bu model, OpenAI'nin akıl yürütme modeli zekâsını ve görsel dünya anlayışını birleştirerek görüntü üretimini basit render'dan stratejik tasarıma, araçtan görsel sisteme dönüştürüyor
- Bugünden itibaren ChatGPT, Codex ve API kullanıcılarının tamamına sunuluyor
Daha yüksek hassasiyet ve kontrol
- Images 2.0, görüntü üretiminde eşi görülmemiş düzeyde özgüllük ve sadakat sunuyor
- Yalnızca daha rafine görseller tasarlamakla kalmıyor, bunları etkili biçimde hayata da geçiriyor; talimat uyumu, istenen ayrıntıları koruma ve ince unsurları render etmede güçlü
- Önceki görüntü modellerinin zorlandığı küçük metinler, ikonlar, UI öğeleri, yoğun düzenler ve ince stil kısıtlarını en fazla 2K çözünürlükte işleyebiliyor
- "Kabaca benzer bir görsel" değil, gerçekten doğrudan kullanılabilir çıktı üretiyor
Geliştirilmiş çok dilli metin desteği
- Önceki modeller İngilizce ve Latin alfabesi kullanan dillerde tutarlı performans gösterse de, karmaşık ya da yoğun metinlerde Latin dışı karakterleri işlemede yetersiz kalıyordu
- Images 2.0, gelişmiş çok dilli anlama ile birlikte özellikle Japonca, Korece, Çince, Hintçe ve Bengalce Latin dışı metin render'ında büyük iyileşme sağlıyor
- İngilizce dışı metinleri yalnızca doğru render etmekle kalmıyor, dilsel olarak doğal akan çıktılar da üretebiliyor
- Sadece etiket çevirisinin ötesine geçerek, dilin tasarımın bir parçası olduğu posterler, açıklayıcı materyaller, diyagramlar ve çizgi romanlarda görsel tutarlılığı koruyor
- Kullanıcıların gerçekte kullandığı dillerde görsel oluşturabilmesini sağlayarak küresel kullanım değerini artırıyor
Stil inceliği ve gerçekçilik
- Images 2.0, farklı görsel stiller genelinde sadakati önemli ölçüde artırıyor
- Fotoğrafların ayırt edici unsurlarında (gerçekçiliği artıran küçük kusurlar dahil), film karelerinde, pixel art ve çizgi roman gibi özgün görsel dillerin doku, ışık, kompozisyon ve ayrıntılarında tutarlılık iyileşti
- İstenen stili yaklaşık olarak taklit etmek yerine ona sadık kalan çıktılar üretiyor
- Oyun prototipleme, storyboard, pazarlama kreatifleri ve belirli mecra ya da türlere yönelik asset üretiminde özellikle kullanışlı
Esnek en-boy oranı desteği
- 3:1 (yatay) ile 1:3 (dikey) arasında geniş en-boy oranı desteği sunuyor
- Geniş banner'lar, sunum slaytları, posterler, mobil ekranlar, yer imleri ve sosyal grafikler gibi ihtiyaç duyulan formata uygun çıktılar anında üretilebiliyor
- Prompt içinde istenen en-boy oranı belirtilebiliyor veya hazır ayar seçeneklerinden seçilerek yeni boyutta yeniden üretim yapılabiliyor
Gerçek dünya zekâsı
- Images 2.0, görüntü üretimine daha güncel bir dünya anlayışı yansıtıyor; bilgi kesim tarihi Aralık 2025 olarak güncellendi
- Açıklayıcı materyaller, haritalar, eğitim grafikleri ve görsel özetler gibi doğruluk ve açıklığın estetik kadar önemli olduğu çıktılarda avantaj sağlıyor
- Gelişmiş zekâsı sayesinde bilgiyi sentezlemeden metin yazımına ve görselleştirmeye kadar uçtan uca işleri yapabiliyor
- Boşluk kullanımı, okunabilirlik ve akışı gözeten temiz ve düzenli bir tasarım anlayışına sahip
Görsel düşünme partneri
thinkingveyapromodeli seçildiğinde, model daha fazla zaman ayırarak işi ajanvari şekilde anlayıp yürütüyor- Web'de ilgili bilgileri arayabiliyor, yüklenen materyalleri net görsel açıklama materyallerine dönüştürebiliyor ve üretimden önce görsel yapıyı akıl yürüterek kurabiliyor
- Bu modda Images 2.0, görsel düşünme partneri gibi çalışarak taslak fikirden tamamlanmış asset'e kadar kullanıcının iş yükünü ciddi biçimde azaltıyor
thinkingmodunda aynı anda birden fazla farklı görsel üretimi mümkün — ChatGPT görüntü üretiminde bir ilk- Çizgi roman sayfaları serisi, tüm ev için yeniden tasarım yönleri, poster konsept aileleri, farklı en-boy oranları ve dillerde sosyal grafik setleri gibi iş akışlarını destekliyor
- Görselleri tek tek prompt'layıp elle birleştirmek yerine, karakter ve nesne sürekliliğini koruyan en fazla 10 tutarlı çıktıyı tek seferde istemek mümkün
- Her çıktı, sıralı şekilde bir önceki sonucun üzerine inşa ediliyor
4 yorum
Görüntüye akıl yürütme eklenmiş, sonuçlar inanılmaz olmuş.
Sadece yeni bir iş alanıyla ilgili anahtar kelimeleri verdim,
ama temel mesajı/sorun noktalarını bile çıkarım yapıp landing page’e yedirmiş.
Daha önce referans almasını söylediğim sitenin marka renklerini, marka mesaj tonunu, hatta modelini bile olduğu gibi alması artık işin standart kısmı.
Korece’nin de hiç bozulmamış olması, bundan sonra kullanım alanının muazzam olacağını gösteriyor..
Artık yapay zekanın gelişimi giderek daha da ürkütücü gelmeye başladı bana.
İnanılmaz. Nano Banana çıktığında da şaşırmıştım ama bu daha da iyi olmuş. Rekabet olunca gelişmenin hızlı olduğu anlaşılıyor.
Oo.. yazı işleme Nano Banana’daydı ama bu kez epey hazırlanmışlar gibi görünüyor.
Tanıtım yazısındaki tüm metni görsele dönüştürmüşler.
Yazının tamamını görselleri kaydırarak görebiliyorsunuz.
Ortadaki el yazısı etkileyici görünüyor
Hacker News görüşleri
gpt-image-2ile "ham radyo tutan bir rakunu bulmaya yönelik Where's Waldo tarzı bir görsel" oluşturdum, kod burada. Ortaya çıkan sonuç bu görsel ama asıl mesele, rakunun gerçekten ham radyo tutup tutmadığından ben de emin değilim. Zaten Where's Waldo tarzı testlerde sonuna kadar aramaya yetecek sabrı pek bulamıyorumgemini-3.1-flash-image-previewile 4096x4096 bir görsel üretmenin 2.520 token ve görsel başına yaklaşık $0.151 tuttuğunu,gpt-image-2ile 3840x2160 bir görsel üretmenin ise 13.342 token ve yaklaşık $0.4 tuttuğunu özetledim. Dolayısıyla bu model Gemini'den 2 kattan fazla pahalıgpt-image-1.5modeli ile Google'ın NB2 modeli karşılaştırma sitemde birbirine oldukça yakın. Prompt uyumuna odaklı değerlendirmede ikisi de üretim ve düzenleme ölçütlerinde yaklaşık %70 başarı gösterdi, görsel kalite açısından ise Gemini hep bir adım öndeydi. Yine degpt-image-1.5, OpenAI tarafında büyük bir sıçramaydı ve eskiden "piss filter" diye anılan kronik sorunların çoğunu ortadan kaldırdı. Karşılaştırma grafikleri düzenleme için burada ve üretim için burada. Güncellenen duruma göregpt-image-2, test setindeki sözde model killer olan 9 köşeli yıldızı geçmeyi başardı ve text-to-image benchmark'ında 15 sorudan 12 tanesini doğru yaparak önceki en iyi modeli 1 puanla geçti. Yine de renk sırası katı olan coral snake, ilk 20 asal sayının yüzlere yazıldığı D20 ve kenarlardan insanların taştığı düz dünya benzeri gezegen prompt'larında hâlâ başarısız oldu. Tüm karşılaştırma All Models sayfasında, başlıca modellerin görünümü ise buradaGPT-Image-2ile üretilen görselleri oldukça iyi tespit edebildi. İlgili makale burada ve ben de bu ikisini birleştirerek cihaz üstünde çalışan bir AI görsel dedektörü yaptım