ChatGPT Images 2.0 tanıtıldı

(openai.com)

5 puan yazan GN⁺ 8 일 전 | 4 yorum | WhatsApp'ta paylaş

OpenAI, görüntü üretim modelinin yeni nesil sürümünü tanıttı; tanıtım yazısının kendisini düz metinle yazmak yerine yalnızca Images 2.0 ile üretilen görsellerin içine yerleştirilen metinlerle sundu
Karmaşık görsel işler ve hassas metin render'ı içeren, anında kullanılabilir çıktılar üretmeye odaklanıyor
İlk kez düşünme (thinking) yeteneğine sahip görüntü modeli olarak; web araması, aynı anda çoklu görsel üretimi ve çıktının kendi kendini doğrulaması mümkün
Japonca, Korece, Çince, Hintçe, Bengalce gibi Latin dışı karakterlerde render performansı büyük ölçüde iyileştirildiği için çok dilli tasarım üretiminde pratik
3:1'den 1:3'e kadar esnek en-boy oranı desteği ile banner, poster, mobil ekran gibi farklı formatlara anında uyum sağlıyor
Bir render aracından stratejik bir tasarım sistemine dönüşümü savunuyor ve ChatGPT, Codex ve API genelinde kullanılabiliyor

Yeni bir görüntü üretimi çağı

Görselleri basit bir süsleme değil, başlı başına bir dil olarak tanımlıyor; mekanizma açıklama, atmosfer kurma, fikir doğrulama ve argüman aktarma gibi roller üstleniyor
Bir yıl önce çıkan ChatGPT Images, yapay zeka görsellerinin hem güzel hem de kullanışlı olabileceğini göstermişti; Images 2.0 ise karmaşık görsel işleri hassas biçimde işleyen yeni nesil model
Ayrıntılı talimatlara sadık kalma, nesnelerin doğru yerleşimi ve ilişkilerini ifade etme, yoğun metin render'ında sıçrama düzeyinde iyileşme sağlıyor
Kompozisyonu ve görsel sezgisi güçlü; sonuçlar yapay zeka üretimi değil de kasıtlı tasarım gibi hissettiren bir seviyeye ulaşıyor
Farklı dillerde doğru çalışıyor ve genişletilmiş görsel ile dünya bilgisini kullanarak daha az prompt ile daha akıllı görsel üretimi mümkün kılıyor
Bu model, OpenAI'nin akıl yürütme modeli zekâsını ve görsel dünya anlayışını birleştirerek görüntü üretimini basit render'dan stratejik tasarıma, araçtan görsel sisteme dönüştürüyor
Bugünden itibaren ChatGPT, Codex ve API kullanıcılarının tamamına sunuluyor

Daha yüksek hassasiyet ve kontrol

Images 2.0, görüntü üretiminde eşi görülmemiş düzeyde özgüllük ve sadakat sunuyor
Yalnızca daha rafine görseller tasarlamakla kalmıyor, bunları etkili biçimde hayata da geçiriyor; talimat uyumu, istenen ayrıntıları koruma ve ince unsurları render etmede güçlü
Önceki görüntü modellerinin zorlandığı küçük metinler, ikonlar, UI öğeleri, yoğun düzenler ve ince stil kısıtlarını en fazla 2K çözünürlükte işleyebiliyor
"Kabaca benzer bir görsel" değil, gerçekten doğrudan kullanılabilir çıktı üretiyor

Geliştirilmiş çok dilli metin desteği

Önceki modeller İngilizce ve Latin alfabesi kullanan dillerde tutarlı performans gösterse de, karmaşık ya da yoğun metinlerde Latin dışı karakterleri işlemede yetersiz kalıyordu
Images 2.0, gelişmiş çok dilli anlama ile birlikte özellikle Japonca, Korece, Çince, Hintçe ve Bengalce Latin dışı metin render'ında büyük iyileşme sağlıyor
İngilizce dışı metinleri yalnızca doğru render etmekle kalmıyor, dilsel olarak doğal akan çıktılar da üretebiliyor
Sadece etiket çevirisinin ötesine geçerek, dilin tasarımın bir parçası olduğu posterler, açıklayıcı materyaller, diyagramlar ve çizgi romanlarda görsel tutarlılığı koruyor
Kullanıcıların gerçekte kullandığı dillerde görsel oluşturabilmesini sağlayarak küresel kullanım değerini artırıyor

Stil inceliği ve gerçekçilik

Images 2.0, farklı görsel stiller genelinde sadakati önemli ölçüde artırıyor
Fotoğrafların ayırt edici unsurlarında (gerçekçiliği artıran küçük kusurlar dahil), film karelerinde, pixel art ve çizgi roman gibi özgün görsel dillerin doku, ışık, kompozisyon ve ayrıntılarında tutarlılık iyileşti
İstenen stili yaklaşık olarak taklit etmek yerine ona sadık kalan çıktılar üretiyor
Oyun prototipleme, storyboard, pazarlama kreatifleri ve belirli mecra ya da türlere yönelik asset üretiminde özellikle kullanışlı

Esnek en-boy oranı desteği

3:1 (yatay) ile 1:3 (dikey) arasında geniş en-boy oranı desteği sunuyor
Geniş banner'lar, sunum slaytları, posterler, mobil ekranlar, yer imleri ve sosyal grafikler gibi ihtiyaç duyulan formata uygun çıktılar anında üretilebiliyor
Prompt içinde istenen en-boy oranı belirtilebiliyor veya hazır ayar seçeneklerinden seçilerek yeni boyutta yeniden üretim yapılabiliyor

Gerçek dünya zekâsı

Images 2.0, görüntü üretimine daha güncel bir dünya anlayışı yansıtıyor; bilgi kesim tarihi Aralık 2025 olarak güncellendi
Açıklayıcı materyaller, haritalar, eğitim grafikleri ve görsel özetler gibi doğruluk ve açıklığın estetik kadar önemli olduğu çıktılarda avantaj sağlıyor
Gelişmiş zekâsı sayesinde bilgiyi sentezlemeden metin yazımına ve görselleştirmeye kadar uçtan uca işleri yapabiliyor
- Boşluk kullanımı, okunabilirlik ve akışı gözeten temiz ve düzenli bir tasarım anlayışına sahip

Görsel düşünme partneri

thinking veya pro modeli seçildiğinde, model daha fazla zaman ayırarak işi ajanvari şekilde anlayıp yürütüyor
Web'de ilgili bilgileri arayabiliyor, yüklenen materyalleri net görsel açıklama materyallerine dönüştürebiliyor ve üretimden önce görsel yapıyı akıl yürüterek kurabiliyor
Bu modda Images 2.0, görsel düşünme partneri gibi çalışarak taslak fikirden tamamlanmış asset'e kadar kullanıcının iş yükünü ciddi biçimde azaltıyor
thinking modunda aynı anda birden fazla farklı görsel üretimi mümkün — ChatGPT görüntü üretiminde bir ilk
- Çizgi roman sayfaları serisi, tüm ev için yeniden tasarım yönleri, poster konsept aileleri, farklı en-boy oranları ve dillerde sosyal grafik setleri gibi iş akışlarını destekliyor
Görselleri tek tek prompt'layıp elle birleştirmek yerine, karakter ve nesne sürekliliğini koruyan en fazla 10 tutarlı çıktıyı tek seferde istemek mümkün
- Her çıktı, sıralı şekilde bir önceki sonucun üzerine inşa ediliyor

4 yorum

j2sus91 8 일 전

Görüntüye akıl yürütme eklenmiş, sonuçlar inanılmaz olmuş.

Sadece yeni bir iş alanıyla ilgili anahtar kelimeleri verdim,
ama temel mesajı/sorun noktalarını bile çıkarım yapıp landing page’e yedirmiş.

Daha önce referans almasını söylediğim sitenin marka renklerini, marka mesaj tonunu, hatta modelini bile olduğu gibi alması artık işin standart kısmı.
Korece’nin de hiç bozulmamış olması, bundan sonra kullanım alanının muazzam olacağını gösteriyor..

Artık yapay zekanın gelişimi giderek daha da ürkütücü gelmeye başladı bana.

kirinonakar 8 일 전

İnanılmaz. Nano Banana çıktığında da şaşırmıştım ama bu daha da iyi olmuş. Rekabet olunca gelişmenin hızlı olduğu anlaşılıyor.

xguru 8 일 전

Oo.. yazı işleme Nano Banana’daydı ama bu kez epey hazırlanmışlar gibi görünüyor.
Tanıtım yazısındaki tüm metni görsele dönüştürmüşler.
Yazının tamamını görselleri kaydırarak görebiliyorsunuz.
Ortadaki el yazısı etkileyici görünüyor

GN⁺ 8 일 전

Hacker News görüşleri

Yeni modeli şöyle test ettim. gpt-image-2 ile "ham radyo tutan bir rakunu bulmaya yönelik Where's Waldo tarzı bir görsel" oluşturdum, kod burada. Ortaya çıkan sonuç bu görsel ama asıl mesele, rakunun gerçekten ham radyo tutup tutmadığından ben de emin değilim. Zaten Where's Waldo tarzı testlerde sonuna kadar aramaya yetecek sabrı pek bulamıyorum
- Maksimum çözünürlük kullanan komutla tekrar çalıştırınca çok daha iyi bir sonuç aldım. OpenAI cookbook'taki önerilen boyutları referans aldım(bağlantı), sonuç da burada. Bu kez raccoon'u da buldum ve tek bir görsel yaklaşık 40 sente mal oldu gibi görünüyor
- Bu görsel için teşekkür ederim ama insanların yüzleri o kadar tuhaf ki sanki kâbusa girecekmiş gibi hissettiriyor
- Bence bu prompt, mevcut diffusion tabanlı modeller için gerçekten şeytani derecede zor bir görev. O yüzden denemiş olmaları bile bana etkileyici geliyor
- "Sonuna kadar arayacak sabrım yok" sözünü görünce bunun doğrudan yeni bir AI benchmark'ına dönüştürülebileceğini düşündüm
- Bu tür işler bana AI'ın yapısal detaylar konusunda kalıcı olarak zayıf kalabileceği bir alan gibi geldi. Uzaktan bakınca inandırıcı duruyor ama yakından bakınca çığlık atıyormuş gibi görünen yüzler, iki yönü aynı anda gösteren tabelalar, var olmayan ilk yardım çadırları, canavar gibi duran köpekler gibi çok fazla hata var. Tanıtım örnekleri de benzer, anatomi ya da periyodik tablo gibi örnekler de yakından bakınca dağılıyor. Sonuçta bu kadar RAM & GPUs, su ve elektrik harcayıp daha kötü bir Where's Waldo üretmek için mi uğraşıyoruz diye bir şüpheye kapılıyorum
Nano Banana Pro ile denemeler yaparken görsel modellerin kurallara uyma becerisini ölçen çok eğlenceli bir prompt hazırladım. Şöyleydi: "İlk 64 asal sayıya karşılık gelen National Pokédex numaralarındaki Pokémon'ları 8x8 bir ızgaraya yerleştir ve numaranın basamak sayısına göre 8-bit, charcoal, Ukiyo-e stillerinde çiz." NBP sonucu burada ve numaralar, Pokémon'lar ve stiller genel olarak doğruydu; yalnız stil uygulaması biraz özensizdi ve görselin intihal gibi görünebileceğine dair tartışma da var. Aynı prompt'u gpt-2-image high ile çalıştırınca çıkan sonuç burada; daha yaratıcı ve özgün görünen stiller üretti ama stil mantığını sayılara göre değil satır bazında uyguladı, birkaç Pokémon yanlıştı, font yanlıştı ve alt kısım da kare değildi. Oldukça garip bir sonuçtu
- Bu testin gerçekten harika olduğunu düşündüm, ama aynı zamanda gpt-2-image'ın bu kadar kötü olması da biraz komik geldi. Hatta gidip aratıp kopyala-yapıştır yapılmış gibi duran plagiarized bir görselin daha iyi olacağını düşündürdü. En azından "talimatı gerçekten izledi mi" diye bakacak bir sanity check ya da son işleme adımı bile yokmuş gibi görünüyor. Basamak sayısına göre stil kısıtlarını ihlal ettiği kolayca yakalanabilirdi. Üstelik pahalı da, sonuç pratikte kullanılamayacak kadar kötüyse bu daha da can sıkıcı
- Hatta bu prompt'un neden iyi bir prompt sayıldığını merak ettim
gemini-3.1-flash-image-preview ile 4096x4096 bir görsel üretmenin 2.520 token ve görsel başına yaklaşık $0.151 tuttuğunu, gpt-image-2 ile 3840x2160 bir görsel üretmenin ise 13.342 token ve yaklaşık $0.4 tuttuğunu özetledim. Dolayısıyla bu model Gemini'den 2 kattan fazla pahalı
- Bence bu karşılaştırma apples to oranges. Flash sürüm ile tam sürümü doğrudan kıyaslamış oluyorsun ve ince detaylarda bunun flash'tan hissedilir biçimde yaklaşık 5 kat daha iyi olduğunu düşünüyorum
Görsel üretim modellerini test ederken hep kullandığım bir hard prompt var. Eski bir saat ustasının elleri, vintage cep saati, sığ su, kırılma ve caustics, düşen su damlaları, cam yüzeyde yansıyan bozulmuş bir yüz, 100mm macro lens gibi pek çok koşulu aynı anda veriyorum. Sonuç görselleri Google Drive üzerine yükledim; hem web'de hem API'de birkaç kez denedim ama genel olarak Nano Banana kadar iyi değildi
- Bunun neden iyi bir prompt olduğunu düşündüğünü merak ettim
- Paylaşılan görselleri açmaya çalıştım ama barındırıcı tarafta rate limit varmış gibi görünüyor, haber vermek istedim
- Bağlantıların bozuk göründüğünü doğruladım
Bence OpenAI'nin gpt-image-1.5 modeli ile Google'ın NB2 modeli karşılaştırma sitemde birbirine oldukça yakın. Prompt uyumuna odaklı değerlendirmede ikisi de üretim ve düzenleme ölçütlerinde yaklaşık %70 başarı gösterdi, görsel kalite açısından ise Gemini hep bir adım öndeydi. Yine de gpt-image-1.5, OpenAI tarafında büyük bir sıçramaydı ve eskiden "piss filter" diye anılan kronik sorunların çoğunu ortadan kaldırdı. Karşılaştırma grafikleri düzenleme için burada ve üretim için burada. Güncellenen duruma göre gpt-image-2, test setindeki sözde model killer olan 9 köşeli yıldızı geçmeyi başardı ve text-to-image benchmark'ında 15 sorudan 12 tanesini doğru yaparak önceki en iyi modeli 1 puanla geçti. Yine de renk sırası katı olan coral snake, ilk 20 asal sayının yüzlere yazıldığı D20 ve kenarlardan insanların taştığı düz dünya benzeri gezegen prompt'larında hâlâ başarısız oldu. Tüm karşılaştırma All Models sayfasında, başlıca modellerin görünümü ise burada
Fiyat karşılaştırmasını çıkardım. GPT Image 2 için Low seviyesinde 1024x1024 $0.006, 1024x1536 ve 1536x1024 $0.005; Medium'da sırasıyla $0.053, $0.041, $0.041; High'da ise $0.211, $0.165, $0.165. Buna karşılık GPT Image 1'de Low $0.011, $0.016, $0.016; Medium $0.042, $0.063, $0.063; High ise $0.167, $0.25, $0.25 idi
- Çözünürlük sınırlarının bu kadar büyük olması biraz garip geldi. Daha büyük üretilince yakınlaştırmada detay mı dağılıyor, yoksa mesele sadece maliyetin hızla artması mı diye merak ettim
- v2'de büyük çıktıların küçük karelerden daha pahalı, v1'de ise tam tersinin geçerli olması ilginç geldi. Bu fiyat yapısının neden böyle kurulduğunu merak ediyorum
Bu kez piyano tuşları testini geçtiğini gördüm. Başarılı örnek burada, fakat middle C etiketlemesini bu denemede yanlış yaptı. Yine de tekrar isteyince düzeltebildi
- NB 2 çıktığında bu testin zorluk seviyesini daha da artırdım. Tüm accidentals ve naturals renklerini ters çevirdim ve buna rağmen kusursuz yaptı; örnekler burada
Çince metin render etme konusundaki gelişme gerçekten çok belirgin ve etkileyici geldi. Yine de Wuxi örnek görselinde yazım hataları vardı; örneğin 小笼包 içindeki 笼 karakteri yanlış yazılmıştı. "极小中文也清晰可读" bölümünde de başka yazım hataları vardı ama okumayı ciddi biçimde engellemiyordu. Buna rağmen önceki görsel üretim modellerine kıyasla çok büyük bir ilerleme olduğu açıkça hissediliyor
- Bunun Çin'deki yerel Çin merkezli modellerden bile daha iyi olup olmadığını merak ettim. Eğitim verilerinde Çince örneklerin çok daha fazla olacağını düşündüğüm için genelde onların bu konuya daha fazla odaklanmış olmasını beklerdim
Bence şu an C2PA'dan söz etmek için iyi bir zaman. Bu, görselin kaynağını etkin şekilde doğrulamaya yarayan bir standart ve OpenAI de bunun içinde. AI ile ürettiğim bir görseli C2PA Viewer'a yüklediğimde kaynağın ChatGPT olduğu görünüyor. Elbette kötü niyetli kullanıcılar metaveriyi silip görseli sıradan bir görsel gibi gösterebilir, ama uzun vadede kaynak işareti olmayan görsellere non-https gibi bir risk sinyali muamelesi yapmamız gerektiğini düşünüyorum. Ayrıntılar için c2pa.org
- Bana göre sorunu sadece bad actors meselesi olarak görmek zor. Instagram ve Facebook gibi çoğu platform, gizlilik nedeniyle metaveriyi varsayılan olarak kaldırıyor; EXIF içinde konum bilgisi, dosya adı, oluşturulma zamanı ve cihaz bilgisi gibi veriler bulunabiliyor. O yüzden şu an C2PA'nın korunması açısından asıl pratik sorun, kötü niyetli manipülasyondan çok, çoğu sitenin görsel yüklenirken metadata stripping yapması gibi görünüyor
- OpenAI'nin en başından beri üretilen görsellere C2PA manifests eklediğini de belirtmek isterim. Ayrıca yaptığım küçük ölçekli değerlendirmeye göre OmniAID gibi güncel ML tabanlı AI görsel dedektörleri, GPT-Image-2 ile üretilen görselleri oldukça iyi tespit edebildi. İlgili makale burada ve ben de bu ikisini birleştirerek cihaz üstünde çalışan bir AI görsel dedektörü yaptım
Bu modeli birkaç saattir kullanıyorum ve dürüst olmak gerekirse oldukça etkileyici buldum. Bir görsel modelinin gerçek işimde yardımcı olduğunu ilk kez hissediyorum; özellikle PowerPoint slaytları ve mockup hazırlamada gerçekten güçlü görünüyor