- ChatGPT'nin görüntü oluşturma özelliği yeni bir yükseltmeyle daha hassas düzenleme ve daha hızlı üretim sunuyor
- GPT‑Image‑1.5 modeli, metin talimatlarını daha doğru izliyor ve kişinin benzerliğini, ışığını ve kompozisyonunu koruyarak düzenleme yapabiliyor
- Yeni Images kenar çubuğu arayüzü üzerinden hazır stil seçenekleri, trend prompt'lar ve görünüm yeniden kullanma desteği sunuluyor
- API tarafında da aynı performans artışları gelirken maliyet %20 azaltıldı; marka logoları ve ürün görselleri üretimi için uygun
- Bu güncelleme tüm ChatGPT ve API kullanıcılarına hemen dağıtılıyor ve görüntü üretiminin pratikliğini ile kalitesini büyük ölçüde artırıyor
GPT‑Image‑1.5'e giriş
- ChatGPT Images'in, en güçlü görüntü üretim modeli temel alınarak hazırlanan yeni sürümü tanıtıldı
- Metin talimatlarını daha doğru izliyor ve yüz benzerliği gibi ayrıntıları koruyarak düzenleme yapabiliyor
- Görüntü üretim hızı 4 kata kadar arttı; yinelemeli denemeler ve fikir keşfi daha verimli hale geliyor
- Model, ifade gücü yüksek dönüşümler, yoğun metin render etme ve doğal sonuçlar sunuyor
- Küçük düzenlemelerden tam yeniden oluşturmaya kadar yanıt veriyor; hazır stiller seçilerek kolayca üretim yapılabiliyor
- Tüm ChatGPT kullanıcılarına kademeli olarak sunuluyor; API'de ise GPT‑Image‑1.5 olarak sağlanıyor
Kullanıcının niyetine uygun sonuçlar
- Model, yalnızca istenen bölümü düzenlerken ışık, kompozisyon ve kişi benzerliğini tutarlı biçimde koruyor
- Bu sayede fotoğraf düzenleme, kıyafet ve saç modeli simülasyonu, stil filtreleri, kavramsal dönüşüm gibi alanlarda yüksek uyum sağlanıyor
- ChatGPT, taşınabilir bir yaratıcı stüdyo gibi hem pratik düzenleme hem de sanatsal yeniden kurgulama gerçekleştirebiliyor
- Çeşitli düzenleme türlerini destekliyor (ekleme, silme, birleştirme, harmanlama vb.)
- Metin ve yerleşim gibi öğeleri ekleyen yaratıcı dönüşüm yeteneği güçlendirildi
- GPT Image 1.0'a kıyasla talimat anlama yeteneği arttı, daha ayrıntılı düzenleme mümkün hale geldi
- Yoğun ve küçük metin render etme kalitesi iyileştirildi
Yeni görüntü üretim alanı
- ChatGPT içinde Images'e özel bir kenar çubuğu eklenerek görüntü keşfi ve üretim süreci kısaltıldı
- Hazır filtreler, trend prompt'lar ve görünüm yeniden kullanma özelliği içeriyor
- Kamera rulonuzu yeniden kullanmaya gerek kalmadan tek yüklemeyle tekrar tekrar kullanılabiliyor
- Görüntü üretim hızı 4 kata kadar iyileştirildi ve birden fazla görüntü aynı anda üretilebiliyor
- Küçük düzenlemelerden tam yeniden oluşturmaya kadar kullanıcının vizyonuyla uyumlu sonuçlar sunuyor
Ek kalite iyileştirmeleri
- Çok sayıda küçük yüzü gösterme, doğal sonuçlar render etme gibi alanlarda hemen kullanılabilir kalite artışları sağlandı
- Örnek: 1970'lerin Londra sokak sahnesi gerçekçi biçimde yeniden oluşturulurken ayrıntı odağı ve kişi betimlemesi geliştirildi
İyileştirmeler ve sınırlamalar
- İlk sürüme kıyasla çeşitli senaryolarda belirgin performans artışı doğrulandı
- Ancak bazı sonuçlar hâlâ kusursuz değil; çoklu yüz ve çok dilli işleme gibi alanlarda gelişme payı bulunuyor
GPT Image 1.5'in API'de sunulması
- API sürümü, ChatGPT Images ile aynı iyileştirmeleri içeriyor
- Marka logosu ve temel görsel tutarlılığını koruma
- Pazarlama ve e-ticaret görselleri üretimi için uygun
- Giriş/çıkış maliyetleri %20 azaltıldı; aynı bütçeyle daha fazla görsel üretmek mümkün
- OpenAI Playground, galeri ve prompt rehberinde denenebiliyor
- Wix, Canva, Figma, Envato gibi şirketler şimdiden kullanıyor
- Wix, bunu “yüksek kaliteli ve yüksek tutarlılığa sahip görsel üretimiyle hızlı üretim iş akışı desteği” olarak değerlendiriyor
Çıkış ve dağıtım
- Yeni ChatGPT Images modeli, dünya çapındaki tüm ChatGPT ve API kullanıcılarına hemen dağıtılıyor
- Ayrı bir model seçimi gerekmiyor; önceki sürüm ise özel GPT biçiminde korunuyor
- OpenAI, bu güncellemeyi görüntü üretim teknolojisinin gelişiminde önemli bir adım olarak değerlendiriyor
- Gelecekte daha ayrıntılı düzenleme ve çok dilli destek gibi ek iyileştirmeler planlanıyor
1 yorum
Hacker News görüşleri
GenAI Showdown sitesindeki gpt-image 1.5 sonuçları paylaşılıyor
OpenAI hâlâ prompt anlama konusunda güçlüydü ama görüntü sadakati (fidelity) zayıf kalıyordu. Bu güncellemeyle o zayıflık epey iyileşmiş görünüyor
Özellikle genel estetiği bozmadan yerel düzenleme (localized edit) işini iyi yapıyor. Önceki puanı 4/12 iken 8/12’ye çıkarak iki katına yükselmiş ve ‘Giraffe prompt’unu geçen tek model olmuş
Modelin yönlendirilebilirliği (steerability) de %90 seviyesinde yüksek
Yeni eklenen özellikler arasında modele göre başarısız örnekler (outtakes) bölümü, REVE ve Flux.2 Dev modellerinin eklenmesi ve ağırlıklı puan sistemi yer alıyor
Üç modeli (gpt-image-1, gpt-image-1.5, NB Pro) karşılaştırmak için bu bağlantıya bakılabilir
Nano Banana ile ilgili deneyleri derleyen bir blog yazısı hazırlanıyor
Yeni ChatGPT Image modeli test edildiğinde, Nano Banana Pro’dan belirgin şekilde kötü ama temel Nano Banana’dan daha iyi bulunmuş
Fiyat net değil ama gpt-image-1.5 mevcut modele göre yaklaşık %20 daha ucuz görünüyor
İlginç noktalardan biri ızgara üretimi (grid generation) örneği. NBP’de 4x4’ün üstünde prompt tutarlılığı bozulurken, OpenAI’nin 6x6 örneği denemesi etkileyici bulunmuş
Bu arada NB Pro’nun etkileyici sonuçları bu blogda görülebilir
NB Pro; daha önce görmediği bir yapbozu birleştirme, 3D araziyi tahmin etme ve pencereyi aynaya çevirme gibi şaşırtıcı sonuçlar vermiş
Örneğin iki kişinin kürek çekmesi istendiğinde, tekne neredeyse sığamayacak kadar küçük çıkmış
Ayrıca her düzenleme prompt’unda önceki konuşmanın kaybolması hatası çok rahatsız ediciymiş
Daha doğal sonuçlar için prompt’un başına “shaky amateur smartphone photo” gibi ifadeler eklenmiş
İlgili tepkiler bu tweette de görülebilir
gpt-image-1, Nano Banana(Pro)’ya göre previz-to-render konusunda çok daha başarılı
Nano Banana düşük çözünürlüklü previz öğelerini olduğu gibi korurken, gpt-image-1 karakter pozlarını ve sahne bloklamasını anlayıp upscale da yapabiliyor
Örnek videolar: 3D + Posing + Blocking, set yeniden kullanım sürümü, Gaussian splats, ek örnek
İleride stil kontrolü, hız ve referans görsel tabanlı stillendirme sağlayan modellere ihtiyaç olduğu belirtiliyor
Adobe de benzer özellikleri deniyor; Relighting, Image→3D düzenleme, Gaussian düzenleme, 3D→Image dönüştürme gibi demolar gösteriyor
Bunu yazan kişi bu işlevleri açık kaynak masaüstü aracı olarak kendisi uyguluyor ve Rust ile geliştiriyor
2010’da bu, Photoshop uzmanlarının görüntüleri birleştirdiği bir hizmet olsaydı büyük tartışma çıkarırdı deniyor
Bugün ise AI’ın telif ve yazarlık kavramını aşındırdığı bir çağda yeni içeriğin nasıl korunabileceği sorgulanıyor
Bir zamanlar çekilmiş, nadir bir stile sahip bir fotoğrafın gpt tarafından neredeyse birebir yeniden üretildiği söyleniyor
Bir şey paylaşıldığı anda belli düzeyde kötüye kullanımı göze almak gerekiyor. Modellerin orijinale aşırı uyum göstermesi konusunda henüz hukuki emsal yok
gpt-image-1.5 ile sprite map ve UV texture map üretmeyi deneyen biri, Megaman Legends havasının iyi yakalandığını söylüyor
Örnek1, Örnek2
Ancak ortada gerçek bir 3D model olmadığı için bunun doğru bir UV map olup olmadığından emin değil. Nano Banana’nın ilk sürümünde bu tür işler yapılamıyordu
Böyle bir texture kullanılabilir ama ciddi deformasyon olur
Doğru yaklaşım modeli unwrap edip giriş olarak wireframe UV map kullanmak olur
Gerçek Crash modeli burada görülebilir
Bir yazılım ürününde dark theme uygulama deneyi yapılmış
Gemini/Nano yalnızca bazı panelleri griye çevirirken, GPT tüm uygulamayı şık biçimde temalandırmış
Yine de ince tasarım ayrıntıları için hâlâ tasarımcı dokunuşu gerekiyor
ChatGPT görsellerinde sürekli görülen sarı tonun nedeni merak ediliyor
“Var olmayan anılardan görüntü üretmek” ürün söylemi olarak tuhaf bulunuyor
Bu kişi aracı daha çok programlama, wiki, matematik gibi metin odaklı işler için kullanıyor
Durum, geçmişte Snapchat filtrelerinin moda olduğu döneme benzetiliyor; kendisi o zaman da her şeyi varsayılan hâlde bırakıyormuş
Sonunda herkesin sanal bir hayata abone olduğu ve kredi kartı ödemesi reddedilince gerçekliğe geri döndüğü bir dünya bile olabilir
Yeni model API’de çalışıyor denince Golang SDK grail güncellenmiş,
ancak çağrı sırasında 500 sunucu hatası alınıyor. Model listesinde de gpt-image-1.5 yok
Kod örneği için bakılabilir
Yerel playground’da (gpt-image-1-playground) 404’ü işleyecek şekilde düzenleme yapılmış
Model adı yanlış girilirse “desteklenen değerler yalnızca gpt-image-1 ve gpt-image-1-mini” mesajı çıkıyor
Hâlâ Midjourney kullananlar var. Diğer büyük modellerin stilistik yaratıcılık konusunda zayıf kalıp fotogerçekçiliğe fazla odaklandığı düşünülüyor
Tek bir görsel değil de bağlamlı sekanslar üretmek için bu özellikler şart
Sanatın değerini yalnızca ‘render becerisi’ ile ölçme eğilimi, toplumsal bağlam içindeki kültürel üretim anlamını göz ardı ediyor