GPT Images 1.5 tanıtıldı

(openai.com)

3 puan yazan GN⁺ 2025-12-17 | 1 yorum | WhatsApp'ta paylaş

ChatGPT'nin görüntü oluşturma özelliği yeni bir yükseltmeyle daha hassas düzenleme ve daha hızlı üretim sunuyor
GPT‑Image‑1.5 modeli, metin talimatlarını daha doğru izliyor ve kişinin benzerliğini, ışığını ve kompozisyonunu koruyarak düzenleme yapabiliyor
Yeni Images kenar çubuğu arayüzü üzerinden hazır stil seçenekleri, trend prompt'lar ve görünüm yeniden kullanma desteği sunuluyor
API tarafında da aynı performans artışları gelirken maliyet %20 azaltıldı; marka logoları ve ürün görselleri üretimi için uygun
Bu güncelleme tüm ChatGPT ve API kullanıcılarına hemen dağıtılıyor ve görüntü üretiminin pratikliğini ile kalitesini büyük ölçüde artırıyor

GPT‑Image‑1.5'e giriş

ChatGPT Images'in, en güçlü görüntü üretim modeli temel alınarak hazırlanan yeni sürümü tanıtıldı
- Metin talimatlarını daha doğru izliyor ve yüz benzerliği gibi ayrıntıları koruyarak düzenleme yapabiliyor
- Görüntü üretim hızı 4 kata kadar arttı; yinelemeli denemeler ve fikir keşfi daha verimli hale geliyor
Model, ifade gücü yüksek dönüşümler, yoğun metin render etme ve doğal sonuçlar sunuyor
- Küçük düzenlemelerden tam yeniden oluşturmaya kadar yanıt veriyor; hazır stiller seçilerek kolayca üretim yapılabiliyor
Tüm ChatGPT kullanıcılarına kademeli olarak sunuluyor; API'de ise GPT‑Image‑1.5 olarak sağlanıyor

Kullanıcının niyetine uygun sonuçlar

Model, yalnızca istenen bölümü düzenlerken ışık, kompozisyon ve kişi benzerliğini tutarlı biçimde koruyor
Bu sayede fotoğraf düzenleme, kıyafet ve saç modeli simülasyonu, stil filtreleri, kavramsal dönüşüm gibi alanlarda yüksek uyum sağlanıyor
ChatGPT, taşınabilir bir yaratıcı stüdyo gibi hem pratik düzenleme hem de sanatsal yeniden kurgulama gerçekleştirebiliyor
- Çeşitli düzenleme türlerini destekliyor (ekleme, silme, birleştirme, harmanlama vb.)
- Metin ve yerleşim gibi öğeleri ekleyen yaratıcı dönüşüm yeteneği güçlendirildi
- GPT Image 1.0'a kıyasla talimat anlama yeteneği arttı, daha ayrıntılı düzenleme mümkün hale geldi
- Yoğun ve küçük metin render etme kalitesi iyileştirildi
Reklam

Yeni görüntü üretim alanı

ChatGPT içinde Images'e özel bir kenar çubuğu eklenerek görüntü keşfi ve üretim süreci kısaltıldı
- Hazır filtreler, trend prompt'lar ve görünüm yeniden kullanma özelliği içeriyor
- Kamera rulonuzu yeniden kullanmaya gerek kalmadan tek yüklemeyle tekrar tekrar kullanılabiliyor
Görüntü üretim hızı 4 kata kadar iyileştirildi ve birden fazla görüntü aynı anda üretilebiliyor
Küçük düzenlemelerden tam yeniden oluşturmaya kadar kullanıcının vizyonuyla uyumlu sonuçlar sunuyor

Ek kalite iyileştirmeleri

Çok sayıda küçük yüzü gösterme, doğal sonuçlar render etme gibi alanlarda hemen kullanılabilir kalite artışları sağlandı
Örnek: 1970'lerin Londra sokak sahnesi gerçekçi biçimde yeniden oluşturulurken ayrıntı odağı ve kişi betimlemesi geliştirildi

İyileştirmeler ve sınırlamalar

İlk sürüme kıyasla çeşitli senaryolarda belirgin performans artışı doğrulandı
Ancak bazı sonuçlar hâlâ kusursuz değil; çoklu yüz ve çok dilli işleme gibi alanlarda gelişme payı bulunuyor

GPT Image 1.5'in API'de sunulması

API sürümü, ChatGPT Images ile aynı iyileştirmeleri içeriyor
- Marka logosu ve temel görsel tutarlılığını koruma
- Pazarlama ve e-ticaret görselleri üretimi için uygun
Giriş/çıkış maliyetleri %20 azaltıldı; aynı bütçeyle daha fazla görsel üretmek mümkün
OpenAI Playground, galeri ve prompt rehberinde denenebiliyor
Wix, Canva, Figma, Envato gibi şirketler şimdiden kullanıyor
- Wix, bunu “yüksek kaliteli ve yüksek tutarlılığa sahip görsel üretimiyle hızlı üretim iş akışı desteği” olarak değerlendiriyor

Çıkış ve dağıtım

Yeni ChatGPT Images modeli, dünya çapındaki tüm ChatGPT ve API kullanıcılarına hemen dağıtılıyor
Ayrı bir model seçimi gerekmiyor; önceki sürüm ise özel GPT biçiminde korunuyor
OpenAI, bu güncellemeyi görüntü üretim teknolojisinin gelişiminde önemli bir adım olarak değerlendiriyor
- Gelecekte daha ayrıntılı düzenleme ve çok dilli destek gibi ek iyileştirmeler planlanıyor

1 yorum

GN⁺ 2025-12-17

Hacker News görüşleri

GenAI Showdown sitesindeki gpt-image 1.5 sonuçları paylaşılıyor
OpenAI hâlâ prompt anlama konusunda güçlüydü ama görüntü sadakati (fidelity) zayıf kalıyordu. Bu güncellemeyle o zayıflık epey iyileşmiş görünüyor
Özellikle genel estetiği bozmadan yerel düzenleme (localized edit) işini iyi yapıyor. Önceki puanı 4/12 iken 8/12’ye çıkarak iki katına yükselmiş ve ‘Giraffe prompt’unu geçen tek model olmuş
Modelin yönlendirilebilirliği (steerability) de %90 seviyesinde yüksek
Yeni eklenen özellikler arasında modele göre başarısız örnekler (outtakes) bölümü, REVE ve Flux.2 Dev modellerinin eklenmesi ve ağırlıklı puan sistemi yer alıyor
Üç modeli (gpt-image-1, gpt-image-1.5, NB Pro) karşılaştırmak için bu bağlantıya bakılabilir
Nano Banana ile ilgili deneyleri derleyen bir blog yazısı hazırlanıyor
Yeni ChatGPT Image modeli test edildiğinde, Nano Banana Pro’dan belirgin şekilde kötü ama temel Nano Banana’dan daha iyi bulunmuş
Fiyat net değil ama gpt-image-1.5 mevcut modele göre yaklaşık %20 daha ucuz görünüyor
İlginç noktalardan biri ızgara üretimi (grid generation) örneği. NBP’de 4x4’ün üstünde prompt tutarlılığı bozulurken, OpenAI’nin 6x6 örneği denemesi etkileyici bulunmuş
- Bugün içinde gpt-image-1.5’i kendi GenAI Showdown testine sokmayı planlıyor
  Bu arada NB Pro’nun etkileyici sonuçları bu blogda görülebilir
  NB Pro; daha önce görmediği bir yapbozu birleştirme, 3D araziyi tahmin etme ve pencereyi aynaya çevirme gibi şaşırtıcı sonuçlar vermiş
- GPT1.5 bizzat test edildiğinde görüntü kalitesi NBP’ye benzer bulunmuş ama prompt tutarlılığı ve dünya modeli anlayışı daha zayıf kalmış
  Örneğin iki kişinin kürek çekmesi istendiğinde, tekne neredeyse sığamayacak kadar küçük çıkmış
  Ayrıca her düzenleme prompt’unda önceki konuşmanın kaybolması hatası çok rahatsız ediciymiş
  Daha doğal sonuçlar için prompt’un başına “shaky amateur smartphone photo” gibi ifadeler eklenmiş
  İlgili tepkiler bu tweette de görülebilir
- 10 yılı aşkın süredir film yapan biri olarak, tutarlı sahne kompozisyonu araçlarına ciddi ihtiyaç duyulduğu söyleniyor
  gpt-image-1, Nano Banana(Pro)’ya göre previz-to-render konusunda çok daha başarılı
  Nano Banana düşük çözünürlüklü previz öğelerini olduğu gibi korurken, gpt-image-1 karakter pozlarını ve sahne bloklamasını anlayıp upscale da yapabiliyor
  Örnek videolar: 3D + Posing + Blocking, set yeniden kullanım sürümü, Gaussian splats, ek örnek
  İleride stil kontrolü, hız ve referans görsel tabanlı stillendirme sağlayan modellere ihtiyaç olduğu belirtiliyor
  Adobe de benzer özellikleri deniyor; Relighting, Image→3D düzenleme, Gaussian düzenleme, 3D→Image dönüştürme gibi demolar gösteriyor
  Bunu yazan kişi bu işlevleri açık kaynak masaüstü aracı olarak kendisi uyguluyor ve Rust ile geliştiriyor
- Deneylerin ilgi çekici bulunduğuna dair geri bildirim alınmış. Bunun sayesinde prompt yazımı gelişmiş ve beklentiler daha gerçekçi bir seviyeye çekilmiş
2010’da bu, Photoshop uzmanlarının görüntüleri birleştirdiği bir hizmet olsaydı büyük tartışma çıkarırdı deniyor
Bugün ise AI’ın telif ve yazarlık kavramını aşındırdığı bir çağda yeni içeriğin nasıl korunabileceği sorgulanıyor
Bir zamanlar çekilmiş, nadir bir stile sahip bir fotoğrafın gpt tarafından neredeyse birebir yeniden üretildiği söyleniyor
- Referans görsel kullanımı dijital sanat sektöründe standart bir uygulama. Ancak AI’ın fazla benzer kopyalar üretme riski var
- İçeriği korumanın tek yolu air gap; yani internete hiç yüklememek
  Bir şey paylaşıldığı anda belli düzeyde kötüye kullanımı göze almak gerekiyor. Modellerin orijinale aşırı uyum göstermesi konusunda henüz hukuki emsal yok
- Muhtemelen telif sonrası döneme giriyoruz; hukuk da yakında bunu takip edecek
- Birinin eseri kopyalamasının, eğer bu sayede çok daha fazla kişi görüyorsa, mutlaka kötü olup olmadığı da sorgulanıyor
gpt-image-1.5 ile sprite map ve UV texture map üretmeyi deneyen biri, Megaman Legends havasının iyi yakalandığını söylüyor
Örnek1, Örnek2
Ancak ortada gerçek bir 3D model olmadığı için bunun doğru bir UV map olup olmadığından emin değil. Nano Banana’nın ilk sürümünde bu tür işler yapılamıyordu
- Açık konuşmak gerekirse bu gerçek bir UV map değil. Örneğin Crash modelinin sırt kısmı yok
  Böyle bir texture kullanılabilir ama ciddi deformasyon olur
  Doğru yaklaşım modeli unwrap edip giriş olarak wireframe UV map kullanmak olur
  Gerçek Crash modeli burada görülebilir
Bir yazılım ürününde dark theme uygulama deneyi yapılmış
Gemini/Nano yalnızca bazı panelleri griye çevirirken, GPT tüm uygulamayı şık biçimde temalandırmış
Yine de ince tasarım ayrıntıları için hâlâ tasarımcı dokunuşu gerekiyor
ChatGPT görsellerinde sürekli görülen sarı tonun nedeni merak ediliyor
- Bunun belli bir noktadan sonra ortaya çıktığı belirtiliyor. Ghibli stili patlaması ile ilgili reinforcement learning etkisi olabileceği düşünülüyor
- Bir tahmine göre OpenAI görüntü normalizasyonu hesabını yanlış yapmış olabilir. Yeni modelde bu sorun görünmüyor
- Meta’nın Codec Avatars projesi de benzer bir sorun yaşamıştı. Milyonlarca dolarlık ekipmanla veri toplanmış ama kamera kalibrasyonu başarısız olduğu için görüntüler yeşilimsi çıkmıştı
- Başka bir hipotez, filmlerde sık görülen ‘Mexico filter’ etkisinin eğitim verisine sızmış olması
- İnsan tercihine dayalı stil ayarı yapılırken hafif bir sarı önyargı oluştuğu ve tekrar eden düzenlemelerle bunun biriktiği düşünülüyor
“Var olmayan anılardan görüntü üretmek” ürün söylemi olarak tuhaf bulunuyor
- Buna katılan biri olsa da, pazar araştırmasına göre görüntü üretiminin çok popüler olduğu belirtiliyor
  Bu kişi aracı daha çok programlama, wiki, matematik gibi metin odaklı işler için kullanıyor
  Durum, geçmişte Snapchat filtrelerinin moda olduğu döneme benzetiliyor; kendisi o zaman da her şeyi varsayılan hâlde bırakıyormuş
- Aynı prompt’la origami hayvanlar üretilse bunun daha da ürkütücü olacağı söyleniyor
- Bir gün oyuncuların kendi görüntülerini satarak sahte fotoğraflar ürettiği bir dönemin gelebileceği düşünülüyor
  Sonunda herkesin sanal bir hayata abone olduğu ve kredi kartı ödemesi reddedilince gerçekliğe geri döndüğü bir dünya bile olabilir
Yeni model API’de çalışıyor denince Golang SDK grail güncellenmiş,
ancak çağrı sırasında 500 sunucu hatası alınıyor. Model listesinde de gpt-image-1.5 yok
Kod örneği için bakılabilir
- Aslında API’de henüz kullanılamıyor. OpenAI’nin bağlantı verdiği Image Playground’da da görünmüyor
  Yerel playground’da (gpt-image-1-playground) 404’ü işleyecek şekilde düzenleme yapılmış
  - Ben de denedim, aynı şekilde 500 hatası alıyorum.
    Model adı yanlış girilirse “desteklenen değerler yalnızca gpt-image-1 ve gpt-image-1-mini” mesajı çıkıyor
  - Görünüşe göre kademeli rollout yapılıyor ve backend tarafında da henüz doğrulanamıyor
Hâlâ Midjourney kullananlar var. Diğer büyük modellerin stilistik yaratıcılık konusunda zayıf kalıp fotogerçekçiliğe fazla odaklandığı düşünülüyor
- Midjourney’nin son güncellemeleri çok bilinmese de, stil tutarlılığı ve karakter koruma özellikleri önemli görülüyor
  Tek bir görsel değil de bağlamlı sekanslar üretmek için bu özellikler şart
- Bu durum ‘görüş sahibi model vs kullanıcı seçimli model’ farkı olarak yorumlanıyor. İlki iyi çalıştığında avantaj sağlayabiliyor
- Bunu etkileyici bulanlar da var; ilgili görsellerin toplandığı bir galeri olup olmadığını soranlar olmuş
- Bu eğilim, görüntü üretiminden önce de var olan bir kültürel sorun olarak görülüyor.
  Sanatın değerini yalnızca ‘render becerisi’ ile ölçme eğilimi, toplumsal bağlam içindeki kültürel üretim anlamını göz ardı ediyor

GPT Images 1.5 tanıtıldı

GPT‑Image‑1.5'e giriş

Kullanıcının niyetine uygun sonuçlar

Yeni görüntü üretim alanı

Ek kalite iyileştirmeleri

İyileştirmeler ve sınırlamalar

GPT Image 1.5'in API'de sunulması

Çıkış ve dağıtım

İlgili okumalar

1 yorum

Hacker News görüşleri