3 puan yazan GN⁺ 2025-12-17 | 1 yorum | WhatsApp'ta paylaş
  • ChatGPT'nin görüntü oluşturma özelliği yeni bir yükseltmeyle daha hassas düzenleme ve daha hızlı üretim sunuyor
  • GPT‑Image‑1.5 modeli, metin talimatlarını daha doğru izliyor ve kişinin benzerliğini, ışığını ve kompozisyonunu koruyarak düzenleme yapabiliyor
  • Yeni Images kenar çubuğu arayüzü üzerinden hazır stil seçenekleri, trend prompt'lar ve görünüm yeniden kullanma desteği sunuluyor
  • API tarafında da aynı performans artışları gelirken maliyet %20 azaltıldı; marka logoları ve ürün görselleri üretimi için uygun
  • Bu güncelleme tüm ChatGPT ve API kullanıcılarına hemen dağıtılıyor ve görüntü üretiminin pratikliğini ile kalitesini büyük ölçüde artırıyor

GPT‑Image‑1.5'e giriş

  • ChatGPT Images'in, en güçlü görüntü üretim modeli temel alınarak hazırlanan yeni sürümü tanıtıldı
    • Metin talimatlarını daha doğru izliyor ve yüz benzerliği gibi ayrıntıları koruyarak düzenleme yapabiliyor
    • Görüntü üretim hızı 4 kata kadar arttı; yinelemeli denemeler ve fikir keşfi daha verimli hale geliyor
  • Model, ifade gücü yüksek dönüşümler, yoğun metin render etme ve doğal sonuçlar sunuyor
    • Küçük düzenlemelerden tam yeniden oluşturmaya kadar yanıt veriyor; hazır stiller seçilerek kolayca üretim yapılabiliyor
  • Tüm ChatGPT kullanıcılarına kademeli olarak sunuluyor; API'de ise GPT‑Image‑1.5 olarak sağlanıyor

Kullanıcının niyetine uygun sonuçlar

  • Model, yalnızca istenen bölümü düzenlerken ışık, kompozisyon ve kişi benzerliğini tutarlı biçimde koruyor
  • Bu sayede fotoğraf düzenleme, kıyafet ve saç modeli simülasyonu, stil filtreleri, kavramsal dönüşüm gibi alanlarda yüksek uyum sağlanıyor
  • ChatGPT, taşınabilir bir yaratıcı stüdyo gibi hem pratik düzenleme hem de sanatsal yeniden kurgulama gerçekleştirebiliyor
    • Çeşitli düzenleme türlerini destekliyor (ekleme, silme, birleştirme, harmanlama vb.)
    • Metin ve yerleşim gibi öğeleri ekleyen yaratıcı dönüşüm yeteneği güçlendirildi
    • GPT Image 1.0'a kıyasla talimat anlama yeteneği arttı, daha ayrıntılı düzenleme mümkün hale geldi
    • Yoğun ve küçük metin render etme kalitesi iyileştirildi

Yeni görüntü üretim alanı

  • ChatGPT içinde Images'e özel bir kenar çubuğu eklenerek görüntü keşfi ve üretim süreci kısaltıldı
    • Hazır filtreler, trend prompt'lar ve görünüm yeniden kullanma özelliği içeriyor
    • Kamera rulonuzu yeniden kullanmaya gerek kalmadan tek yüklemeyle tekrar tekrar kullanılabiliyor
  • Görüntü üretim hızı 4 kata kadar iyileştirildi ve birden fazla görüntü aynı anda üretilebiliyor
  • Küçük düzenlemelerden tam yeniden oluşturmaya kadar kullanıcının vizyonuyla uyumlu sonuçlar sunuyor

Ek kalite iyileştirmeleri

  • Çok sayıda küçük yüzü gösterme, doğal sonuçlar render etme gibi alanlarda hemen kullanılabilir kalite artışları sağlandı
  • Örnek: 1970'lerin Londra sokak sahnesi gerçekçi biçimde yeniden oluşturulurken ayrıntı odağı ve kişi betimlemesi geliştirildi

İyileştirmeler ve sınırlamalar

  • İlk sürüme kıyasla çeşitli senaryolarda belirgin performans artışı doğrulandı
  • Ancak bazı sonuçlar hâlâ kusursuz değil; çoklu yüz ve çok dilli işleme gibi alanlarda gelişme payı bulunuyor

GPT Image 1.5'in API'de sunulması

  • API sürümü, ChatGPT Images ile aynı iyileştirmeleri içeriyor
    • Marka logosu ve temel görsel tutarlılığını koruma
    • Pazarlama ve e-ticaret görselleri üretimi için uygun
  • Giriş/çıkış maliyetleri %20 azaltıldı; aynı bütçeyle daha fazla görsel üretmek mümkün
  • OpenAI Playground, galeri ve prompt rehberinde denenebiliyor
  • Wix, Canva, Figma, Envato gibi şirketler şimdiden kullanıyor
    • Wix, bunu “yüksek kaliteli ve yüksek tutarlılığa sahip görsel üretimiyle hızlı üretim iş akışı desteği” olarak değerlendiriyor

Çıkış ve dağıtım

  • Yeni ChatGPT Images modeli, dünya çapındaki tüm ChatGPT ve API kullanıcılarına hemen dağıtılıyor
  • Ayrı bir model seçimi gerekmiyor; önceki sürüm ise özel GPT biçiminde korunuyor
  • OpenAI, bu güncellemeyi görüntü üretim teknolojisinin gelişiminde önemli bir adım olarak değerlendiriyor
    • Gelecekte daha ayrıntılı düzenleme ve çok dilli destek gibi ek iyileştirmeler planlanıyor

1 yorum

 
GN⁺ 2025-12-17
Hacker News görüşleri
  • GenAI Showdown sitesindeki gpt-image 1.5 sonuçları paylaşılıyor
    OpenAI hâlâ prompt anlama konusunda güçlüydü ama görüntü sadakati (fidelity) zayıf kalıyordu. Bu güncellemeyle o zayıflık epey iyileşmiş görünüyor
    Özellikle genel estetiği bozmadan yerel düzenleme (localized edit) işini iyi yapıyor. Önceki puanı 4/12 iken 8/12’ye çıkarak iki katına yükselmiş ve ‘Giraffe prompt’unu geçen tek model olmuş
    Modelin yönlendirilebilirliği (steerability) de %90 seviyesinde yüksek
    Yeni eklenen özellikler arasında modele göre başarısız örnekler (outtakes) bölümü, REVE ve Flux.2 Dev modellerinin eklenmesi ve ağırlıklı puan sistemi yer alıyor
    Üç modeli (gpt-image-1, gpt-image-1.5, NB Pro) karşılaştırmak için bu bağlantıya bakılabilir

  • Nano Banana ile ilgili deneyleri derleyen bir blog yazısı hazırlanıyor
    Yeni ChatGPT Image modeli test edildiğinde, Nano Banana Pro’dan belirgin şekilde kötü ama temel Nano Banana’dan daha iyi bulunmuş
    Fiyat net değil ama gpt-image-1.5 mevcut modele göre yaklaşık %20 daha ucuz görünüyor
    İlginç noktalardan biri ızgara üretimi (grid generation) örneği. NBP’de 4x4’ün üstünde prompt tutarlılığı bozulurken, OpenAI’nin 6x6 örneği denemesi etkileyici bulunmuş

    • Bugün içinde gpt-image-1.5’i kendi GenAI Showdown testine sokmayı planlıyor
      Bu arada NB Pro’nun etkileyici sonuçları bu blogda görülebilir
      NB Pro; daha önce görmediği bir yapbozu birleştirme, 3D araziyi tahmin etme ve pencereyi aynaya çevirme gibi şaşırtıcı sonuçlar vermiş
    • GPT1.5 bizzat test edildiğinde görüntü kalitesi NBP’ye benzer bulunmuş ama prompt tutarlılığı ve dünya modeli anlayışı daha zayıf kalmış
      Örneğin iki kişinin kürek çekmesi istendiğinde, tekne neredeyse sığamayacak kadar küçük çıkmış
      Ayrıca her düzenleme prompt’unda önceki konuşmanın kaybolması hatası çok rahatsız ediciymiş
      Daha doğal sonuçlar için prompt’un başına “shaky amateur smartphone photo” gibi ifadeler eklenmiş
      İlgili tepkiler bu tweette de görülebilir
    • 10 yılı aşkın süredir film yapan biri olarak, tutarlı sahne kompozisyonu araçlarına ciddi ihtiyaç duyulduğu söyleniyor
      gpt-image-1, Nano Banana(Pro)’ya göre previz-to-render konusunda çok daha başarılı
      Nano Banana düşük çözünürlüklü previz öğelerini olduğu gibi korurken, gpt-image-1 karakter pozlarını ve sahne bloklamasını anlayıp upscale da yapabiliyor
      Örnek videolar: 3D + Posing + Blocking, set yeniden kullanım sürümü, Gaussian splats, ek örnek
      İleride stil kontrolü, hız ve referans görsel tabanlı stillendirme sağlayan modellere ihtiyaç olduğu belirtiliyor
      Adobe de benzer özellikleri deniyor; Relighting, Image→3D düzenleme, Gaussian düzenleme, 3D→Image dönüştürme gibi demolar gösteriyor
      Bunu yazan kişi bu işlevleri açık kaynak masaüstü aracı olarak kendisi uyguluyor ve Rust ile geliştiriyor
    • Deneylerin ilgi çekici bulunduğuna dair geri bildirim alınmış. Bunun sayesinde prompt yazımı gelişmiş ve beklentiler daha gerçekçi bir seviyeye çekilmiş
  • 2010’da bu, Photoshop uzmanlarının görüntüleri birleştirdiği bir hizmet olsaydı büyük tartışma çıkarırdı deniyor
    Bugün ise AI’ın telif ve yazarlık kavramını aşındırdığı bir çağda yeni içeriğin nasıl korunabileceği sorgulanıyor
    Bir zamanlar çekilmiş, nadir bir stile sahip bir fotoğrafın gpt tarafından neredeyse birebir yeniden üretildiği söyleniyor

    • Referans görsel kullanımı dijital sanat sektöründe standart bir uygulama. Ancak AI’ın fazla benzer kopyalar üretme riski var
    • İçeriği korumanın tek yolu air gap; yani internete hiç yüklememek
      Bir şey paylaşıldığı anda belli düzeyde kötüye kullanımı göze almak gerekiyor. Modellerin orijinale aşırı uyum göstermesi konusunda henüz hukuki emsal yok
    • Muhtemelen telif sonrası döneme giriyoruz; hukuk da yakında bunu takip edecek
    • Birinin eseri kopyalamasının, eğer bu sayede çok daha fazla kişi görüyorsa, mutlaka kötü olup olmadığı da sorgulanıyor
  • gpt-image-1.5 ile sprite map ve UV texture map üretmeyi deneyen biri, Megaman Legends havasının iyi yakalandığını söylüyor
    Örnek1, Örnek2
    Ancak ortada gerçek bir 3D model olmadığı için bunun doğru bir UV map olup olmadığından emin değil. Nano Banana’nın ilk sürümünde bu tür işler yapılamıyordu

    • Açık konuşmak gerekirse bu gerçek bir UV map değil. Örneğin Crash modelinin sırt kısmı yok
      Böyle bir texture kullanılabilir ama ciddi deformasyon olur
      Doğru yaklaşım modeli unwrap edip giriş olarak wireframe UV map kullanmak olur
      Gerçek Crash modeli burada görülebilir
  • Bir yazılım ürününde dark theme uygulama deneyi yapılmış
    Gemini/Nano yalnızca bazı panelleri griye çevirirken, GPT tüm uygulamayı şık biçimde temalandırmış
    Yine de ince tasarım ayrıntıları için hâlâ tasarımcı dokunuşu gerekiyor

  • ChatGPT görsellerinde sürekli görülen sarı tonun nedeni merak ediliyor

    • Bunun belli bir noktadan sonra ortaya çıktığı belirtiliyor. Ghibli stili patlaması ile ilgili reinforcement learning etkisi olabileceği düşünülüyor
    • Bir tahmine göre OpenAI görüntü normalizasyonu hesabını yanlış yapmış olabilir. Yeni modelde bu sorun görünmüyor
    • Meta’nın Codec Avatars projesi de benzer bir sorun yaşamıştı. Milyonlarca dolarlık ekipmanla veri toplanmış ama kamera kalibrasyonu başarısız olduğu için görüntüler yeşilimsi çıkmıştı
    • Başka bir hipotez, filmlerde sık görülen ‘Mexico filter’ etkisinin eğitim verisine sızmış olması
    • İnsan tercihine dayalı stil ayarı yapılırken hafif bir sarı önyargı oluştuğu ve tekrar eden düzenlemelerle bunun biriktiği düşünülüyor
  • Var olmayan anılardan görüntü üretmek” ürün söylemi olarak tuhaf bulunuyor

    • Buna katılan biri olsa da, pazar araştırmasına göre görüntü üretiminin çok popüler olduğu belirtiliyor
      Bu kişi aracı daha çok programlama, wiki, matematik gibi metin odaklı işler için kullanıyor
      Durum, geçmişte Snapchat filtrelerinin moda olduğu döneme benzetiliyor; kendisi o zaman da her şeyi varsayılan hâlde bırakıyormuş
    • Aynı prompt’la origami hayvanlar üretilse bunun daha da ürkütücü olacağı söyleniyor
    • Bir gün oyuncuların kendi görüntülerini satarak sahte fotoğraflar ürettiği bir dönemin gelebileceği düşünülüyor
      Sonunda herkesin sanal bir hayata abone olduğu ve kredi kartı ödemesi reddedilince gerçekliğe geri döndüğü bir dünya bile olabilir
  • Yeni model API’de çalışıyor denince Golang SDK grail güncellenmiş,
    ancak çağrı sırasında 500 sunucu hatası alınıyor. Model listesinde de gpt-image-1.5 yok
    Kod örneği için bakılabilir

    • Aslında API’de henüz kullanılamıyor. OpenAI’nin bağlantı verdiği Image Playground’da da görünmüyor
      Yerel playground’da (gpt-image-1-playground) 404’ü işleyecek şekilde düzenleme yapılmış
      • Ben de denedim, aynı şekilde 500 hatası alıyorum.
        Model adı yanlış girilirse “desteklenen değerler yalnızca gpt-image-1 ve gpt-image-1-mini” mesajı çıkıyor
      • Görünüşe göre kademeli rollout yapılıyor ve backend tarafında da henüz doğrulanamıyor
  • Hâlâ Midjourney kullananlar var. Diğer büyük modellerin stilistik yaratıcılık konusunda zayıf kalıp fotogerçekçiliğe fazla odaklandığı düşünülüyor

    • Midjourney’nin son güncellemeleri çok bilinmese de, stil tutarlılığı ve karakter koruma özellikleri önemli görülüyor
      Tek bir görsel değil de bağlamlı sekanslar üretmek için bu özellikler şart
    • Bu durum ‘görüş sahibi model vs kullanıcı seçimli model’ farkı olarak yorumlanıyor. İlki iyi çalıştığında avantaj sağlayabiliyor
    • Bunu etkileyici bulanlar da var; ilgili görsellerin toplandığı bir galeri olup olmadığını soranlar olmuş
    • Bu eğilim, görüntü üretiminden önce de var olan bir kültürel sorun olarak görülüyor.
      Sanatın değerini yalnızca ‘render becerisi’ ile ölçme eğilimi, toplumsal bağlam içindeki kültürel üretim anlamını göz ardı ediyor