12 puan yazan GN⁺ 2025-03-26 | 3 yorum | WhatsApp'ta paylaş
  • OpenAI, görüntü üretiminin uzun zamandır dil modelinin temel yeteneklerinden biri olması gerektiğine inanıyordu ve bu vizyon doğrultusunda en gelişmiş ve güçlü görüntü üreticisini GPT‑4o'ya entegre etti
  • GPT‑4o'nun görüntü üretimi, yalnızca güzel görseller üretmenin ötesine geçerek gerçekten kullanışlı ve değerli çıktılar ortaya koyuyor
  • Hassas ve doğru; fotogerçekçilik düzeyinde yüksek kaliteli görseller üretmek mümkün
  • Çok modlu yetenekler yerleşik olarak sunulduğu için dil, görsel ve bağlamı birlikte kullanarak görsel içerik üretmek mümkün

Kullanışlı görüntü üretme yetenekleri

  • İnsanlar, antik duvar resimlerinden modern infografiklere kadar, bilgi aktarmak, ikna etmek ve analiz yapmak için görsel imgeleri kullandı
  • Mevcut üretici modeller fantastik veya etkileyici görseller oluşturabiliyor, ancak pratik bilgi aktarımına yönelik görsellerde zorlanıyordu
  • GPT‑4o'nun görüntü üretimi, logo veya diyagram gibi anlamı doğru aktaran görseller üretmede güçlü yönlere sahip
  • Metni doğru render etme, kullanıcı konuşmasının bağlamını kullanma ve yüklenen görselleri temel alarak üretim yapma gibi gelişmiş yetenekler içeriyor
  • Bu yetenekler, kullanıcıların istedikleri görselleri daha isabetli biçimde oluşturmalarına yardımcı oluyor

Geliştirilmiş görüntü üretme kapasitesi

  • Çevrimiçi görseller ile metinlerin birleşik dağılımını öğrenerek görsel ile dil ve görseller arası ilişkileri anlıyor
  • Eğitim sonrası iyileştirme süreciyle görsel akıcılık artıyor ve kullanışlı, tutarlı görseller üretilebiliyor

Metin render etme yeteneği

  • Görseller binlerce kelime taşıyabilir; ancak doğru yere yerleştirilmiş birkaç metin parçası anlamı güçlendirebilir
  • GPT‑4o, görsellere hassas semboller veya metin ekleyerek bunları görsel iletişim aracı olarak kullanabiliyor

Konuşmalı görüntü üretimi

  • GPT‑4o, görüntü üretimini doğal bir yetenek olarak entegre ettiği için konuşma akışı içinde görsel üretip düzenleyebiliyor
  • Örnek: Bir oyun karakteri tasarlanırken görünümü sürekli koruyup yinelemeli düzenlemeler yapmak mümkün

Talimatların doğru yansıtılması

  • GPT‑4o, ayrıntılı prompt'ları doğru biçimde uygular
  • Diğer sistemler yaklaşık 5-8 nesneyi işleyebilirken GPT‑4o, en fazla 10-20 nesneyi tutarlı şekilde üretebilir
  • Nesne özelliklerini ve aralarındaki ilişkileri daha doğru korur

Bağlam temelli öğrenme

  • Kullanıcının yüklediği görselleri analiz ederek bu görsellerin ayrıntılarını yeni görüntü üretimine yansıtır

Dünya bilgisiyle bağlantı

  • GPT‑4o, metin ile görsel arasındaki bilgiyi bağlayarak daha akıllı ve verimli görüntü üretimi sağlar

Fotogerçekçilik ve çeşitli stiller

  • Farklı görsel stiller üzerinde eğitildiği için gerçekçi görseller üretebilir ve stil dönüşümü yapabilir

Modelin sınırlamaları

  • Kusursuz bir model değil
  • İlk lansmandan sonra kullanıcı geri bildirimleri ve veriler doğrultusunda sürekli iyileştirilecek

Güvenliği sağlama çalışmaları

  • Oyun geliştirme, tarih araştırması ve eğitim gibi faydalı yaratıcı faaliyetleri teşvik ederken güçlü güvenlik standartlarını koruyor
  • Uygunsuz görsel üretimini önlemek için sıkı politikalar uygulanıyor
  • C2PA ve dahili arama aracıyla şeffaflık sağlama

    • GPT‑4o tarafından üretilen tüm görsellerde, kaynağı açıkça göstermek için C2PA meta verisi bulunuyor
    • Dahili arama aracı kullanılarak teknik özellikler temelinde görselin kaynağı doğrulanabiliyor
  • Uygunsuz görsellerin engellenmesi

    • Çocuklara yönelik cinsel içerikli görseller veya deepfake gibi politika ihlali niteliğindeki görsel üretim istekleri engelleniyor
    • Gerçek kişilerin yer aldığı görseller için daha sıkı kısıtlamalar uygulanıyor
    • Çıplaklık ve şiddet içeren görseller için kapsamlı bir ön engelleme sistemi işletiliyor
  • Akıl yürütme temelli güvenliğin güçlendirilmesi

    • İnsanlar tarafından yazılmış politika tanımlarını temel alan, akıl yürütme odaklı bir LLM eğitildi
    • Politikalardaki belirsizlikleri tespit edip çözmek için kullanıldı; çok modlu teknolojiyle birleştirilerek hem giriş metninin hem de çıktı görselin politika standartlarına uygun olması sağlandı

Kullanıma sunulması

  • Bugünden itibaren Plus, Pro, Team ve Free kullanıcılarına varsayılan görüntü üreticisi olarak sunuluyor
  • Enterprise ve Edu desteği yakında gelecek
  • Sora'da da kullanılabiliyor; mevcut DALL·E modeli ise ayrı bir GPT üzerinden erişilebilir durumda
  • API üzerinden görüntü üretme yeteneği birkaç hafta içinde geliştiricilere sunulacak
  • Kullanıcılar yalnızca istedikleri görselin açıklamasıyla üretim yapabilir; oran, renk (hex kodu) ve arka planın şeffaf olup olmaması gibi ayrıntıları da belirleyebilir
  • Yüksek hassasiyetli görüntü üretimi nedeniyle render süresi 1 dakikaya kadar çıkabilir

3 yorum

 
j2sus91 2025-03-26

Henüz free'de görünmüyor gibi; sadece Plus, Pro ve Team'e mi açıldı?

 
laeyoung 2025-03-26

Pro'da sohbet penceresinin altında ...a basınca "Görsel oluştur (güncellendi)" diye görünüyor; sanırım bu o.

Ama Best of # görünmüyor; uygulanmamış mı uygulanmış mı, karıştırıyorum.

 
GN⁺ 2025-03-26
Hacker News görüşleri
  • Yeni görüntü üretim yaklaşımı, difüzyon yerine piksel uzayında çıkarım yapmak için token kullanıyor

    • Örneğin, üzerinde boş bir tic-tac-toe olan bir not defteri çizdirip ilk hamleyi yaptırdıktan sonra, kullanıcının hamle yaparak devam etmesi sağlanabiliyor
    • Çizim stilini değiştirmek ya da "gündüzü geceye çevir", "şapka tak" gibi bilgiyi koruyan dönüşümler de mümkün
    • Modelin çözünürlüğü sınırlı, ancak bu alandaki ilerlemelerle uygulamaları adım adım görüntü olarak tasarlayıp kod yazma ihtimali var
    • Model, harici görüntüler üzerinde "çıkarım" yapmayı sürdürebildiği için, ilk çıktı iyi olmasa bile iyileştirilebiliyor
    • Model hızlanırsa, LLM olaylarına dayanarak uygulamanın bir sonraki karesini üreten gerçek anlamda üretken bir UI hayal edilebilir
    • Difüzyon modelleri de benzer işleri daha hızlı yapabiliyor
  • 4o Image Generation tanıtıldı: en gelişmiş görüntü üretici olduğu söyleniyor

    • Google'ın Gemini 2.5'i: en zeki yapay zeka modeli
    • Gemini 2.0 tanıtıldı: en yetenekli yapay zeka modeli
    • Bu trendin ortadan kalkmasını ve Apple'ın işe yarayan bir şey kullanıp diğer şirketlerin de yeni terimleri kopyalamasını umuyorum
  • Neden o1 ile kıyaslama eklenmediğini merak ediyorum

  • OpenAI'nin GPT-4o Image Generation canlı yayını yavaştı; görüntü başına yaklaşık 30 saniye sürüyor

    • Sam Altman bunu "yavaş ama üretilen görüntü buna değer" diye açıkladı
    • Difüzyon yaklaşımı yerine, orijinal DALL-E'ye benzer şekilde görüntü token'ları üretilip decode ediliyor
    • Google'ın Gemini'si görüntüleri birkaç saniye içinde üretebiliyor ve düzenleyebiliyor
    • Henüz API yok ve yavaşlık nedeniyle rakiplerin görüntü başına $0.03+ fiyatından daha pahalı olması bekleniyor
  • Denediğimde, kızımın doğum günü davetiyesini tek seferde oluşturabildim

    • İstediğim öğeleri ve stili tam olarak tutturdu
    • Tarih, konum gibi ayrıntıları eklemesini istediğimde de iyi iş çıkardı
    • Önceki modeller bunun yarısına bile yaklaşamıyordu
  • Aşırı doygun CG/karikatür tarzı olmaması hoşuma gitti

  • Verilen prompt'un 4o mu yoksa DALL-E mi tarafından işlendiğini anlamanın bir yolu olup olmadığını merak ediyorum

    • Şu anda prompt'lar hâlâ ikincisi tarafından işleniyor gibi görünüyor
    • Uzun vadeli plan, tamamen 4o'ya geçmek ve DALL-E'yi ayrı bir sekmeye taşımak
  • Şarap kadehi testinde hâlâ başarısız oluyor

  • "Best of 8" etiketi taşıyan birçok görüntünün ne kadar seçilmiş olduğunu merak ediyorum

    • Üç ücretsiz görüntüden ikisi etkileyiciydi, biri ise başarısızdı
  • Yeni modelle yinelemeli düzenlemeye dair örnekler var

    • Önceki modele göre çok daha iyi, ama hâlâ fazla parmaklı ya da fazla kollu bedenler üretiyor