OpenAI, 4o görüntü üretme özelliğini duyurdu

(openai.com)

12 puan yazan GN⁺ 2025-03-26 | 3 yorum | WhatsApp'ta paylaş

OpenAI, görüntü üretiminin uzun zamandır dil modelinin temel yeteneklerinden biri olması gerektiğine inanıyordu ve bu vizyon doğrultusunda en gelişmiş ve güçlü görüntü üreticisini GPT‑4o'ya entegre etti
GPT‑4o'nun görüntü üretimi, yalnızca güzel görseller üretmenin ötesine geçerek gerçekten kullanışlı ve değerli çıktılar ortaya koyuyor
Hassas ve doğru; fotogerçekçilik düzeyinde yüksek kaliteli görseller üretmek mümkün
Çok modlu yetenekler yerleşik olarak sunulduğu için dil, görsel ve bağlamı birlikte kullanarak görsel içerik üretmek mümkün

Kullanışlı görüntü üretme yetenekleri

İnsanlar, antik duvar resimlerinden modern infografiklere kadar, bilgi aktarmak, ikna etmek ve analiz yapmak için görsel imgeleri kullandı
Mevcut üretici modeller fantastik veya etkileyici görseller oluşturabiliyor, ancak pratik bilgi aktarımına yönelik görsellerde zorlanıyordu
GPT‑4o'nun görüntü üretimi, logo veya diyagram gibi anlamı doğru aktaran görseller üretmede güçlü yönlere sahip
Metni doğru render etme, kullanıcı konuşmasının bağlamını kullanma ve yüklenen görselleri temel alarak üretim yapma gibi gelişmiş yetenekler içeriyor
Bu yetenekler, kullanıcıların istedikleri görselleri daha isabetli biçimde oluşturmalarına yardımcı oluyor

Geliştirilmiş görüntü üretme kapasitesi

Çevrimiçi görseller ile metinlerin birleşik dağılımını öğrenerek görsel ile dil ve görseller arası ilişkileri anlıyor
Eğitim sonrası iyileştirme süreciyle görsel akıcılık artıyor ve kullanışlı, tutarlı görseller üretilebiliyor

Metin render etme yeteneği

Görseller binlerce kelime taşıyabilir; ancak doğru yere yerleştirilmiş birkaç metin parçası anlamı güçlendirebilir
GPT‑4o, görsellere hassas semboller veya metin ekleyerek bunları görsel iletişim aracı olarak kullanabiliyor

Konuşmalı görüntü üretimi

GPT‑4o, görüntü üretimini doğal bir yetenek olarak entegre ettiği için konuşma akışı içinde görsel üretip düzenleyebiliyor
Örnek: Bir oyun karakteri tasarlanırken görünümü sürekli koruyup yinelemeli düzenlemeler yapmak mümkün

Talimatların doğru yansıtılması

GPT‑4o, ayrıntılı prompt'ları doğru biçimde uygular
Diğer sistemler yaklaşık 5-8 nesneyi işleyebilirken GPT‑4o, en fazla 10-20 nesneyi tutarlı şekilde üretebilir
Nesne özelliklerini ve aralarındaki ilişkileri daha doğru korur

Bağlam temelli öğrenme

Kullanıcının yüklediği görselleri analiz ederek bu görsellerin ayrıntılarını yeni görüntü üretimine yansıtır

Dünya bilgisiyle bağlantı

GPT‑4o, metin ile görsel arasındaki bilgiyi bağlayarak daha akıllı ve verimli görüntü üretimi sağlar

Fotogerçekçilik ve çeşitli stiller

Farklı görsel stiller üzerinde eğitildiği için gerçekçi görseller üretebilir ve stil dönüşümü yapabilir

Modelin sınırlamaları

Kusursuz bir model değil
İlk lansmandan sonra kullanıcı geri bildirimleri ve veriler doğrultusunda sürekli iyileştirilecek

Güvenliği sağlama çalışmaları

Oyun geliştirme, tarih araştırması ve eğitim gibi faydalı yaratıcı faaliyetleri teşvik ederken güçlü güvenlik standartlarını koruyor
Uygunsuz görsel üretimini önlemek için sıkı politikalar uygulanıyor
C2PA ve dahili arama aracıyla şeffaflık sağlama
- GPT‑4o tarafından üretilen tüm görsellerde, kaynağı açıkça göstermek için C2PA meta verisi bulunuyor
- Dahili arama aracı kullanılarak teknik özellikler temelinde görselin kaynağı doğrulanabiliyor
Uygunsuz görsellerin engellenmesi
- Çocuklara yönelik cinsel içerikli görseller veya deepfake gibi politika ihlali niteliğindeki görsel üretim istekleri engelleniyor
- Gerçek kişilerin yer aldığı görseller için daha sıkı kısıtlamalar uygulanıyor
- Çıplaklık ve şiddet içeren görseller için kapsamlı bir ön engelleme sistemi işletiliyor
Akıl yürütme temelli güvenliğin güçlendirilmesi
- İnsanlar tarafından yazılmış politika tanımlarını temel alan, akıl yürütme odaklı bir LLM eğitildi
- Politikalardaki belirsizlikleri tespit edip çözmek için kullanıldı; çok modlu teknolojiyle birleştirilerek hem giriş metninin hem de çıktı görselin politika standartlarına uygun olması sağlandı

Kullanıma sunulması

Bugünden itibaren Plus, Pro, Team ve Free kullanıcılarına varsayılan görüntü üreticisi olarak sunuluyor
Enterprise ve Edu desteği yakında gelecek
Sora'da da kullanılabiliyor; mevcut DALL·E modeli ise ayrı bir GPT üzerinden erişilebilir durumda
API üzerinden görüntü üretme yeteneği birkaç hafta içinde geliştiricilere sunulacak
Kullanıcılar yalnızca istedikleri görselin açıklamasıyla üretim yapabilir; oran, renk (hex kodu) ve arka planın şeffaf olup olmaması gibi ayrıntıları da belirleyebilir
Yüksek hassasiyetli görüntü üretimi nedeniyle render süresi 1 dakikaya kadar çıkabilir

3 yorum

j2sus91 2025-03-26

Henüz free'de görünmüyor gibi; sadece Plus, Pro ve Team'e mi açıldı?

laeyoung 2025-03-26

Pro'da sohbet penceresinin altında ...a basınca "Görsel oluştur (güncellendi)" diye görünüyor; sanırım bu o.

Ama Best of # görünmüyor; uygulanmamış mı uygulanmış mı, karıştırıyorum.

GN⁺ 2025-03-26

Hacker News görüşleri

Yeni görüntü üretim yaklaşımı, difüzyon yerine piksel uzayında çıkarım yapmak için token kullanıyor
- Örneğin, üzerinde boş bir tic-tac-toe olan bir not defteri çizdirip ilk hamleyi yaptırdıktan sonra, kullanıcının hamle yaparak devam etmesi sağlanabiliyor
- Çizim stilini değiştirmek ya da "gündüzü geceye çevir", "şapka tak" gibi bilgiyi koruyan dönüşümler de mümkün
- Modelin çözünürlüğü sınırlı, ancak bu alandaki ilerlemelerle uygulamaları adım adım görüntü olarak tasarlayıp kod yazma ihtimali var
- Model, harici görüntüler üzerinde "çıkarım" yapmayı sürdürebildiği için, ilk çıktı iyi olmasa bile iyileştirilebiliyor
- Model hızlanırsa, LLM olaylarına dayanarak uygulamanın bir sonraki karesini üreten gerçek anlamda üretken bir UI hayal edilebilir
- Difüzyon modelleri de benzer işleri daha hızlı yapabiliyor
4o Image Generation tanıtıldı: en gelişmiş görüntü üretici olduğu söyleniyor
- Google'ın Gemini 2.5'i: en zeki yapay zeka modeli
- Gemini 2.0 tanıtıldı: en yetenekli yapay zeka modeli
- Bu trendin ortadan kalkmasını ve Apple'ın işe yarayan bir şey kullanıp diğer şirketlerin de yeni terimleri kopyalamasını umuyorum
Neden o1 ile kıyaslama eklenmediğini merak ediyorum
OpenAI'nin GPT-4o Image Generation canlı yayını yavaştı; görüntü başına yaklaşık 30 saniye sürüyor
- Sam Altman bunu "yavaş ama üretilen görüntü buna değer" diye açıkladı
- Difüzyon yaklaşımı yerine, orijinal DALL-E'ye benzer şekilde görüntü token'ları üretilip decode ediliyor
- Google'ın Gemini'si görüntüleri birkaç saniye içinde üretebiliyor ve düzenleyebiliyor
- Henüz API yok ve yavaşlık nedeniyle rakiplerin görüntü başına $0.03+ fiyatından daha pahalı olması bekleniyor
Denediğimde, kızımın doğum günü davetiyesini tek seferde oluşturabildim
- İstediğim öğeleri ve stili tam olarak tutturdu
- Tarih, konum gibi ayrıntıları eklemesini istediğimde de iyi iş çıkardı
- Önceki modeller bunun yarısına bile yaklaşamıyordu
Aşırı doygun CG/karikatür tarzı olmaması hoşuma gitti
Verilen prompt'un 4o mu yoksa DALL-E mi tarafından işlendiğini anlamanın bir yolu olup olmadığını merak ediyorum
- Şu anda prompt'lar hâlâ ikincisi tarafından işleniyor gibi görünüyor
- Uzun vadeli plan, tamamen 4o'ya geçmek ve DALL-E'yi ayrı bir sekmeye taşımak
Şarap kadehi testinde hâlâ başarısız oluyor
"Best of 8" etiketi taşıyan birçok görüntünün ne kadar seçilmiş olduğunu merak ediyorum
- Üç ücretsiz görüntüden ikisi etkileyiciydi, biri ise başarısızdı
Yeni modelle yinelemeli düzenlemeye dair örnekler var
- Önceki modele göre çok daha iyi, ama hâlâ fazla parmaklı ya da fazla kollu bedenler üretiyor