OpenAI, görüntü oluşturma özelliğini API’de de kullanıma sundu

(openai.com)

1 puan yazan GN⁺ 2025-04-25 | 1 yorum | WhatsApp'ta paylaş

OpenAI’nin geçen ay ChatGPT’ye eklediği görüntü oluşturma özelliği, lansmanın ilk haftasında 700 milyondan fazla görüntü üretimi kaydetti
Artık bunun API’ye genişletilmiş hali olan gpt-image-1 modeli yayınlandı ve geliştiriciler ile şirketler bunu kendi platformlarına entegre edebiliyor
Tasarım, logo üretimi, pazarlama, video düzenleme gibi birçok farklı sektörde kullanılıyor
Güvenlik özellikleri güçlendirildi ve API kullanımında müşteri verileri varsayılan olarak eğitim için kullanılmıyor
Kaliteye göre görüntü başına yaklaşık $0.02 (düşük), $0.07 (orta), $0.19 (yüksek) maliyet

API üzerinden görüntü oluşturma modeli yayınlandı

OpenAI, ChatGPT’de popüler olan görüntü oluşturma özelliğini API’ye taşıyarak gpt-image-1 modelini yayınladı
Bu model çeşitli stiller üretebiliyor, metni hassas biçimde render edebiliyor, kullanıcı tanımlı yönergeleri sadakatle uygulayabiliyor ve dünya bilgisinden yararlanabiliyor
Şirketler ve girişimler bunu tasarım, e-ticaret, eğitim, oyun gibi çeşitli alanlarda kullanıyor

Başlıca kullanım senaryoları

Adobe: Firefly ve Express uygulamaları üzerinden farklı estetik stilleri deneyebilen görüntü oluşturma özellikleri sunuyor
Airtable: Yapay zekayı kullanarak büyük ölçekli iş akışlarında yaratıcı üretkenliği artırıyor
Figma: gpt-image-1 ile görüntü oluşturma ve düzenleme özelliklerini platformuna entegre ederek kullanıcıların fikirleri görsel olarak keşfetmesini sağlıyor
Canva, gpt-image-1’i Canva AI ve Magic Studio’ya entegre ederek tasarım oluşturma ve düzenleme yeteneklerini genişletmeyi deniyor
- Örneğin el çizimlerini rafine grafik öğelere dönüştürmek ya da yüksek hassasiyetli düzenleme sağlamak mümkün
GoDaddy, logo oluşturma ve düzenleme için görüntü üretimini test ediyor
- Arka plan kaldırma, tipografi oluşturma ve marka kimliğini yansıtan içerik üretimi mümkün
- GoDaddy Airo® ile entegrasyon sayesinde sosyal medya içeriği ve pazarlama materyalleri üretimi de destekleniyor
HubSpot, pazarlama ve satış materyalleri hazırlamak için görüntü oluşturma özelliğini test ediyor
- Tasarımcı olmadan da yüksek kaliteli görseller üretme olanağı sunarak e-posta, sosyal medya ve landing page’lerde kullanılabiliyor
Gamma: Her gün 5 milyondan fazla yapay zeka görseli üreterek sunumlara ve web sitelerine yardımcı oluyor
HeyGen: Avatar oluşturma ve düzenleme yeteneklerini geliştirerek kullanıcılara daha kişiselleştirilmiş bir deneyim sunuyor
OpusClip: YouTube içerik üreticileri için tıklama getiren küçük görseller üretiyor
Instacart, görüntü oluşturma API’sini kullanarak tariflere veya alışveriş listelerine görsel eklemeyi test ediyor
invideo, gpt-image-1’i kullanıma alarak metin üretimini iyileştirme, hassas düzenleme kontrolü ve stil rehberi sağlama özellikleri ekledi

Güvenlik

gpt-image-1, ChatGPT’de kullanılan 4o görüntü üretimiyle aynı güvenlik önlemlerini kullanıyor
Zararlı görüntü üretimini engelliyor ve üretilen görsellere C2PA metadata’sı ekliyor
moderation parametresi ile filtreleme hassasiyeti ayarlanabiliyor (varsayılan: auto, düşük hassasiyet: low)
OpenAI, API müşteri verileriyle modeli eğitmediğini ve girdi/çıktıların API kullanım politikalarına tabi olduğunu belirtiyor

Fiyatlandırma

Metin girdi token’ları: 1 milyon token başına $5
Görüntü girdi token’ları: 1 milyon token başına $10
Görüntü çıktı token’ları: 1 milyon token başına $40
Kaliteye göre görüntü başına yaklaşık $0.02 (düşük), $0.07 (orta), $0.19 (yüksek) maliyet oluşuyor

Nasıl başlanır

gpt-image-1, global Images API üzerinde kullanılabiliyor; yakında Responses API desteği de gelecek
Bazı geliştiricilerin kullanım için kuruluş doğrulama sürecinden geçmesi gerekebilir
Özellik Playground’da test edilebilir ve rehber dokümanlarla başlanabilir

1 yorum

GN⁺ 2025-04-25

Hacker News yorumları

Dün, hükümet ve askeri işlerle ilgili görevlerde reddetme oranının çok yüksek olmasından şikayet ediliyordu. Bu durum, yüklenicileri CN'de geliştirilen açık kaynak modelleri kullanmaya itebilir ve işlerin sekteye uğramasına neden olabilir
- Bugün, bu alanda çalışan şirketler için neredeyse hiç içerik sansürü olmayan bir API erişim katmanı bulunduğunu öğrendim. Bu erişim katmanının nasıl talep edildiğini bilmiyorum, ancak bunu hâlihazırda kullanan 4 savunma yüklenicisiyle konuştum
Merakımdan, her kalite türü için aynı prompt'u oluşturdum: Auto, low, medium, high
- Prompt: "Sevimli bir köpek, sevimli bir kediyi kucaklıyor"
- Karşılaştırma için birkaç DALL:E 3 görselini yorumlarda gösterdim
Playground'da 5 görsel ürettim. Biri yalnızca metin prompt'u kullanıyordu, kalan 4'ü ise telefonumdaki bir görseli kullandı. Aile grup sohbeti için Studio Ghibli portrelerine $0.85 harcadım; müşteri odaklı bir ürün için kullanmak açısından fazla pahalı
Yüzlerce veya binlerce görsel üretmesi gereken uygulamaları merak ediyorum. Aile fotoğraflarını Ghibli tarzına dönüştürmeyi seviyorum ama bunu toplu şekilde yapmam gerekmiyor. Görsel üretimini her kullandığımda tek seferlik bir iş oldu ve bunu ChatGPT arayüzünde yapmak tatmin ediciydi
Fiyat açısından, bu API'nin sunduğu değeri haklı çıkarması, referans sağlayarak değer üretmediği sürece zor olacaktır. Üretilen medium 1024x1024 görseller görsel başına $0.04 ve Imagen 3 ile Flux 1.1 Pro gibi aynı maliyet sınıfında. Yeni Playground'da yaptığım testlerde, medium görsellerin kalitesi iki rakip modelden de düşüktü ve üretim yine de 15 saniyeden uzun sürüyordu
- Model için prompt yazımı, geleneksel modellere kıyasla oldukça farklı ve zor. Geleneksel görsel hileleri temelde işe yaramıyor ve ciddi bir prompt güçlendirmesi olmadan çalışan bir sonuç elde etmek zor
"Video düzenleme: invideo, milyonlarca kullanıcının yapay zekayı kullanarak fikirlerini videoya dönüştürmesini sağlıyor. gpt-image-1 entegrasyonuyla platform artık geliştirilmiş metin üretimi, ayrıntılı düzenleme kontrolü ve gelişmiş stil yönergeleri sunuyor"
- Bunun videoyu da bir şekilde işlediği anlamına gelip gelmediğini merak ediyorum
gpt-image-1 kullanımı token başına fiyatlandırılıyor ve metin ile görsel token'ları için ayrı fiyatlar var
- Metin girdi token'ları (prompt metni): 1M token başına $5
- Görsel girdi token'ları (girdi görseli): 1M token başına $10
- Görsel çıktı token'ları (üretilen görsel): 1M token başına $40
- Pratikte bu, düşük kalite, orta kalite ve yüksek kalite kare görsel başına sırasıyla yaklaşık $0.02, $0.07, $0.19 anlamına geliyor
- Startup'lar için biraz pahalı bir fiyatlandırma
Merak edenler için, bu sistem difüzyon tabanlı değil, LLM tabanlı. Bu sayede metin prompt'larını çok daha yüksek doğrulukla takip ediyor
- Örneğin, görsel üretim uygulaması kullanıcıları (ben dahil) kesesinde bir insan taşıyan bir kangurunun fotoğrafını oluşturmaya çalıştı
- Hangi prompt kullanılırsa kullanılsın çalışmadı
- Bu yeni model bunu tek seferde başardı
GoDaddy, müşterilerin kolayca düzenlenebilir logolar oluşturabilmesi için görsel üretimini entegre etmeyi aktif olarak deniyor
- 1-2 yıl önce Discord'da GoDaddy'nin müşteriler tarafından üretilen ikonlar projesinde çalışan biriyle tanıştığımı hatırlıyorum. O ölçekteki özel model çalışmaları muhtemelen gpt-image-1 ile değiştirilebilir
Fiyatlandırmadaki "görsel token"ın neyi ifade ettiğine dair fikri olan var mı?
- Bunun sabit boyutlu görsel blokları olup olmadığını merak ediyorum

OpenAI, görüntü oluşturma özelliğini API’de de kullanıma sundu

API üzerinden görüntü oluşturma modeli yayınlandı

Başlıca kullanım senaryoları

Güvenlik

Fiyatlandırma

Nasıl başlanır

İlgili okumalar

1 yorum

Hacker News yorumları