1 puan yazan GN⁺ 2025-04-25 | 1 yorum | WhatsApp'ta paylaş
  • OpenAI’nin geçen ay ChatGPT’ye eklediği görüntü oluşturma özelliği, lansmanın ilk haftasında 700 milyondan fazla görüntü üretimi kaydetti
  • Artık bunun API’ye genişletilmiş hali olan gpt-image-1 modeli yayınlandı ve geliştiriciler ile şirketler bunu kendi platformlarına entegre edebiliyor
  • Tasarım, logo üretimi, pazarlama, video düzenleme gibi birçok farklı sektörde kullanılıyor
  • Güvenlik özellikleri güçlendirildi ve API kullanımında müşteri verileri varsayılan olarak eğitim için kullanılmıyor
  • Kaliteye göre görüntü başına yaklaşık $0.02 (düşük), $0.07 (orta), $0.19 (yüksek) maliyet

API üzerinden görüntü oluşturma modeli yayınlandı

  • OpenAI, ChatGPT’de popüler olan görüntü oluşturma özelliğini API’ye taşıyarak gpt-image-1 modelini yayınladı
  • Bu model çeşitli stiller üretebiliyor, metni hassas biçimde render edebiliyor, kullanıcı tanımlı yönergeleri sadakatle uygulayabiliyor ve dünya bilgisinden yararlanabiliyor
  • Şirketler ve girişimler bunu tasarım, e-ticaret, eğitim, oyun gibi çeşitli alanlarda kullanıyor

Başlıca kullanım senaryoları

  • Adobe: Firefly ve Express uygulamaları üzerinden farklı estetik stilleri deneyebilen görüntü oluşturma özellikleri sunuyor
  • Airtable: Yapay zekayı kullanarak büyük ölçekli iş akışlarında yaratıcı üretkenliği artırıyor
  • Figma: gpt-image-1 ile görüntü oluşturma ve düzenleme özelliklerini platformuna entegre ederek kullanıcıların fikirleri görsel olarak keşfetmesini sağlıyor
  • Canva, gpt-image-1’i Canva AI ve Magic Studio’ya entegre ederek tasarım oluşturma ve düzenleme yeteneklerini genişletmeyi deniyor
    • Örneğin el çizimlerini rafine grafik öğelere dönüştürmek ya da yüksek hassasiyetli düzenleme sağlamak mümkün
  • GoDaddy, logo oluşturma ve düzenleme için görüntü üretimini test ediyor
    • Arka plan kaldırma, tipografi oluşturma ve marka kimliğini yansıtan içerik üretimi mümkün
    • GoDaddy Airo® ile entegrasyon sayesinde sosyal medya içeriği ve pazarlama materyalleri üretimi de destekleniyor
  • HubSpot, pazarlama ve satış materyalleri hazırlamak için görüntü oluşturma özelliğini test ediyor
    • Tasarımcı olmadan da yüksek kaliteli görseller üretme olanağı sunarak e-posta, sosyal medya ve landing page’lerde kullanılabiliyor
  • Gamma: Her gün 5 milyondan fazla yapay zeka görseli üreterek sunumlara ve web sitelerine yardımcı oluyor
  • HeyGen: Avatar oluşturma ve düzenleme yeteneklerini geliştirerek kullanıcılara daha kişiselleştirilmiş bir deneyim sunuyor
  • OpusClip: YouTube içerik üreticileri için tıklama getiren küçük görseller üretiyor
  • Instacart, görüntü oluşturma API’sini kullanarak tariflere veya alışveriş listelerine görsel eklemeyi test ediyor
  • invideo, gpt-image-1’i kullanıma alarak metin üretimini iyileştirme, hassas düzenleme kontrolü ve stil rehberi sağlama özellikleri ekledi

Güvenlik

  • gpt-image-1, ChatGPT’de kullanılan 4o görüntü üretimiyle aynı güvenlik önlemlerini kullanıyor
  • Zararlı görüntü üretimini engelliyor ve üretilen görsellere C2PA metadata’sı ekliyor
  • moderation parametresi ile filtreleme hassasiyeti ayarlanabiliyor (varsayılan: auto, düşük hassasiyet: low)
  • OpenAI, API müşteri verileriyle modeli eğitmediğini ve girdi/çıktıların API kullanım politikalarına tabi olduğunu belirtiyor

Fiyatlandırma

  • Metin girdi token’ları: 1 milyon token başına $5
  • Görüntü girdi token’ları: 1 milyon token başına $10
  • Görüntü çıktı token’ları: 1 milyon token başına $40
  • Kaliteye göre görüntü başına yaklaşık $0.02 (düşük), $0.07 (orta), $0.19 (yüksek) maliyet oluşuyor

Nasıl başlanır

  • gpt-image-1, global Images API üzerinde kullanılabiliyor; yakında Responses API desteği de gelecek
  • Bazı geliştiricilerin kullanım için kuruluş doğrulama sürecinden geçmesi gerekebilir
  • Özellik Playground’da test edilebilir ve rehber dokümanlarla başlanabilir

1 yorum

 
GN⁺ 2025-04-25
Hacker News yorumları
  • Dün, hükümet ve askeri işlerle ilgili görevlerde reddetme oranının çok yüksek olmasından şikayet ediliyordu. Bu durum, yüklenicileri CN'de geliştirilen açık kaynak modelleri kullanmaya itebilir ve işlerin sekteye uğramasına neden olabilir

    • Bugün, bu alanda çalışan şirketler için neredeyse hiç içerik sansürü olmayan bir API erişim katmanı bulunduğunu öğrendim. Bu erişim katmanının nasıl talep edildiğini bilmiyorum, ancak bunu hâlihazırda kullanan 4 savunma yüklenicisiyle konuştum
  • Merakımdan, her kalite türü için aynı prompt'u oluşturdum: Auto, low, medium, high

    • Prompt: "Sevimli bir köpek, sevimli bir kediyi kucaklıyor"
    • Karşılaştırma için birkaç DALL:E 3 görselini yorumlarda gösterdim
  • Playground'da 5 görsel ürettim. Biri yalnızca metin prompt'u kullanıyordu, kalan 4'ü ise telefonumdaki bir görseli kullandı. Aile grup sohbeti için Studio Ghibli portrelerine $0.85 harcadım; müşteri odaklı bir ürün için kullanmak açısından fazla pahalı

  • Yüzlerce veya binlerce görsel üretmesi gereken uygulamaları merak ediyorum. Aile fotoğraflarını Ghibli tarzına dönüştürmeyi seviyorum ama bunu toplu şekilde yapmam gerekmiyor. Görsel üretimini her kullandığımda tek seferlik bir iş oldu ve bunu ChatGPT arayüzünde yapmak tatmin ediciydi

  • Fiyat açısından, bu API'nin sunduğu değeri haklı çıkarması, referans sağlayarak değer üretmediği sürece zor olacaktır. Üretilen medium 1024x1024 görseller görsel başına $0.04 ve Imagen 3 ile Flux 1.1 Pro gibi aynı maliyet sınıfında. Yeni Playground'da yaptığım testlerde, medium görsellerin kalitesi iki rakip modelden de düşüktü ve üretim yine de 15 saniyeden uzun sürüyordu

    • Model için prompt yazımı, geleneksel modellere kıyasla oldukça farklı ve zor. Geleneksel görsel hileleri temelde işe yaramıyor ve ciddi bir prompt güçlendirmesi olmadan çalışan bir sonuç elde etmek zor
  • "Video düzenleme: invideo, milyonlarca kullanıcının yapay zekayı kullanarak fikirlerini videoya dönüştürmesini sağlıyor. gpt-image-1 entegrasyonuyla platform artık geliştirilmiş metin üretimi, ayrıntılı düzenleme kontrolü ve gelişmiş stil yönergeleri sunuyor"

    • Bunun videoyu da bir şekilde işlediği anlamına gelip gelmediğini merak ediyorum
  • gpt-image-1 kullanımı token başına fiyatlandırılıyor ve metin ile görsel token'ları için ayrı fiyatlar var

    • Metin girdi token'ları (prompt metni): 1M token başına $5
    • Görsel girdi token'ları (girdi görseli): 1M token başına $10
    • Görsel çıktı token'ları (üretilen görsel): 1M token başına $40
    • Pratikte bu, düşük kalite, orta kalite ve yüksek kalite kare görsel başına sırasıyla yaklaşık $0.02, $0.07, $0.19 anlamına geliyor
    • Startup'lar için biraz pahalı bir fiyatlandırma
  • Merak edenler için, bu sistem difüzyon tabanlı değil, LLM tabanlı. Bu sayede metin prompt'larını çok daha yüksek doğrulukla takip ediyor

    • Örneğin, görsel üretim uygulaması kullanıcıları (ben dahil) kesesinde bir insan taşıyan bir kangurunun fotoğrafını oluşturmaya çalıştı
    • Hangi prompt kullanılırsa kullanılsın çalışmadı
    • Bu yeni model bunu tek seferde başardı
  • GoDaddy, müşterilerin kolayca düzenlenebilir logolar oluşturabilmesi için görsel üretimini entegre etmeyi aktif olarak deniyor

    • 1-2 yıl önce Discord'da GoDaddy'nin müşteriler tarafından üretilen ikonlar projesinde çalışan biriyle tanıştığımı hatırlıyorum. O ölçekteki özel model çalışmaları muhtemelen gpt-image-1 ile değiştirilebilir
  • Fiyatlandırmadaki "görsel token"ın neyi ifade ettiğine dair fikri olan var mı?

    • Bunun sabit boyutlu görsel blokları olup olmadığını merak ediyorum