1 puan yazan GN⁺ 1 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • underdrawing, sayıların ve metin konumlarının yer aldığı bir taslak görseli önce deterministik bir araçla oluşturup, ardından görüntü üretim modelinin bunun üzerine görsel stil uygulayarak doğruluğu artırdığı bir yöntemdir
  • 50 adet basamak taşını spiral biçimde yerleştirip 1’den 50’ye kadar numaralandırma görevinde Gemini 3 Pro ve ChatGPT Images 2, underdrawing olmadan sayıları ve sıralamayı tutarlı biçimde doğru veremedi
  • Aynı görevde underdrawing birlikte verildiğinde Gemini 3.0 Pro, numaraları, düğme sayısını ve sırasını, ayrıca spiral biçimini doğru olan bir sonuç üretti
  • Uygulama, SVG/HTML gibi araçlarla sayı ve metni istenen konum ve yönde yerleştirip bunu görsel olarak dışa aktardıktan sonra, multimodal görüntü modeline bu görseli ve metin istemini birlikte vermek şeklinde yapılabilir
  • Bu yöntem her seferinde kusursuz olmasa da, metin ve sayı yerleşiminin önemli olduğu görsel üretiminde deterministik yerleşim ile üretim modelinin görsel ifade gücünü ayrı ayrı kullanmayı sağlar

Temel bağlam ve uygulama yöntemi

  • 100 aşamalı bir macera tahtası görseli üretme sürecinde ortaya çıkan bir örüntüdür ve “önce konturu verip sonra üzerine boyatmak” yaklaşımı olarak özetlenir
  • Deterministik katman

    • SVG/HTML görsel olarak kuru kalabilir, ancak matematiksel yerleşim ve hassasiyette güçlüdür
    • Sayı ve metni istenen konum ve yöne göre yerleştirip, ilgili pikselleri içeren bir görsel olarak dışa aktarmak yeterlidir
    • Biçim olarak SVG, Python, Mermaid gibi istenen araçlar kullanılabilir
  • Üretken katman

    • Görüntü üretim modeli görsel olarak etkileyici sonuçlar üretebilir, ancak matematik ve metin konusunda güvenilirliği düşüktür
    • Gemini 3.0 Pro gibi görüntü ve metin girdisi alıp görsel çıktısı üretebilen bir multimodal görüntü modeline, underdrawing görseli ile metin istemi birlikte verilir
    • Örnek 1. aşama istemi, 50 adet basamak taşını saat yönünün tersine içe doğru spiral biçimde yerleştirip her taşa 1’den 50’ye kadar ardışık numaralar veren bir SVG üretmesini ister
    • Örnek 2. aşama istemi ise bu görseli, zanaat çikolataları ve şekerlerin spiral bir yol olarak dizildiği, alçak açıdan çekilmiş eğik fotoğraf tarzı bir claymation dioramaya dönüştürmesini ister
  • Otomasyon ve sınırlamalar

    • Claude Code veya Codex her adımı sizin yerinize gerçekleştirebilir
    • Sonuçlar iyi olsa da her zaman kusursuz değildir; nihai çıktıda da “71” görünmez

1 yorum

 
GN⁺ 1 시간 전
Hacker News görüşleri
  • LLM’lerin özünde iyi yaptığı ve iyi yapamadığı şeyleri, yani imkansız demek olmasa da temel kısıtlar nedeniyle başarı olasılığı düşük olan işleri daha derinden anlama yönündeki eğilim sevindirici
    Bu, yazılım mimarisini insanın belirleyip fonksiyonların implementasyonunu LLM’e bırakma yaklaşımına ya da veri analizinin kendisini yaptırmak yerine SQL sorguları yazdırma yaklaşımına benziyor
    Hangi iş birimlerinin LLM’lere uygun olup hangilerinin olmadığını daha net açıklayan bir görev sınıflandırma çerçevesi ve araştırma olsa iyi olurdu; sezgiler yavaş yavaş oluşuyor ama burada hâlâ sık sık tökezleyen çok kişi görüyorum

    • “Mimariyi insan belirler, fonksiyonları LLM yazar” yaklaşımı, çok da uzun olmayan bir süre önce LLM kodlama yardımcıları erken kullanıcılarının önerdiği kullanım biçimiydi
      Önce bir taslak çıkarttırıp sonra her fonksiyonu ayrı ayrı uygulatmak şeklindeydi; animasyon çalışmalarından alınmış bir terimle bu yaklaşımı anlatan blog yazıları da HN’de birkaç kez paylaşılmıştı
    • LLM’lerle ilgili temel kısıtlar ifadesi sık geçiyor ama böyle kısıtların var olduğuna dair kesin bir kanıt hâlâ yok
      Daha 2 yıl önce karakter sayma ya da fonem işleme gibi, “temel kısıtlar” yüzünden imkansız denilen işler artık çoğu zaman araç olmadan da ciddi sorun çıkarmıyor
  • Görsel üretim prompt’larını her okuduğumda, modelin açıkça görmezden geldiği çok spesifik detaylar görüyorum
    Burada da son iki görseldeki çikolata/şekerler zanaatkâr el yapımı hissinden uzak; fazla steril seri üretim ürünü gibi duruyorlar ve perspektif de doğru değil
    Model bunların çoğunu görmezden geliyorsa neden bu kadar uzun prompt’lar yazıldığı sorusu akla geliyor

    • “Stüdyo ışığı” istendiğinde fotoğrafın içine bir sürü stüdyo aydınlatma ekipmanı doldurulmuş olması hoşuma gitti
    • Şekerler aslında gerçekten zanaatkâr el yapımı görünmeye çalışmıyor; eğitim verisinde şirketlerin artisanal diye tanıttığı ve etiketlediği görsellerle eşleşmeye çalışıyor
      rustic, homemade, amateur gibi ifadeler etiketlemeyle daha iyi eşleşebilir
    • Görsel üretimi birkaç kez kullandığımda ben de tam olarak bu noktada sürekli başarısız oldum
      İlk başta bunu kendi prompt yazma beceriksizliğim sanmıştım ama bu tür uyumsuzluklara dikkat ederek bakmaya başlayınca oldukça sık ortaya çıktıkları görülüyor
    • Ayrıntılı prompt’ların çoğunun AI tarafından üretildiğini düşünüyorum
    • Tüm bunları düşünmenin ne kadar sürdüğünü merak ediyorum
      Eğer amaç, son örnekteki gibi küçük “düğmelerin” spiral biçimde dizildiği bir görseldiysa, şeker gibi görünmüyor olsa da, Blender’da çok iyi olmayan biri bile bunu bir öğleden sonra içinde yapabilirdi gibi geliyor
  • AI üretimi görsellerde metin ve sayıları tutarlı biçimde elde etmek için basit bir teknik buldum
    Görsel modellerinin bunu zaten yapmıyor olması şaşırtıcı geldiği için, epey faydasını gördüğüm bu yöntemi paylaşmak istedim

    • Bir bakıma ControlNet kullanımına benziyor
      Yalnızca SVG’yi temel görsel olarak kullanan aynı tekniği bir süredir kullanıyorum ve iyi çalışıyor
    • Çok etkileyici, basit ve kararlı
      Görsel üretim laboratuvarlarının bunu yakında benimsediğini görebilirim
    • Bu bir tür chain of thought, yani https://arxiv.org/abs/2201.11903 benzeri bir şey değil mi diye düşündüm
      Kullanıcı, modeli 0-shot çözmeye zorlamak yerine 1-shot veya k-shot biçiminde çözüme yardımcı oluyor
      Benzer teknikleri çok etkili şekilde kullandım; alan o kadar yeni ve hızlı ilerliyor ki ortak terminoloji hâlâ eksik gibi, bu yüzden blog yazısı ve örnekler çok faydalı
      Yine de bu olgunun daha küçük topluluklarda ya da başka isimlerle daha önce fark edilip anlaşılmış olması da mümkün görünüyor
    • Özetle önce SVG ile doğru konturu oluşturup, sonra bu görseli metin prompt’u ile birlikte Gemini 3.0 Pro’ya göndererek doğru sayı ve metinleri içerecek şekilde render ettiriyorsunuz
  • Bu, doğru yapıya sahip ilk görseli kodla üretip ardından yapılan bir img2img işleminden ibaret

    • Evet, tam olarak yöntem bu
      Stable Diffusion’ın ilk günlerinden beri üretici modeller kullandıysanız bu oldukça yaygın ve faydalı bir tekniktir; eskizleri (SVG, el çizimi vb.) geçici bir ControlNet gibi kullanarak model çıktısını yönlendirirsiniz
      Eskiden mimari görselleştirmelerde yerleşim kurarken benzer bir yaklaşım kullanıyordum
      Kanepe, sandalye ya da başka mobilyaları belirli yerlere koymak istiyorsanız, Poser gibi araçlarla ana “set piece” konumlarını kabaca yerleştiren basit bir sahne oluşturup, oradan bir derinlik haritası üretüp bunu o dönemin SDXL gibi üretici modellerine vererek nesne yerleşimini yönlendirebiliyordunuz
    • Genel olarak yazarın anlattığı şey bu; sadece yeni başlayanlar için biraz bağlam eklenmiş hâli gibi
    • Evet ama o kodu üretirken başka bir kod üretim modeli kullanabilirsiniz
  • Bu hack kesinlikle “bunu neden ben düşünmedim” dedirten türden bir numara
    Bir dahaki sefere görsel üretim beklentimi karşılamadığında kullanabilecek olmak güzel

    • Aslında Stable Diffusion uygulamalarında zaten image-to-image vardı
      Sadece performansı bugünkü kadar iyi değildi; bu yüzden bunun neden yeni sayıldığını çok bilmiyorum
  • Standart karşı argüman şu: LLM gerçekten zeki olsaydı, neden bu iki aşamalı sürecin daha iyi sonuç verdiğini kendi başına keşfedemiyor?

    • En temel düzeyde bir görsel model, metin token’larını alıp görsel token’ları üreten bir yapıdan ibaret
      Strateji kurmak, sonucu gözden geçirmek ve yeniden denemek için bunun üstünde bir ajan tipi süreç gerekir
      Nano Banana ve gpt-image-2’de bundan biraz var gibi görünüyor; bu, modele kodu tek seferde yazdırmakla, işi araçlarla donatılmış bir ajan altyapısına yaptırmak arasındaki farka benziyor
      Çok basit bir ajan bile tek başına ChatGPT’den daha iyi kod üretebilir
    • Çünkü LLM’ler genel olarak “görsel üret” tarzı prompt’ları biraz düzenleyip ayrı bir modele aktarmak üzere hardcode edilmiş durumda
    • Bilmediğini bilmez
    • Çünkü aslında zeki değil
    • Kimse ona bunu yapmasını söylemedi
  • Bu tür yöntemler çok uzun zamandır var; derinlik haritası ya da line art kullanarak silüeti kontrol etmeye benziyor

  • Sonuç bölümündeki “çalışıyor ama aslında pek de çalışmıyor” hissi hoşuma gitti
    Tam LLM/üretici yapay zeka çılgınlığına uygun biçimde, çok dar bir örneği tutturmak için karmaşık bir çaba harcanıyor; neredeyse olacakmış gibi görünse de sonunda yine tam olarak olmuyor ve yazı bunu baştan sona gösteriyor

    • Bir kısmı bile çalışsa faydalı
      Bir insanın sayıların doğru olup olmadığını kontrol etmesi kolaydır; yanlışsa görseli yeniden üretirsiniz
      Bu, modeli hiç kullanmadan görseli baştan yapmaktan birkaç basamak daha kolay
  • Sık karşılaşılan “bisiklete binen pelikan SVG’si” görevi için ters yönden bir yaklaşım denenebilir diye düşündüm
    Modele doğrudan SVG üretmesini söylersek kalitenin düşük olması beklenir
    Ama görsel üretim etkileyici gerçekçi görselleri kolayca oluşturabildiğine göre, önce görseli üretip sonra modele bunun üzerinden iz sürdürerek SVG çıkarttırmak, iyi bir bisikletli pelikan SVG’si elde etmenin mantıklı bir yolu olabilir
    Sonuçta insanlar da genelde Not Defteri’ne sadece sayılar yazarak SVG sanat eseri üretmiyor; asıl mesele hâlâ onu görsel olarak görmek ve onun üzerine düşünmek

  • Bu, insanların bir şeyi tam doğru yapmak için izlediği yönteme de benziyor
    Bir sanatçıdan, hiçbir düzeltme ya da eskiz yapmadan, büyük dairesel bir taş dizisini tek seferde sırayla numaralandırarak çizmesini isteseniz, yerleşim hataları olması hiç şaşırtıcı olmaz