1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Krea 2, tek bir cilalı varsayılan yerine yaratıcı keşfi öne çıkaran bir görüntü üretim temel modelidir; model ağırlıkları ve çıkarımı permissive license ile yayımlanmıştır
  • Eğitim süreci pretraining → midtraining → SFT → preference optimization → RL şeklinde ilerler; veri kürasyonu, altyazılama, prompt genişletme ve stil referansı çıktı dağılımını aşamalı olarak rafine eder
  • Mimari, basit bir DiT ailesini temel alır; GQA, gated sigmoid attention, SwiGLU, Qwen 3 VL, Qwen Image VAE ve FLUX 2 VAE gibi bileşenleri bir araya getirerek kararlılık ve verimliliği dengeler
  • Krea 2, text-to-image alanında Artificial Analysis leaderboard’da ilk 10’a girdi ve bağımsız laboratuvar modelleri arasında 2. sırayı aldı
  • Büyük ölçekli eğitim için PyTorch, FSDP2, tensör paralelleştirme, Kubernetes, Virtual Kubelet, Weka ve PostgreSQL tabanlı bir sistem kuruldu; sonraki adım olarak MoE, sparse attention, native 2K–4K, NVFP4 ve Muon scaling değerlendiriliyor

Yaratıcı keşfi hedefleyen görüntü temel modeli

  • Krea 2, geniş estetik çeşitlilik ve kullanıcının yaratıcı kontrolünü hedefleyen bir görüntü üretim temel modeli serisidir
  • Açık materyaller Release page, Hugging Face weights/license, GitHub code/license ve Krea Image tool üzerinden sunulmaktadır
  • Model ağırlıkları ve çıkarım permissive license ile yayımlanmıştır
  • Krea, diffusion ve flow-matching tabanlı görüntü modellerinin yüksek çözünürlüklü görüntüler, photorealism, kararlı yapı, yoğun metin render etme, geniş dünya bilgisi ve ayrıntılı prompt uyumu düzeyine kadar geliştiğini; ancak birçok sistemin dar bir varsayılan estetiğe yakınsadığını düşünüyor
  • Krea 2, tek bir cilalı varsayılanı optimize etmekten çok çeşitli stilleri, atmosferleri, kompozisyonları ve görsel yönleri keşfetmeye imkân veren bir üretim ortamı olmayı hedefler
  • Text-to-image alanında Artificial Analysis leaderboard’da ilk 10’a girdi ve bağımsız laboratuvar modelleri arasında 2. sırayı aldı

Veri kürasyonu ve altyazılama stratejisi

  • Krea ekibi, broad world knowledge ve style coverage içeren bir pretraining dataset oluşturmak için büyük ölçekli veri altyapısını ve dağıtık eğitim çerçevesini sıfırdan kurdu
  • “İyi bir data mix” için yüksek kaliteli görüntülerin yanı sıra çeşitlilik ve geniş domain coverage gerektiğini düşünüyor
  • aesthetic-score ve image-quality-assessment tabanlı filtreleme implicit bias oluşturabilir
    • motion blur veya softness kasıtlı bir sanatsal tercih olabilirken blurry image olarak düşük değerlendirilebilir
    • caption görüntüyü doğru açıklıyorsa istenmeyen görüntüler bile downstream eğitimde faydalı olabilir
  • Pretraining dataset içinde duplicated samples, over-represented concepts, VLM’in önemli unsurları yakalayamadığı örnekler, undesired biases ve artifacts üreten örnekler, low resolution’da kararlı biçimde modellenmesi zor high visual complexity örnekler ve AI-generated samples filtrelendi
  • Krea 2 pretraining mix içinde AI-generated images kullanılmadı
    • synthetic data ve distillation, capability edinimi için bir shortcut olabilir
    • Az miktarda AI-generated images bile modelin çıktı dağılımına bias ekleyebilir ve model quality için pratikte bir upper bound belirler diye değerlendiriliyor
    • Bunları ayıklamak için in-house classifiers tasarlandı
  • Altyazılar multi-stage bir yaklaşımla oluşturuldu
    • target image üzerinde OCR model çalıştırılarak visible text çıkarıldı
    • OCR sonuçları ve metadata captioning model’e verilerek extracted text ve world knowledge içeren enriched caption üretildi
    • context-rich long-form caption, daha ucuz bir LLM ile farklı uzunluk ve formatlarda yeniden yapılandırılarak modelin çeşitli prompt style’larına maruz kalması sağlandı
  • Long prompts yoğun supervision sağlayarak daha hızlı yakınsama ve daha düşük training loss üretti; downstream kullanım için short/medium prompt maruziyeti de korundu

Çözünürlüğe göre eğitim verileri ve midtraining

  • Pretraining verileri 256px, 512px, 1024px çözünürlük aşamalarından geçer
    • FLOP’ların çoğu low-resolution aşamasına ayrılarak core capability verimli biçimde öğrenilir
    • Ardından resolution artırılarak high-fidelity generation capability kazandırılır
    • Low-resolution pretraining, basic text-image alignment ve structure öğrenir
  • Low-resolution dataset, milyarlarca image ölçeğinde olduğundan düşük maliyetli CPU-based filters’a büyük ölçüde dayanır
    • Broken-file, resolution, aspect-ratio filters ile uygun olmayan images kaldırılır
    • Laplacian filters ile extreme textures ve noise patterns içeren images kaldırılır
    • RGB entropy, white/black pixel ratios, custom heuristics ve in-house classifiers ile flat-color backgrounds ve border artifacts azaltılır
  • In-house classifier, büyük VLM ile filtering task için system prompt oluşturup pseudo-labeled dataset ürettikten sonra küçük DINOv3 veya SigLIP-2 tabanlı classifier eğitme yöntemiyle kurulur
    • Low-resolution aşamasında GPU compute gerektiren filtering model, verimlilik için 1B parameters altında tutulur
  • Low-resolution deduplication, ağırlıklı olarak md5, phash ve colorhash’i birleştiren hash-based methods kullanır
    • Temel 8x8 phash, color’ı dikkate almadığı için false-positive rate yüksekti
    • Daha sağlam deduplication için 12x12 phash ve colorhash birleştirilir
  • Training resolution büyüdükçe image-quality ve aesthetic filters devreye alınır
    • Quality score yalnızca çok poor quality images’ı kaldırmak için kullanılır; score tabanlı oversampling için kullanılmaz
    • OCR tabanlı image-complexity score ve text density ile, low resolution’da text ve content’i anlamlı biçimde temsil etmesi zor olan images hariç tutulur
  • SigLIP-2 embeddings üzerinde sparse autoencoder eğitilerek SAE tabanlı tagging system oluşturuldu ve explicit classifier olmadan clear visual artifacts’ı filtrelemek için kullanıldı
  • Midtraining, pretraining’den farklı olarak belirli visual domain’lerde iyi stylistic coverage ve high-quality images sağlayan image sources’ı açıkça seçer
    • Pretraining, general pool’dan başlayan bottom-up bir süreçtir
    • Midtraining, önce domains ve sources’ın seçildiği top-down bir kürasyondur
    • General pretraining distribution ile high-quality SFT distribution’ı yumuşak biçimde bağlayan aşamadır
  • Semantic clustering ve retrieval-based strategies ile world-knowledge coverage güçlendirilir
    • FAISS ile hierarchical k-means clustering uygulanır
    • VLM, cluster centroid yakınındaki images’ı inceleyerek cluster’a ad verir ve gerekiyorsa flag eder
    • Flagged clusters, human review’den geçirilerek low quality veya problematic cluster kaldırılır
    • Kalan leaf cluster içinde SigLIP similarity ile semantic deduplication uygulanır
  • Named entity coverage için Danker ile English Wikipedia üzerinde PageRank çalıştırılır ve rank’e göre top 90% articles korunur
    • Wikidata metadata ile unrepresentable subjects kaldırılır
    • Kalan yaklaşık 5 million concepts için dataset genelindeki caption’larda full-text search yapılır
    • Sampling sırasında rare concepts’tan bahseden caption’lara ait images’a öncelik verilir

Mimari seçimler ve ablasyon

  • Krea 2, ablasyonlar sonucunda basit ama yüksek performanslı bir diffusion transformer (DiT) mimarisi geliştirdi
  • Mimari ablasyonu stability, performance, efficiency, simplicity olmak üzere dört kategoride değerlendirdi
    • stability, loss/gradient spike’larının azalmasına ve eğitim kararlılığına bakar
    • performance, yakınsama hızına ve high resolution ile uzun horizon’da korunup korunmadığına bakar
    • efficiency, quality’den ödün vermeden parameter count, FLOPs, memory ve communication’ın azaltılıp azaltılamayacağına bakar
    • simplicity, diğer kategorilere zarar vermeden modelin sadeleştirilip sadeleştirilemeyeceğini kontrol eder
  • Birçok mimari kararı, LLM alanındaki benimsenme eğilimlerinden etkilendi; LLM ekosistemindeki kernel ve optimizasyonların diffusion model’de de kullanılabileceği düşünüldü
  • Nihai mimarinin başlıca seçimleri şöyle
    • Attention, gated sigmoid attention ile GQA kullanır
    • MLP, GeLU MLP’den 4x expansion factor’lü SwiGLU katmanlarına değiştirildi
    • Residual, standard residual olarak korundu
    • Text encoder olarak Qwen 3 VL kullanıldı
    • Modulation, per-block MLP modulation’dan bias’lı light modulation’a değiştirildi
    • Autoencoder olarak Qwen Image VAE ve FLUX 2 VAE kullanıldı
    • Block design, single stream transformer block kullanır
    • Norm, zero-center RMSNorm ve QKNorm kullanır
    • Positional encoding, 3D Axial RoPE olarak korundu
  • GQA, yalnızca minimal degradation’a yol açarken computational efficiency’yi iyileştirir
    • MLA, GQA’ya göre küçük bir gain gösterdi, ancak additional computational overhead nedeniyle benimsenmedi
    • gated sigmoid attention büyük bir performance gain sağlamadı, ancak loss ve gradient-norm curves’ta daha kararlı dynamics gösterdi
  • single-stream, dual-stream ve hybrid-stream design arasında büyük bir performance farkı yoktu; hybrid-stream biraz daha iyi olsa da sadelik için single-stream blocks kullanıldı
  • MMDiT’nin per-block MLP modulation’ı total parameter count’un %20–30’unu oluşturabildiğinden, Krea 2 bunu per-block ayarlanabilir bias term ile değiştirdi
  • timestep conditioning deneylerinde 256px’te 4–16 timestep tokens, AdaLN’nin yerini almak için yeterliydi; ancak 512px ve 1024px’te AdaLN baseline’dan daha kötü performans verdi
  • Nihai positional encoding, head dimensions’ları frame, height ve width’e atayan 3D axial RoPE’dir
    • text tokens’ın RoPE indices değerleri zero olarak ayarlandı
    • partial RoPE, 256px’ten 512px’e scale ederken iyi zero-shot inference sonuçları verdi; ancak high-resolution training sonrasında nihai performans baseline’dan daha düşüktü
  • Autoencoder, baseline olarak FLUX.1-dev autoencoder ile başlayıp Qwen Image VAE, DC-AE, FLUX 2 VAE ve internal autoencoder ile karşılaştırıldı
    • DC-AE’nin, reconstruction error nedeniyle fine detail çözümleme yeteneğine sert bir üst sınır getirdiği değerlendirildi
    • Qwen Image VAE ve FLUX 2 VAE, excellent reconstruction quality’yi korurken latent space çok daha hızlı convergence sağladı
    • early models için Qwen Image autoencoder kullanıldı, larger models için FLUX 2 VAE benimsendi
  • Text encoder olarak T5-XXL, T5Gemma, umT5, Qwen 2.5 VL ve Qwen 3 VL karşılaştırıldı; nihai text encoder olarak Qwen 3 VL kullanıldı
    • VLM, text ve image içeren daha zengin bir input space ve daha güçlü multilingual generalization sağlar
    • VLM feature’larının yalnızca last layer’ını kullanmak yerine, tüm layers boyunca hidden features’ı aggregate eden shallow attention layer tanıtıldı
    • token axis’e lightweight bidirectional transformer layers eklenerek autoregressive bias azaltıldı

Eğitim hattı, tercih optimizasyonu, RL

  • Eğitim hattı, modern LLM eğitim hatlarından esinlenen çok aşamalı bir yapıdadır
  • Ön eğitim; metin-görüntü hizalaması, metin işleme, stil kapsamı ve yapısal tutarlılık gibi temel yetenekleri oluşturur
    • Final model, standart rectified-flow loss ve v-parameterization ile eğitilir
    • 256px aşamasının ilk epoch’unda iREPA kullanılarak erken aşama yakınsaması önemli ölçüde hızlandırılır, ardından kaldırılır
    • 256px ve 512px aşamalarında 8-bit training ile bf16 baseline’a kıyasla %15–20 eğitim hızı artışı gözlemlendi
    • 1024px’ten final RL aşamasına kadar standart bf16 training kullanılır
  • Yüksek çözünürlüklü ön eğitimde, çözünürlüğe bağlı timeshift schedule uyarlaması önemlidir
    • Hem eğitimde hem çıkarımda shifted logit-normal sampling schedule kullanılır
    • Çözünürlük arttıkça shift kademeli olarak artırılır
    • Sweep yalnızca training shift’e uygulanır; inference shift schedule ise sabit tutulur
  • Ön eğitim sırasında warmup-stable-decay learning-rate schedule kullanılır ve PMA uygulanır
    • PMA, EMA ile karşılaştırılabilir performans elde ederken EMA’nın kayda değer bellek ek yükünden kaçınır
  • Optimizer olarak hat genelinde birincil optimizer AdamW kullanılır
    • Muon, ilk adımlarda AdamW’den daha hızlı yakınsasa da daha uzun ufuklarda daha düşük performans ve kararlılık sorunları gösterdi
    • MMDiT’nin ilk ve son linear layer’ları Muon parametrelerinden çıkarılıp Nesterov momentum eklendiğinde, hem düşük hem yüksek çözünürlükte AdamW baseline’ını tutarlı biçimde geride bıraktı
    • En yeni ön eğitim çalışmasında zaman kısıtları nedeniyle Muon benimsenmedi; bir sonraki ön eğitim döngüsünde benimsenmesi planlanıyor
  • SFT aşamasında, yüksek estetik niteliğe sahip küçük ve özel bir görüntü kümesi kürate edilir
    • Amaç, modeli estetik açıdan arzu edilen yönlere daha fazla bias etmektir
    • Özellikle daha erken checkpoint’lerde sık görülen yüksek doygunluk ve doku sorunlarını gidermeye yardımcı olur
    • Domain-specific SFT checkpoint’leri eğitildikten sonra model merging ile generalist SFT checkpoint oluşturulur
  • Tercih optimizasyonu, post-training stack’in ilk aşamasıdır ve iki aşamalı bir hattan oluşur
      1. aşama, büyük ölçekli sentetik tercih çifti üretim hattıyla ilk iyileştirmeyi gerçekleştirir
    • Tercih çiftlerinin çoğunluğu en az bir on-policy örnek içerir
      1. aşama, yalnızca insan anotasyonlarının kullanıldığı bir kalibrasyon aşamasıdır
    • İnsan anotasyonları, modelin güçlü ve zayıf yönlerine ve kendine özgü davranışlarına aşina olan kurum içi kişiler tarafından toplanır
  • PO’da policy divergence yaygın bir olgu olarak ortaya çıkar
    • DPO türü yöntemler, tercih edilen örneğin likelihood’u ile tercih edilmeyen örneğin likelihood’u arasındaki margin’i artırmayı teşvik eder
    • Çeşitli tercih veri kümesi karışımlarında, modelin her iki örneğin generation likelihood’unu da düşürdüğü, ancak bunu farklı oranlarda yaparak objective’i sağladığı bir olgu gözlemlendi
    • Divergence, modeli genel ön eğitim dağılımından uzaklaştırır ve eğitimin ilerleyen bölümlerinde yüksek frekanslı artefaktlar olarak ortaya çıkar
    • Bunu hafifletmek için STPO adlı bir DPO varyantı tasarlandı
  • RL, eğitim hattının final aşamasıdır
    • Multi-reward GRPO-style method kullanılır
    • Reward model’ler; general aesthetic model, prompt-following reward, text-rendering reward, artifact and structure reward bileşenlerinden oluşur
    • General aesthetic model, PO aşamasında toplanan tercih verileriyle open-source VLM’in finetuning edilmesiyle elde edilir
  • Prompt-specific rubric reward, prompt’u doğrulanabilir gereksinimlere ayırır ve üretilen görüntünün bunları karşılayıp karşılamadığını değerlendirir
    • Prompt following’i generic image quality’ye indirgemeden, ince taneli prompt kısıtlarını karşılamasını sağlar
  • Yapısal artefaktları azaltmak için dedicated artifact reward model eğitilir
    • Fazladan parmaklar, bozuk biçimli uzuvlar, çarpıtılmış metin gibi hatalar insanlar için belirgindir, ancak general-purpose VLM judge’lar bunları sık sık kaçırır
  • RL aşamasının tamamı CFG olmadan eğitilir
    • Conditional model distribution’ı hızla iyileştirerek eğitimin başlarında no-CFG örneklerini guided örneklere çok daha yakın hale getirir
    • Çıkarım zamanında CFG, ek bir control knob olarak etkin kalabilir
  • RL aşamasından sonra isteğe bağlı bir timestep-distillation aşaması içerir
    • DMD, DMD2, Decoupled DMD, piFlow, APT incelendi ancak Trajectory Distribution Matching(TDM) benimsendi
    • TDM, timestep’ler genelinde DMD uygulayarak trajectory level’da distribution matching gerçekleştirir

İstem genişletme ve stil referansı

  • Eğitim sırasında model, görüntünün yoğun görsel ayrıntılarını açıklayan zengin caption’lar kullanır; ancak gerçek kullanıcı girdileri kısa ve belirsizdir, ifade alışkanlıkları da çeşitlidir
  • prompt expander, basit veya yetersiz user prompt’ları, kullanıcının niyetinin üzerine yazmadan daha zengin bir görsel yöne dönüştürür
    • Mevcut bir open-source LLM üzerine 2 aşamalı SFT ve RL pipeline’ı ile eğitildi
    • Hedefler arasında yalnızca görüntü kalitesini iyileştirmek değil, creative variation ve controllable exploration da yer alır
  • SFT verisi, long captions’tan synthetic “user captions” üretilerek oluşturulur
    • synthetic user captions, target caption’daki birçok visual detail’i kasıtlı olarak çıkaran, kısa, conversational ve semi-instructional prompt’lardır
    • underspecified user prompt → expanded model-friendly caption biçiminde paired data oluşturur
    • reasoning ability’yi korumak için synthetic thinking traces da üretilir
  • targeted distribution shaping de az miktarda uygulanır
    • visually rich and artistic imagery oversample edilir
    • photorealistic descriptions’a genişletilmesi gereken prompt’lara lightweight photographic-medium bias eklenir
    • Amaç, bir house style dayatmak değil; hem expressive art-directed imagery’yi hem de straightforward photorealistic requests’i kapsamak
  • prompt expander RL, target caption imitation’dan çıkarak image quality’yi iyileştirirken user intent’i koruyan expansions üretmeyi hedefler
    • GDPO ve multi-reward objective ile eğitilir
    • image-level rewards, resulting generations’ın quality ve preference’ını ölçer
    • prompt-level verifiable rewards, expansion’ın original request’e sadık olup olmadığını kontrol eder
    • safety ve constraint checks, overall reward için gate olarak kullanılır
  • prompt expander’ın failure mode’larından biri diversity collapse’tir
    • image rewards baskın olduğunda single safe high-reward house style öğrenilebilir
    • prompt groups üzerine DINOv3 embedding diversity score eklenerek quality ve alignment ile birlikte intra-group visual diversity ödüllendirilir
    • variation’ı korumak için diversity reward’un training boyunca active tutulması gerekir
  • style-reference system, base model üzerine inşa edilir
    • Kullanıcılar text ile görüntü üretirken bir veya daha fazla reference image ile output style’ı guide edebilir
    • multiple styles’ın smooth semantic mixing’i, her style reference strength’in continuous control’ü ve complex styles’a yönelik state-of-the-art adherence tasarım hedefleridir
    • Yaygın failure mode’lardan biri, style image’ın content ve subject matter’ının final image’a leakage yapmasıydı
    • style-reference module eğitimi için self-supervised technique tasarlandı ve sonrasında preference-optimization step ile outputs ek olarak align edildi

Dağıtık eğitim altyapısı ve operasyon

  • Krea’nın dağıtık eğitim framework’ü PyTorch üzerine sıfırdan inşa edildi ve ağırlıklı olarak DTensor soyutlaması ile torchtitan projesinin desteklediği torch yerel özelliklerini kullandı
    • Ön eğitim ve son eğitim çalıştırmalarının çoğunda FSDP2 ile Megatron-LM tarzı tensör paralelleştirme birlikte kullanıldı
    • TP boyutunun 2’den büyük olduğu konfigürasyonlarda torch.compile bayrağıyla async-TP etkinleştirilerek naive TP’ye kıyasla orta düzeyde hız artışı elde edildi
    • Autoencoder parametreleri tüm cihazlara çoğaltıldı; yalnızca text encoder ve ana MMDiT backbone sharding’e tabi tutuldu
    • Düğüm içi bağlantılar için NVLinkSharp, düğümler arası bağlantılar için InfiniBand kullanıldı
  • Eğitim verimliliği için hidden dimension’ı daha büyük, biraz daha geniş bir model kullanıldı
    • Hidden size büyüdükçe her katmanın hesaplama yoğunluğu artar; bu da FSDP2 prefetching ile gecikmeyi gizlemeyi kolaylaştırır
    • Katman sayısını azaltmak all-gather ve reduce-scatter işlem sayısını düşürür
    • Bu değişiklik, ön eğitim çalıştırmalarının genelinde NCCL ile ilgili hataları belirgin ölçüde azalttı
    • Daha büyük matris çarpımı boyutları, 8-bit eğitimin quantization/dequantization ek yükünü dengelemeye yardımcı olur
  • Optimizasyon stratejisinin merkezinde torch.compile yer aldı
    • Attention için varsayılan olarak en yeni cuDNN kernel’ları kullanıldı; gerektiğinde FlexAttention veya FlashAttention 3 tercih edildi
    • Düşük çözünürlüklerde selective activation checkpointing kullanıldı
    • Yüksek çözünürlüklerde activation’lar belleğe hâkim olmaya başladığından full activation checkpointing kullanıldı
  • Veri yükleme için temel format Parquet’ti
    • Her row’da görüntü referansı, crop/resize boyutları, caption ve diğer metadata saklandı
    • Büyük ölçekli çalıştırmalarda, aynı aspect ratio’ya sahip görüntü batch’lerini yüklemek için row’lar önceden shuffle edilip packing yapıldı
    • Packing sayesinde latent’lar tek bir autoencoder pass ile encode edilebildi
  • Büyük ölçekli dağıtık eğitimde tek bir GPU arızası veya straggler tüm çalıştırmayı durdurabilir
    • Krea ölçeğinde hızlı ve sık checkpointing ile startup time iyileştirmeleri üzerinden MTBF ve MTTR’yi optimize etmek yeterli oldu
  • Araştırma, production inference ile GPU’ları paylaşan tek bir Kubernetes cluster’ında yürütüldü
    • Araştırma gerektiğinde tüm GPU pool’unu kullanabilecek şekilde tasarlandı
    • Cluster’daki tüm GPU’lar eğitim çalıştırmasına ayrıldığında Krea’nın inference workload’u otomatik olarak başka bir yere migrate edildi
    • Traffic failover sistem tarafından yönetilerek yerel GPU kalmasa bile production responsiveness korundu
  • Kueue, workload scheduling’in temel bileşenlerinden biriydi
    • Kueue, Workload priority ile Kubernetes Pod priority’yi birleştiren 2-tier priority system sağlar
    • Multi-node training için gereken gang-scheduling’i mümkün kılar
    • “borrowing”, “lending” ve “reclamation” queueing primitive’leri utilization’ı en üst düzeye çıkarmaya yardımcı oldu
  • Tüm GPU’lar araştırmaya ayrıldığında inference’ı başka yerde scale eden bileşenler için Virtual Kubelet kullanıldı
    • Pod bir virtual Kubernetes node’a schedule edildiğinde Krea kodu pod specification’ını target provider ile uyumlu biçime dönüştürür
    • Provider-side failure oluştuğunda iki taraftaki durum reconcile edilir
    • Recovery Kubernetes’e devredilir; sistem failure’ı algılayıp Kubernetes’e iletir
  • Observability, büyük ölçekli pretraining’de en çok öğrenilen alan oldu
    • GPU, PCIe, NVLink ve InfiniBand ile ilgili subsystem metric’leri olmadan bu ölçekte training mümkün değildi
    • Metric’ler DCGM ve custom DaemonSet kombinasyonuyla toplandı
    • GPU 75–78°C’yi geçtiğinde throttling başlar; toplam throughput düşer ve training instability artar
    • DCGM_FI_PROF_PIPE_TENSOR_ACTIVE, training’in beklendiği gibi yürüyüp yürümediğini anlamak için preferred indicator’dı
    • InfiniBand metric’leri fabric instability, link flapping, packet error, congestion, symbol error ve throughput disparity teşhisi için kritikti
  • GPU count scaling zordu
    • 128 GPU’nun altındaki run’lar çok kararlıydı ve çoğu zaman günlerce sorunsuz çalıştı
    • GPU count artırılınca run’lar çok daha sık crash etmeye başladı
    • Çok büyük scale’de 24 saati aşan tek bir run bile tamamlanamadı
    • Birçok crash’in açık bir nedeni yoktu; tüm metric’ler healthy görünürken NCCL timeout gibi ortaya çıkıyordu
  • İlk büyük hatalardan biri Ceph’i benimsemekti; daha sonra Weka’ya geçildi
    • Filesystem ile ilgili sorunlar ve downtime keskin biçimde azaldı, performance da benzer ölçüde iyileşti
    • Weka, Krea 2 eğitiminde aggressive checkpointing’i mümkün kılan kilit unsurdu
    • Checkpoint yaklaşık 30 saniyede tamamlanıyordu; bu sayede checkpointing nedeniyle kaybedilen süre azdı

Veri ambarı ve iş kuyruğu

  • K2 veri toplama ve kürasyonu için PostgreSQL sunucu cluster’ı merkezli özel bir warehousing and queueing system kuruldu
  • Her Krea tablet server’ına “krablet” deniyor
    • Her krablet, bir data shard’ını barındıran bir Postgres instance’ı ile mutation’ları asenkron biçimde batch/queue ederek lock contention’ı azaltan bir “funnel” server deployment’ından oluşuyor
  • Tüm read işlemleri büyük ölçekli bir “RPC” server deployment’ı üzerinden proxy ediliyor
    • RPC server, PgBouncer gibi geleneksel connection pooler’ların yerini alıyor
    • Her RPC server, database’in tüm shard’ları için connection pool tutuyor
  • krablet sistemi yalnızca metadata tarafında 208TB’a kadar ölçeklendi ve saniyede on binlerce contended UPSERT transaction’ını işleyebiliyor
    • Tüm research data için single source of truth sağlıyor
    • stream-processing layer’ın data layer ile aynı hale gelebilmesini sağlıyor
  • Tipik job-processing workflow, Postgres table’ını queue gibi kullanma yaklaşımına dayanıyor
    • OCR worker, contains_text IS NULL olan row’ları bulup işliyor
    • embed worker, embedding_path IS NULL ve contains_text = FALSE olan row’ları işliyor
    • FOR UPDATE SKIP LOCKED ile row claim ediliyor ve last_tried_at ailesindeki column’lar güncelleniyor
  • queue modeli Kafka veya Ray’den farklı bir retry davranışına sahip
    • Failure durumunda row drop edilmiyor ya da dead-letter queue’ya gönderilmiyor
    • İşlenemeyen row’lar da last_tried_at atomic update’i sayesinde queue’nun sonunda retry ediliyor
    • Head-of-line blocking de önleniyor
  • worker sayısı dinamik olarak ayarlanabiliyor
    • Processing job’ları Kubernetes ile deploy ediliyor ve data resharding olmadan isteğe göre scale up/down yapılabiliyor
    • Bir job 1 worker ya da 1000 worker ile çalıştırılabiliyor
    • Prometheus scaling metric’iyle pipeline’ın her bölümü available work’e göre autoscale edilebiliyor
  • Araştırmacıların rahat kullanımı için “pluck” adlı bir system sağlanıyor
    • notebook’larda kullanıma uygun global map API sunuyor
    • t.map, kullanıcının live progress’i görmek için attach olabileceği bir handle döndürüyor
    • UDF, cloudpickle ile pickle edilip remote worker’da çalıştırılıyor
  • Sonraki nesil araştırmalar için krablet ve FOR UPDATE SKIP LOCKED queue semantics korunurken, object storage üzerinde LSM tree’ye data kaydeden bir successor system inşa ediliyor

Gelecek yönelimler

  • Krea 2’de stabilite ve iteration speed önceliklendirilerek görece muhafazakâr architecture ve optimizer seçimleri yapıldı
  • Bir sonraki pretraining cycle’da modern LLM transformer design’ını diffusion transformer’a uygulamayı hedefliyorlar
    • Değerlendirilen yönler arasında MoE, sparse attention ile native 2K–4K resolution scale, NVFP4 pretraining ve Muon scaling yer alıyor
    • Mevcut modelin undertrained olduğu ve daha uzun training’in fayda sağlayacağı düşünülüyor
  • Mevcut Krea 2 training pipeline’ı multi-reward RL stage ile sona eriyor
    • Krea, internal expert’ları kullanarak OPD ve MOPD’nin diffusion model’lar için etkili distillation method’ları olduğunu halihazırda doğruladı
    • Yakında daha fazla sonuç paylaşmayı umuyorlar
  • Production diffusion model, birbirine bağımlı birden çok modelden oluşan karmaşık bir konfigürasyon gerektiriyor
    • latent diffusion model serving için genellikle autoencoder, diffusion transformer, text encoder ve prompt-expansion model gerekiyor
    • Stack’e bağlı olarak style-reference model veya upscaler gibi ek module’ler de eklenebiliyor
    • Bağımsız eğitilmesi gereken ama birbirine bağımlı birden fazla component’i sürdürmek, research team coordination’ını zorlaştırıyor
  • Krea, bir sonraki pretraining cycle’da architecture’ı basitleştirip birden çok component’i tek bir model altında birleştirmeyi planlıyor
  • Krea 2 esas olarak creative exploration için image generation’a odaklandı; ileride capability’yi robust editing, image reference ve native 2K/4K generation yönünde genişletmeyi hedefliyor
  • Geleneksel doğal dil prompting’inin tek başına tüm kullanıcı request kapsamını desteklemek için artık yeterli olmadığı düşünülüyor
    • Kullanıcı prompt’larında natural language, tag, detailed JSON, bounding box, instruction, visual guideline, Markdown gibi çeşitli prompting style’ları gözlemleniyor
    • Prompt expansion bunların bir kısmını çözebilir, ancak modelin bu prompt’ları native olarak anlamasının da core capability haline gelmesi gerektiği düşünülüyor

1 yorum

 
GN⁺ 4 시간 전
Hacker News görüşleri
  • En yeni metinden görüntüye modelin ağırlıklarını yayımlayıp, eğitim sürecini de epey derinlemesine ele alan bir yazı paylaşmışlar
    Gerçek eğitim ve veri altyapısı gibi normalde pek ayrıntılı yazılmayan kısımları da oldukça eklemişler; bununla ilgilenenler için ilgi çekici şeyler var gibi görünüyor

    • Açık ağırlıklı görüntü üretim modeli hakkında kapsamlı bir teknik rapor olması etkileyici
      Bu alanı uzun süredir takip eden biri olarak, nihai ürünün arkasındaki deneyleri ve emeği okumak gerçekten ilginç; ayrıca topluluğun da deneyebilmesi için bazı ince ayar araçlarını yayımlarlarsa modelin potansiyelini daha da ileri taşıyabileceklerini düşünüyorum
    • Krea’nın pornografi ya da gore gibi içerikleri nasıl ele aldığını merak ediyorum
      Büyük modellerin, yasal durumlarda bile güvenlik gerekçesiyle bu tür içerikleri sert biçimde dışlama eğilimi sinir bozucuydu
    • Ideogram4, Flux2, Qwen-Image, ZiT ve Krea’ya bakınca açık ağırlıklar tarafında olumlu hareketlerin arttığını görüyoruz
      Aslında Flux.1 Krea geçen yıl temmuzdan beri GenAI Showdown benchmark sitemde vardı ve bu alanda bu neredeyse çok eskiymiş gibi hissettiriyor. Yeni modeli de düzgünce test etmek isterim
  • Ben Krea’nın kurucu ortağı ve CTO’su Diego Rodriguez. Bu kez ağırlıkları ve, mevcut sektör standardına göre epey dolu bir teknik raporu yayımladık
    Raporda veri kürasyonu/captioning, model mimarisi, sonradan eğitim, pekiştirmeli öğrenme pipeline’ı, prompt genişletme, stil referansı ve altyapı ayrıntılı biçimde yer alıyor
    Ağırlıklar ikiye ayrılıyor: Krea 2 Turbo, guidance ve timestep’i damıtarak çıkarımı hızlandıran model; Krea 2 RAW ise hackleme ve ince ayar düşünülerek hazırlanmış model
    Açık LLM topluluğunun, modelleri farklı boyutlarda ve eğitim pipeline’ının çeşitli aşamalarında yayımlama işini iyi yaptığını düşünüyorum; biz de bu kez hem ara eğitim aşamasının hem de sonradan eğitim aşamasının checkpoint’lerini yayımladık. Görüntü ve multimedya tarafında bu nadir görülen bir şey, o yüzden bununla gurur duyuyorum
    Artificial Analysis metinden görüntüye benchmark’ına göre görüntü kalitesi Nano Banana ile benzer seviyede: https://artificialanalysis.ai/image/leaderboard/text-to-imag...
    Bireyler ve küçük işletmeler için de cömert bir lisans ekledik
    OSS sürüm tanıtımı: https://www.krea.ai/krea-2-open-source / Huggingface model: https://www.krea.ai/krea-2/huggingface / GitHub deposu: https://www.krea.ai/krea-2/github / Reddit AMA: https://www.reddit.com/r/StableDiffusion/comments/1udnm0a/we... / teknik rapor: https://www.krea.ai/blog/krea-2-technical-report

  • Sonuçlar çıktı ve özellikle Turbo modelin 8 adımda bu kadar hızlı olması düşünülünce gerçekten etkileyici
    Yerelde barındırılabilen modeller arasında bunu geçen yalnızca Ideogram 4 vardı ama o da çok daha yavaş. Dakikalarla saniyeler arasında fark var
    Dokuz köşeli yıldız, Count Rugen, insanla aşırı dolu düz dünya gibi her zamanki “model killer” testlerinde tökezledi ama genel olarak ağırlık sınıfının üstünde iş çıkardı; yerelde barındırılabilen modeller arasında en yüksek puanı aldı, genel sıralamada da Ideogram 4’ün hemen altında kalarak 15 testin 6’sını geçti
    Yalnızca yerelde barındırılabilen modelleri karşılaştıran GenAI bağlantısı: https://genai-showdown.specr.net/?models=fd,hd,kd,qi,f2d,zt,...

    • Metinden görüntüye modeller için de model killer diye bir şey olduğunu ilk kez duyuyorum, komikmiş
      Test yönteminin böyle tuhaf derecede spesifik maddelere ulaşmış olması ilginç
  • Daha fazla açık ağırlıklı model gelmesi güzel, derinlikli yazıları da gerçekten seviyorum
    Farklı stiller üretilebilsin diye manifold’u geniş tutma yaklaşımı da hoşuma gidiyor. Yalnızca birkaç stil preset’ine tam uyacak şekilde ayarlamaktan daha iyi bence
    Ama Nano Banana 2 ya da Images 2.0 gibi gelişmiş görüntüden görüntüye / ajan tarzı kompozisyon modelleri zaten çok güçlü şekilde ortaya çıkmışken, bu biraz da artık “geçmiş savaşları verme” hissi yaratıyor
    Temel Qwen 3 VL’yi çapraz şekilde ekleme yaklaşımının o seviyedeki görüntüden görüntüye performansa yaklaşabileceğinden oldukça şüpheliyim; ayrıca sağlam bir görüntüden görüntüye sistemi düzenleme, ince ayar, karakter tutarlılığı ve şu anda stil aktarımında kullanılan şeylerin genellenmesi açısından çok önemli. Stil aktarımı kısmı da yeterince açıklanmamış gibi görünüyor
    O seviyeye ulaşmak kolay olmayacaktır ama görüntü modellerinin bir sonraki cephesinin kesinlikle burası olduğunu düşünüyorum. Ideogram sanki o yöne doğru birikim yapıyor ama açık ağırlık tarafında bunu henüz pek görmedim

    • Şüpheciliği anlıyorum ama içeride, moodboard benzeri pek çok durumda bu model Nano Banana’dan daha fazla kullanılıyor. NBP’den 4 kat daha ucuz olması da yardımcı oluyor
      Ajan tarzı workflow’lar Krea 2 ile uyumlu, o yüzden o kısmı çok anlayamadım. Eğer düzenleme modelini kastediyorsanız o da hazırlanıyor
      Metinden görüntüye benchmark’larında da benzer seviyedeler; yukarıdaki yorumda paylaştığım Artificial Analysis bağlantısına bakabilirsiniz
      Nano Banana ya da ChatGPT’yi yeniden eğitip müşterinin markasını anlamasını sağlayamazsınız; müşterilerimizin sürekli dile getirdiği şikayet tam da bu. Üstelik açık kaynak olduğu için bire bir karşılaştırma da kolay değil
    • Bu model de görüntüden görüntüye desteği sunuyor; Qwen 3 VL ile ilgili sorunun ne olduğunu anlamıyorum
      Stil aktarımının açıklanmadığı yorumu da belirsiz. Sayfada “reference” kelimesi 11 kez geçiyor ve gerçekten okuyunca bu konunun epey ele alındığını gördüm
  • Krea'nın model ağırlıklarının indirilebilmesine izin vermesi güzel, ancak lisansında böyle maddeler varsa bu açık kaynak değildir: https://huggingface.co/krea/Krea-2-Raw/blob/main/LICENSE.pdf
    Ticari kullanım yalnızca şirketin son 12 aydaki toplam yıllık geliri 1 milyon doların altındaysa izinli; bunun üzerindeyse ayrı bir enterprise lisansı gerekiyor
    Ayrıca Krea modeli, türevleri ve çıktıları ilgili yasa, sözleşme ve izinli kullanım politikasını ihlal edecek şekilde kullanılamaz; dağıtım sırasında yasaklı, zararlı veya yasa dışı içerik üretimini tespit etmek, önlemek ve azaltmak için makul bir içerik filtresi uygulanması gerekir
    İzinli kullanım politikasına da uyulmalıdır; politika sayfası https://www.krea.ai/krea-2-use-policy içinde Krea'nın veya dağıtıcının uyguladığı güvenlik önlemlerini, kullanım kısıtlamalarını, içerik filtrelerini, kaynak belirtmeyi ve watermark atlatmayı yasaklayan maddeler de yer alıyor

  • Turbo için şimdiden bir GGUF dönüştürülmüş sürüm çıkmış gibi görünüyor: https://huggingface.co/Abiray/Krea-2-Turbo-GGUF

  • İşe alım sayfasında ilginç bir madde var
    Eski usul Mellanox'un nasıl bir yer olduğunu bilenlerin hoşuna gidebilir: https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072a...

  • İyi bir model, ancak Qwen VAE kullanmaları biraz hayal kırıklığı yaratıyor

    • Gerçekçiliği zorlamak istiyorsanız, web sitesi ve API'deki Krea 2 Large, FLUX 2 VAE ile eğitildi
      İkisini de kullandıktan sonra Flux VAE'nin gerçekçi doku öğreniminde biraz daha üstün olduğunu düşünüyorum, ama fark sanıldığı kadar büyük değil. Qwen VAE de kontrollü deneylerde genel olarak çok iyiydi ve çeşitli stiller üretmeyi öğrenmede güçlüydü
    • Bunun yerine wan2.1 VAE kullanmanın bu sorunu çözdüğünü söyleyenler de vardı
      Henüz bunu bizzat denemeye vaktim olmadı
  • Krea 2'yi denemeyi dört gözle bekliyorum. Z-Image Turbo'yu her gün kullanıyorum ve gerçekçi görseller ile illüstrasyonlar için stock photo aboneliğinin yerini aldı
    Eğitim maliyetinin ne kadar olduğunu merak ediyorum

    • Kahveye kesin çok para gitmiştir
      Eğitim maliyetini düzgün tahmin etmek zordu çünkü çıkarım ve araştırma iş yüklerinin birlikte çalıştığı paylaşımlı bir Kubernetes kümesi kullanıldı
  • Böyle bir modeli self-hosting yaparken ne kullanıldığını merak ediyorum
    ollama ve open-webui denedim ama görüntü üretimini hiç desteklemiyorlardı

    • Bu modeli henüz denemedim ama ComfyUI kesin destekler ve alışınca arayüzü de gayet iyiydi
      Takılırsanız önce workflow kopyalayıp yapıştırarak başlayabilirsiniz
    • Koboldcpp görüntü üretimini destekliyor, ancak Krea2 desteği için bir sonraki sürümü beklemek gerekiyor
      https://github.com/LostRuins/koboldcpp