Antigravity 2.0, OpenSCAD mimari 3D LLM benchmark’ında 1. sırada

(modelrift.com)

3 puan yazan GN⁺ 2026-05-23 | 2 yorum | WhatsApp'ta paylaş

OpenSCAD Pantheon benchmark’ı, yalnızca iki referans görsel ve kısa bir prompt ile yapay zeka kodlama araçlarının bir yapıyı parametrik CAD kodu olarak üretip üretemediğini test ediyor
Google Antigravity 2.0 / Gemini 3.5 Flash High, 4.5/5 kalite puanıyla en yüksek skoru aldı; gerçek Pantheon ölçülerini, yazıtını ve içteki kasetli tavan desenini bile uyguladı
Codex 5.5 High, yüksek detay yoğunluğu gösterdi ancak PNG önizleme ile nihai STL arasındaki tutarsızlık nedeniyle puan kaybetti; Sonnet ise mevcut otonom çalıştırmalar içinde en temiz modeli üretti
Cursor en hızlısıydı ama kalite olarak en düşüktü; ModelRift/Gemini Flash 3.0 ise görsel geri bildirim eklenen human-in-the-loop yaklaşımıyla 3.8/5 seviyesine ulaştı
Tüm sistemler OpenSCAD CLI ile render alma aşamasını tamamladı, ancak darboğaz araç erişimi değil geometri değerlendirmesi ve nihai mesh doğrulamasıydı

Benchmark’ın amacı ve görev

ModelRift tüm 3D modeller için OpenSCAD kodu ürettiğinden, LLM’lerin uzamsal geometriyi işleme becerisi doğrudan gerçek model kalitesine bağlanıyor
Bu test, birden fazla yapay zeka kodlama aracına aynı görevi verip referans görseller ve kısa bir prompt temelinde Pantheon’u OpenSCAD ile üretmelerini isteyen küçük ölçekli, pratik bir benchmark’tı
Amaç, mimari referans materyalini parametrik CAD koduna dönüştürme, OpenSCAD CLI ile PNG önizlemeleri render etme ve yinelemeli biçimde iyileştirme yeteneğini görmekti

Prompt, Pantheon’un rotundasını, kubbesini, portikosunu, sütunlarını, üçgen alınlığını ve ön cephe detaylarını içermesini istiyordu

see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png)  and iterate until you are happy with the result.

Neden Pantheon ve OpenSCAD seçildi

Pantheon, basit difference(), cube(), cylinder() sözdizimi testlerini aşan bir görevdi ama OpenSCAD’in zorlandığı organik heykeller veya karakter benzeri geometriler de değildi
Ana yapı dairesel rotunda ve kubbe, merkezi oculus, doğrusal portiko, sütunlar, kademeli kaide ve üçgen alınlıktan oluştuğu için sonuç farklarını karşılaştırmaya uygundu
Zayıf sonuçlar bile kubbeli bir bina gibi görünebilir, ancak iyi sonuçların yuvarlak tambur, dikdörtgen portiko, kubbe halkaları ve ön cephe ilişkisini daha doğru kurması gerekiyordu
OpenSCAD, modelin düz metin kod olması ve söz varlığının küçük kalması nedeniyle LLM üretimli geometri için uygun bir hedefti
“Yarıçap boyunca 28 sütunu tekrar et” ya da “kubbeden oculus çıkar” gibi talimatlar doğrudan kaynak kodla ifade edilebiliyor
Çıktılar incelenebilir, yeniden üretilebilir ve kolay düzenlenebilir olduğundan, sütun aralığı hataları gizli sahne durumlarıyla değil parametre veya döngü değişiklikleriyle düzeltilebiliyor
ModelRift’in neden OpenSCAD üzerine kurulduğu Why we built ModelRift on OpenSCAD yazısında anlatılıyor
Dezavantajı, OpenSCAD’in bir heykel aracı olmaması; en iyi şekilde bileşensel, parametrik ve hard-surface nesnelere uyması

Genel sonuçlar

Puanlar bu benchmark içindeki göreli değerlendirmeyi gösteriyor; genel model sıralaması değil
Zaman puanı, projenin yayın saatini değil gözlemlenen uygulama süresini yansıtıyor
Kalite puanları muhafazakâr verildi ve en iyi sonuçlar bile kusursuz bir Pantheon modeline yaklaşmıyordu
Araç ve modellere göre sonuçlar:
- Cursor 3.5 / Composer 2.5: zaman 5/5, kalite 1.4/5. En hızlıydı ama en zayıf sonuçtu; kubbe ve portikonun ana formu dışında oranlar, renk kontrolü ve mimari detaylar yetersizdi
- Codex 5.5 High: zaman 4/5, kalite 3.0/5. Entablatur yazıtını bile ekleyecek kadar detaylıydı, ancak nihai STL PNG önizlemeden farklı çıktığı için puan kaybetti
- Claude Code 2.1 / Opus 4.7: zaman 2/5, kalite 3.0/5. Cursor’dan daha net bir yapı, portiko ve kademeli kaide sundu ama renkler fazla tekdüzeydi ve güçlü sonuçlar kadar ikna edici değildi
- Claude Code 2.1 / Sonnet 4.6: zaman 1/5, kalite 3.4/5. Mevcut otonom çalıştırmalar içinde en inandırıcı genel izlenimi ve dengeli oranları verdi, ancak uygulama süresi en uzundu
- Google Antigravity 2.0 / Gemini 3.5 Flash High: zaman 1/5, kalite 4.5/5. Gerçek Pantheon ölçülerini ve yazıtını kullandı; ayrıca otonom ajanlar içinde içteki kasetli tavan desenini uygulayan tek sistem oldu
- ModelRift / Gemini Flash 3.0: zaman 1/5, kalite 3.8/5. ModelRift’in yinelemeli anotasyon iş akışını kullanan otonom olmayan sonuçlar içinde en iyisiydi ve Claude Code’a kıyasla yaklaşık 2 kat daha uzun sürdü

İş akışı gözlemleri

İstemci iş akışı, modelin kendisi kadar önemliydi
Codex Desktop, LLM’in bağlama aldığı görselleri doğrudan sohbet içinde gösterdiğinden, görsel CAD çalışmalarında referansların gerçekten kullanılıp kullanılmadığını doğrulamak kolaydı
Cursor Agent ve Claude Code CLI da görsel kullanabiliyordu, ancak işleme sırasında görsel bağlam daha az açık biçimde görünüyordu
Test edilen tüm sistemler yerel OpenSCAD araç zincirini kullanabildi ve macOS PATH içindeki OpenSCAD’i çağırarak PNG önizlemeleri render etti
Darboğaz araç erişimi değil, geometri değerlendirmesi, kamera ayarı ve önizleme modelinin temiz bir nihai mesh olarak dışa aktarılıp aktarılamamasıydı
Codex, referans görselleri, OpenSCAD dosya düzenlemelerini ve üretilen önizlemeleri aynı iş parçacığında göstererek yineleme sürecini takip etmeyi kolaylaştırdı
Benchmark yayımlandıktan sonra Codex çatı ve entablatur dışa aktarma sorunlarını düzeltmeye çalıştı, ancak nihai karşılaştırma ilk gönderilen model temel alınarak yapıldı
Cursor, en hızlı etkileşim döngüsünü ve faydalı planlama/OpenSCAD kod paralel arayüzünü sundu, fakat çıktı kalitesi daha yavaş çalıştırmaların gerisinde kaldı
Claude Code, terminal odaklı biçimde görselleri okuyup OpenSCAD komutlarını yineledi, ancak modelin oluşum süreci daha az görseldi

Google Antigravity 2.0 / Gemini 3.5 Flash High

3D sonucu keşfet
Bu çalıştırma, Google’ın I/O 2026’da Antigravity 2.0’ı yayınlamasının ve Gemini 3.5 Flash’i 19 Mayıs 2026’da duyurmasının hemen ardından, 22 Mayıs 2026’da eklendi
Sonuç, bu benchmark’taki en iyi tam otonom model oldu ve Flash 3.5 için ilk sinyaller de olumluydu
Antigravity 2.0, planlama, görev yürütme ve önizleme özelliklerine sahip ajan öncelikli masaüstü uygulamasına daha yakındı; önceki IDE deneyimini isteyen kullanıcılar için sürüm düşürme veya eski uygulamaya sabitleme dışında sorunsuz bir geri dönüş yolu olmadığından, çıkış haftasında yoğun eleştiri aldı
Flash 3.5 High, referans görsellere yalnızca göz kararı bakmak yerine gerçek Pantheon parametrelerini araştırdı
Plan ve kod, rotunda, kubbe, portiko ve oculus için açık ölçüler kullandı ve bunları parametrik OpenSCAD değerlerine dönüştürdü
```
Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD.
```

Pantheon’un iç yapısını da göstermek için bir cutaway modu önerdi

To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`.

En güçlü detay tavandaydı

The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing.

Antigravity, otonom ajanlar arasında yalnızca oculus üzerinden görülen tekrar eden kare kasetli tavan desenini uyguladı
Dış görünümde, hızlı OpenSCAD çıktılarında çoğu zaman atlanan unsurlar da vardı
- gri ve kırmızı tonları karışan sütun malzemesi
- okunabilir yazıt
- kademeli çatı halkaları
- rotunda, orta blok, portiko ve kubbe arasındaki geniş ölçekli ilişki
Kalite puanı 4.5/5, hız puanı 1/5 oldu
Hızlı değildi ama bu benchmark’ta otonom üretimin üst sınırını yukarı taşıdı ve Flash 3.5’in planlama, render, inceleme ve düzeltme araçlarıyla birleştiğinde uzamsal kod üretiminde umut verici göründüğünü gösterdi

ModelRift / Gemini Flash 3.0

3D sonucu keşfet
Bu sonuç, ModelRift ve Gemini Flash 3.0 kullanılan bir human-in-the-loop süreçle üretildi; ilk dört çalıştırmadaki gibi otonom tek geçişli bir benchmark değildi
İş akışı yaklaşık 10 dakika sürdü ve Claude Code süresinin yaklaşık 2 katı olduğundan aynı 1/5 hız puanını aldı
Bu benchmark, Gemini 3.5 Flash’in duyurulmasının hemen ardından 21 Mayıs 2026’da çalıştırıldı
Antigravity sonucu, 3.5 Flash’in güçlü olduğunu gösterdi ancak ModelRift’in varsayılan model seçiminde kaliteyle birlikte maliyet ve gecikme de hesaba katılmak zorunda
Google’ın Gemini API fiyatlandırması, Gemini 3.5 Flash standart fiyatını 1 milyon giriş tokenı başına 1.50 dolar ve 1 milyon çıkış tokenı başına 9.00 dolar; Gemini 3 Flash’i ise giriş için 0.50 dolar ve çıkış için 3.00 dolar olarak veriyor
Gemini 3.5 Flash, önceki Flash nesline göre 3 kat maliyet artışı anlamına geliyor ve daha eski Gemini 1.5 Flash döneminin maliyet seviyelerinden de belirgin biçimde yüksek
Kalite 3.8/5 ile önceki otonom çalıştırma grubundan daha iyiydi
Model kusursuz değildi ama portiko, sütun yerleşimi, çatı, kubbe kaburgaları ve genel kütle daha tutarlıydı
Temel fark, mevcut render’ın üstüne doğrudan görsel geri bildirim eklenebilmesiydi
ModelRift iş akışı; model üretme, tarayıcıda inceleme, render üzerine görsel notlar yazma ve yapay zekadan OpenSCAD değişiklikleri isteme döngüsü için tasarlandı
Uzamsal CAD çalışmalarında bu döngü, yalnızca metinle talimat vermeye kıyasla çok daha hassas

Başlıca otonom çalıştırma sonuçları

Codex 5.5 High
- 3D sonucu keşfet
- Codex 5.5 High, en yoğun detaylı modeli üretti
- İçerdiği unsurlar rotunda, kubbe kaburgaları, oculus, katmanlı taş bantlar, ön portiko, sütunlar, çevre kaide detayları ve entablatur metniydi
- Entablaturda M AGRIPPA L F COS TERTIVM FECIT yer aldı
- OpenSCAD’de metin, yerleştirme, extrude etme, yön verme ve ince kalınlık koruma gerektirdiğinden modelleme açısından zor bir unsurdur
- Yinelemeler sırasında render önizlemeleri, son dışa aktarılan STL’den daha iyi görünüyordu
- Nihai sonuçta, entablatur ve portiko çatı bölgesinde sorunlu tavan benzeri yüzeyler oluştu ve bu da ön cephe birleşiminin algısını değiştirdi
- Codex, güçlü uzamsal akıl yürütme ve yüksek detay denemesi gösterdi ama aynı zamanda önizleme doğruluğunun nihai mesh doğruluğuyla aynı olmadığını da ortaya koydu
- Değerlendirme yayımlanan STL yerine en iyi PNG önizlemeye göre yapılsaydı, yapı ve detay seviyesi bakımından Antigravity 2.0’ın hemen altında yer alabilirdi
- 3.0/5 puanında, modelin tasarım niyetinden çok nihai dışa aktarma ve render tutarsızlığı cezası etkili oldu
Claude Sonnet
- 3D sonucu keşfet
- Claude Sonnet, mevcut otonom çalıştırmalar içinde en temiz modeli üretti
- Codex kadar ince detay denemedi ama silüeti daha temizdi ve ana mimari bileşenler daha doğal biçimde birleşiyordu
- Kubbe, tambur, portiko ve sütun düzeni, yan yana primitive’ler toplamı değil tek bir yapı gibi okunuyordu
- Oranlar daha kontrollüydü ve Antigravity çalıştırmasından önce en güçlü tam otonom sonuç buydu
- Claude Code, bu benchmark’ta Codex’ten yaklaşık 2–3 kat daha yavaştı ve Sonnet iyi kaliteye rağmen en düşük zaman puanını aldı
- Kalite puanı 3.4/5’ti; yani hâlâ üretim kalitesinde mimari rekonstrüksiyon değil, yaklaşık bir model seviyesindeydi
Cursor Composer
- 3D sonucu keşfet
- Cursor ve Composer 2.5 kombinasyonu en hızlı çalıştırma oldu ama sonuç en zayıf olanıydı
- Rotunda, kubbe, portiko ve sütunlar gibi büyük jestleri doğru yakaladı
- Ancak Pantheon’u tanınır kılan malzeme sadeliğini ve mimari nüansı kaçırdı
- Çıktı, tamamlanmış bir modelden çok basitleştirilmiş bir placeholder’a yakındı ve yayımlanmadan önce ciddi yeniden çalışma gerektiriyordu
Claude Opus
- 3D sonucu keşfet
- Claude Opus, Cursor ile Sonnet arasında konumlandı
- Cursor’dan daha tamamlanmış bir yapı üretti ve portiko ile kademeli kaide daha netti
- Ancak çıktı fazla tekdüzeydi ve Sonnet kadar ikna edici değildi
- Yapısal iskelet vardı ama görsel hiyerarşi değerlendirmesi eksikti
- Neredeyse tüm unsurların rengi ve ağırlığı aynı olduğundan, detaylar bakışı yönlendirmek yerine birbiriyle yarışıyordu
- Güncellenmiş puanı 3.0/5 oldu; ilk tablo sürümüne göre daha yüksek değerlendirilmeyi hak etse de Sonnet ve Antigravity’nin gerisinde kaldı

Temel dersler

OpenSCAD hedef dil olarak iyi dayandı
- Sözdizimi küçüktü, çıktı deterministikti ve CLI yineleme döngüsünde denetlenebilir önizlemeler render ediyordu
- LLM’lerin OpenSCAD kullanmak için özel bir desteğe ihtiyacı olmadı
Araç kullanımı darboğaz değildi
- Tüm ajanlar macOS PATH içindeki OpenSCAD’i çağırıp PNG önizlemeleri render edebildi
- Zor kısım boru hattı değil geometri değerlendirmesiydi
Hız, kaliteyi öngörmedi
- Cursor en hızlıydı ama en zayıf sonucu verdi
- Sonnet mevcut otonom çalıştırmalar içinde en uzun süreniydi ama en temiz modeli üretti
- Antigravity de yavaştı ama Gemini 3.5 Flash High planlama ve yineleme süresi kazandıktan sonra en iyi otonom sonucu verdi
- ModelRift/Gemini Flash 3.0 daha uzun sürdü ama görsel geri bildirim sayesinde önceki otonom gruptan daha yüksek kaliteye ulaştı
Önizleme ile dışa aktarma aynı şey değil
- Codex, render döngüsünde güçlü görünse de nihai STL’de portiko çatısı çevresinde geometri sorunları yaşadı
- Baskıya gidecek modeller için yalnızca önizleme değil dışa aktarılan mesh de ayrıca incelenmeli
Hiçbir çıktı gerçekten aslına sadık bir mimari model sayılacak seviyede değildi
- Codex’in yazıtı iyi bir detaydı
- Sonnet’in oranları tutarlıydı
- Antigravity’nin kasetli tavanı en şaşırtıcı detaydı
- ModelRift/Gemini Flash 3.0 sonucu, insanın görsel olarak ayar yaptığı durumda kalitenin nasıl yükseldiğini gösterdi
Yalnızca iki referans görsel ve kısa bir prompt ile tüm sistemler, CAD kodunu elle doğrudan yazmadan geçerli ve render edilebilir OpenSCAD çıktısına ulaştı
Araçlar arasındaki kalite farkı büyüktü, ancak başlangıç çizgisi beklenenden yüksekti
Tam otonom üretim, bu tür işler için henüz doğru iş akışı değil
- ModelRift hâlâ yinelemeli çalışmalarda Annotation Mode kullanıyor
- Yöntem, 3D model ekran görüntülerinin üzerine oklar ve notlar çizip bunları tekrar yapay zekaya vermeye dayanıyor
- Uzamsal geometride, en iyi modeli kullansanız bile human-in-the-loop aşaması önemli kalıyor
- Model büyük kütleleri doğru kurarken sütun konumlarını ya da kubbe oranlarını yanlış yapabiliyor
- Sorunları render üzerinde doğrudan işaretlemek, metinle anlatmaktan daha hızlı ve daha doğru

2 yorum

xguru 29 일 전

Kişisel projelerimden birinde Codex ile GPT 5.4'te OpenSCAD'in biraz zorlandığını gördüğüm için model daha iyi hale gelene kadar beklemiştim, sanırım yeniden denemem gerekecek.

GN⁺ 2026-05-23

Hacker News görüşleri

Geçen hafta eşime Marketplace'ten bir bisiklet aldım; durumu iyiydi ama iç kablo yönlendirme lastik tapasından biri eksikti
Hap şeklindeki deliğin fotoğrafını tek başına ve bir de dijital kumpasla uzun ve kısa yönleri ölçtüğüm fotoğrafla birlikte Claude'a verdim; çok kısa bir promptla tüm ölçüleri parametreleştirilmiş bir OpenSCAD modeli oluşturdu
TPU ile hiçbir düzeltme yapmadan bastım ve ilk denemede neredeyse kusursuzdu; Claude'un x/y ölçülerinden 0.3 mm çıkarmış olduğunu 0.1 mm'ye indirince tam oturdu. Antik Roma mimarisinden çok daha basit bir şekil ama bunun bu kadar kolay çalışması yine de etkileyici
- CAD, benim için giriş eşiği yüksek olduğu için uzak durduğum bir teknolojiye örnekti; şimdi ise en azından idare eder seviyede basit işleri yapabiliyormuşum gibi geliyor
  OpenSCAD ve LLM ile 3D yazıcı için basit işlevsel parçalar üretme deneyimim de benzerdi; modellerin React kodu üretimi kadar iyi olmadığını da biliyorum ve ben de yetkin bir kullanıcıyla tam ters uçtayım. Yine de hobi düzeyinde yeni bir teknoloji öğrenmeye başlamamı sağlaması güzel
- Claude, tüm ölçüleri verirsen iyi iş çıkarıyor ama tahmin konusunda pek başarılı değil
  Asıl sihir, tek bir ölçü ya da üzerinde cetvel olan tek bir fotoğraf verdiğinde AI'ın gerisini çıkardığı an olurdu; en azından şu an Claude tahmin işinde epey zayıf
- Yakın zamanda modellere 3D fal kurabiyesi yaptırmayı denedim; Claude three.js ile, Gemini ise OpenSCAD ile denedi ama ikisi de kavramı gerçekten oturtamadı ve yakınına bile gelemedi. Görünüşe göre beklenmedik derecede karmaşık bir şekil
- Bu tür küçük işlevsel çıktılar, OpenSCAD ile LLM üretiminin parladığı alan tam da burası
- Destek gerektirmeyecek şekilde optimize ediyor mu?
“Antigravity, Pantheon'un ikonik iç tavan desenini, yani oculustan görülen tekrarlı kare kasetli tavanı uygulayan tek otonom ajandı” ifadesi gerçekten etkileyici
3D modeli görmüş olmama rağmen bu cümleyi okuyana kadar binanın içini görmeyi düşünmemiştim bile
show_cutaway açık 3D model burada: https://modelrift.com/models/pantheon-benchmark-antigravity-...
- Modeli üretmek için promptta açıkça yer almayan harici bilgilerin kullanılmasının iyi mi kötü mü olduğuna karar veremiyorum
  “Pantheon” istiyorsan bu açıkça doğru davranış ama bir teknik ressam ya da mühendis için böyle bir çıktıyı kabul etmek zor olurdu gibi geliyor
- İçeriye tesadüfen baktım ve dışarıdan çok zeka ve emek hissi verdi
Antigravity hangi benchmarkta birinci oldu bilmiyorum ama Gemini CLI'ın yerine zorla geçirilen benim Antigravity sürümüm her kullanımda tarayıcı girişi istiyor ve Antigravity IDE de hiç güncellenmiyor
Mümkünse bir şeyde birinciliği dert etmeden önce temelde kabul edilebilir bir dağıtım kalitesi sunsalar keşke
Asıl başlık “OpenSCAD LLM Benchmark: Building the Pantheon”
- Katılıyorum. Google AI ürünlerinde beni en çok kaygılandıran şey; giriş, ödeme, yükseltme ve ürün kapatma etrafındaki bitmeyen kullanıcı deneyimi eziyeti
  Yine de LLM modellerinin kendisi iyi ve Antigravity 2.0 da o kadar kötü değil. Ama pek çok kişi gibi Antigravity 1.0 ayarlarını ve projelerini kaybettiysen durum değişiyor
- Google I/O'yu izledikten sonra Google'ın uygulama becerisine güvenim daha da azaldı
  Gemini 3.5 Flash tuhaf. Cutoff'u eski, bazı yönlerden 3.1 Pro'dan daha iyi ama başka yönlerden daha kötü ve bazen daha ucuzken bazen 3.1 Pro'dan daha pahalı
  Antigravity terk edilmiş gibi görünüyordu ve insanlar kapatılacağını düşünüyordu; aslında herkesi yeni Antigravity'ye taşıyarak bir bakıma öyle de oldu
  Google sanki organizasyon şemasını olduğu gibi ürün diye piyasaya sürüyor; çok fazla AI ürünü var ama hiçbiri sınıfının en iyisi gibi görünmüyor. Örneğin Google Docs'taki Gemini entegrasyonu Claude'dan daha kötü
  Beklediğim şey “Haiku maliyetinde Opus düzeyi zeka” ya da “Gemini 3.0 fiyatında Sonnet düzeyi performans” veren bir modeldi. Bunlardan sadece biri bile gelse ana model ve Claude/Codex rakibi olurdu ama ikisini de alamadık
- Claude Code ve IntelliJ kullandığım için, insanların Antigravity'nin VS Code'u bırakmasından neden bu kadar şikayet ettiğini pek anlamıyorum
  Antigravity CLI + VS Code ya da başka bir IDE kombinasyonunun karşılayamadığı şeyin ne olduğunu merak ediyorum
- Beğendiğim ve bazı açılardan Claude Code'dan daha iyi bulduğum Gemini CLI'dan zorunlu yükseltme ile geçirilmek de kötüydü
  Ama çarşamba gönderilen e-posta “Google One AI Pro aboneliğin için teşekkürler, artık hesabına kısıtlamalar ekliyoruz. Yapacak bir şey yok” tonundaydı ve gerçekten iticiydi. Daha önce AI Pro aboneliğini fiyat/performans açısından övmüştüm
- Antigravity'yi sevmeme rağmen benimsemememin başlıca nedeni iş akışını bozması
  Google'ın yatırım yapıyor olması sevindirici ama yaşlandıkça iş akışımı daha çok korur oldum
OpenSCAD için her türlü model ve ayarda çok sayıda benchmark koşturdum ve vardığım sonuç şu
Modeller tutarsız; bazı 3D model türlerinde çok iyiyken bazılarında olmayabiliyorlar
Benim deneyimime göre Gemini modelleri en az tutarsız olanlar ve görsel anlama konusunda en iyilerdi
Gemini modelleri aynı zamanda en yaratıcı olanlar ama hassas CAD parçaları istiyorsan bu aslında istenmeyen bir özellik olabilir
Genel olarak bu benchmark fazla bir şey kanıtlamıyor. Çünkü tek bir 3D model ve tek bir deneme yeterli değil. Ben genelde en az 12 modeli üçer kez üretip test ediyorum ama aslında çok daha fazlası gerekir. Ne var ki bireysel geliştirici için maliyet çok yüksek
Yine de bunu yayımladıkları için teşekkürler; Flash 3.5'in ne yaptığını yakında ben de deneyeceğim
- OpenSCAD'in eğrileri işleyemediği için kullanışsız olduğunu düşünüyorum. Neden hâlâ bu kadar ilgi gördüğünü anlamıyorum
LLM'leri geçerli 3D CAD modelleri üretebilme yeteneğine göre değerlendirmek ilginç bir benchmark
OpenSCAD tamamen koda dayandığı için bu tür bir değerlendirmeye özellikle uygun
Bizzat denediğinizde deneyim oldukça kötüydü. İlk denemede bir dereceye kadar fena olmayan bir taslak çıkabiliyor ama onu “debug” etmeye başlayınca çok sinir bozucu bir oturumun sonunda modelin sonucu düzgün şekilde “göremediğini” fark ediyorsunuz
Yani iteratif iyileştirme hiç yapılamıyor
Çoğu yürütme aracı ya da harness, görselleri işlemeden önce yeniden boyutlandırıyor ve bu süreçte özellikle wireframe görsellerde akıl yürütmeyi zorlaştıracak kadar ayrıntı kayboluyor gibi görünüyor
Belki ben yanlış kullanıyorumdur ama bu test bunu gerçekten sınamıyor. Sadece tek seferlik bir denemeydi ve bu yaklaşım çok hızlı çöküyor. Özellikle de yapmak istediğiniz şeyin referans fotoğrafı yoksa
Gerçek dünyadan tek bir nesne üretip buna benchmark demek, araçları değerlendirmek için sağlam bir yöntem değil
Iron Chef gibi, Yunan mimarisi teması verilip kazananın bir jüri tarafından belirlendiği bir format olmalı. Şu an yapılan şey, hangi aracın öznel olarak en inandırıcı Pantheon'u ürettiğine bakmaktan ibaret
- Bu bir benchmarktan çok “Ben bunu beğendim!”e benziyor
  Tekil ve düzgün tanımlanmamış bir örneği, son kullanıcı senaryosu bile olmadan tamamen öznel puanlama ölçütleriyle değerlendiriyor
Autodesk'i açığa satmak için henüz erken
Bu arada Autodesk aralık ayında Fusion için ajan tabanlı bir asistan çıkardı ama 6 ay sonra bile hâlâ oldukça kötü
- Neredeyse komik denecek kadar kötü
  Son birkaç haftadır 3D baskı için birkaç basit parça tasarlamam gerektiği için kullandım; her biri zaman çizelgesinde yaklaşık 4 işlem gerektirecek düzeydeydi ama Fusion terminolojisine uygun şekilde adım adım ayrıntılı anlatsam bile istediğime yakın bir şey üretemedi
  Şu anda basit temel katıları bile düzgün yapabildiğinden emin değilim
- Geçen ay çıkan Fusion MCP'yi denedin mi? https://aps.autodesk.com/blog/bringing-fusion-claude-creativ...
- Henüz gidilecek çok yol var ama sonunda oraya varacağını düşünüyorum
Bana çok ikna edici gelmiyor. Pantheon tarihin en ikonik yapılarından biri; hakkında çok sayıda kitap var ve eğitim için kullanılmış mevcut fotoğraf ve açık model de bolca bulunuyor
Sağlanan referanslara dayanarak anonim bir yapıyı modellemeye yönelik bir benchmark daha ilginç olurdu. Bir LLM'nin tek seferde yapılacaklar uygulaması üretmesini izlemek gibi yüzeysel bir sihir numarası hissi veriyor
Ebeveynlik için bir teknoloji cihazı yapıyorum ve dış kasası tamamen AI tarafından üretildi
3D modellemeye nereden başlayacağımı hiç bilmiyordum ama LLM bunun da diğerleri gibi kod olduğunu gösterdi
Garip şekilde Opus 4.5 bunu tek seferde kusursuz yaptı; bu performans düşüşü tartışmalarından hemen önceydi ve o zamandan beri kasada en küçük değişikliği yapmak bile çok zorlaştı
Sanki Opus, şekilleri zihninde profesyonelce döndürebilen bir modelden, neyle uğraştığını bile bilmeyen bir modele dönüştü
- Benim kasam da benzerdi: https://quill.lorehex.co/feather
  Yalnız 4.7, düzeltme işlerinde fena değildi