Antigravity 2.0, OpenSCAD mimari 3D LLM benchmark’ında 1. sırada
(modelrift.com)- OpenSCAD Pantheon benchmark’ı, yalnızca iki referans görsel ve kısa bir prompt ile yapay zeka kodlama araçlarının bir yapıyı parametrik CAD kodu olarak üretip üretemediğini test ediyor
- Google Antigravity 2.0 / Gemini 3.5 Flash High, 4.5/5 kalite puanıyla en yüksek skoru aldı; gerçek Pantheon ölçülerini, yazıtını ve içteki kasetli tavan desenini bile uyguladı
- Codex 5.5 High, yüksek detay yoğunluğu gösterdi ancak PNG önizleme ile nihai STL arasındaki tutarsızlık nedeniyle puan kaybetti; Sonnet ise mevcut otonom çalıştırmalar içinde en temiz modeli üretti
- Cursor en hızlısıydı ama kalite olarak en düşüktü; ModelRift/Gemini Flash 3.0 ise görsel geri bildirim eklenen human-in-the-loop yaklaşımıyla 3.8/5 seviyesine ulaştı
- Tüm sistemler OpenSCAD CLI ile render alma aşamasını tamamladı, ancak darboğaz araç erişimi değil geometri değerlendirmesi ve nihai mesh doğrulamasıydı
Benchmark’ın amacı ve görev
- ModelRift tüm 3D modeller için OpenSCAD kodu ürettiğinden, LLM’lerin uzamsal geometriyi işleme becerisi doğrudan gerçek model kalitesine bağlanıyor
- Bu test, birden fazla yapay zeka kodlama aracına aynı görevi verip referans görseller ve kısa bir prompt temelinde Pantheon’u OpenSCAD ile üretmelerini isteyen küçük ölçekli, pratik bir benchmark’tı
- Amaç, mimari referans materyalini parametrik CAD koduna dönüştürme, OpenSCAD CLI ile PNG önizlemeleri render etme ve yinelemeli biçimde iyileştirme yeteneğini görmekti
- Prompt, Pantheon’un rotundasını, kubbesini, portikosunu, sütunlarını, üçgen alınlığını ve ön cephe detaylarını içermesini istiyordu
see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI (available) to preview your work (by rendering openscad model to .png) and iterate until you are happy with the result.
Neden Pantheon ve OpenSCAD seçildi
- Pantheon, basit
difference(),cube(),cylinder()sözdizimi testlerini aşan bir görevdi ama OpenSCAD’in zorlandığı organik heykeller veya karakter benzeri geometriler de değildi - Ana yapı dairesel rotunda ve kubbe, merkezi oculus, doğrusal portiko, sütunlar, kademeli kaide ve üçgen alınlıktan oluştuğu için sonuç farklarını karşılaştırmaya uygundu
- Zayıf sonuçlar bile kubbeli bir bina gibi görünebilir, ancak iyi sonuçların yuvarlak tambur, dikdörtgen portiko, kubbe halkaları ve ön cephe ilişkisini daha doğru kurması gerekiyordu
- OpenSCAD, modelin düz metin kod olması ve söz varlığının küçük kalması nedeniyle LLM üretimli geometri için uygun bir hedefti
- “Yarıçap boyunca 28 sütunu tekrar et” ya da “kubbeden oculus çıkar” gibi talimatlar doğrudan kaynak kodla ifade edilebiliyor
- Çıktılar incelenebilir, yeniden üretilebilir ve kolay düzenlenebilir olduğundan, sütun aralığı hataları gizli sahne durumlarıyla değil parametre veya döngü değişiklikleriyle düzeltilebiliyor
- ModelRift’in neden OpenSCAD üzerine kurulduğu Why we built ModelRift on OpenSCAD yazısında anlatılıyor
- Dezavantajı, OpenSCAD’in bir heykel aracı olmaması; en iyi şekilde bileşensel, parametrik ve hard-surface nesnelere uyması
Genel sonuçlar
- Puanlar bu benchmark içindeki göreli değerlendirmeyi gösteriyor; genel model sıralaması değil
- Zaman puanı, projenin yayın saatini değil gözlemlenen uygulama süresini yansıtıyor
- Kalite puanları muhafazakâr verildi ve en iyi sonuçlar bile kusursuz bir Pantheon modeline yaklaşmıyordu
- Araç ve modellere göre sonuçlar:
- Cursor 3.5 / Composer 2.5: zaman 5/5, kalite 1.4/5. En hızlıydı ama en zayıf sonuçtu; kubbe ve portikonun ana formu dışında oranlar, renk kontrolü ve mimari detaylar yetersizdi
- Codex 5.5 High: zaman 4/5, kalite 3.0/5. Entablatur yazıtını bile ekleyecek kadar detaylıydı, ancak nihai STL PNG önizlemeden farklı çıktığı için puan kaybetti
- Claude Code 2.1 / Opus 4.7: zaman 2/5, kalite 3.0/5. Cursor’dan daha net bir yapı, portiko ve kademeli kaide sundu ama renkler fazla tekdüzeydi ve güçlü sonuçlar kadar ikna edici değildi
- Claude Code 2.1 / Sonnet 4.6: zaman 1/5, kalite 3.4/5. Mevcut otonom çalıştırmalar içinde en inandırıcı genel izlenimi ve dengeli oranları verdi, ancak uygulama süresi en uzundu
- Google Antigravity 2.0 / Gemini 3.5 Flash High: zaman 1/5, kalite 4.5/5. Gerçek Pantheon ölçülerini ve yazıtını kullandı; ayrıca otonom ajanlar içinde içteki kasetli tavan desenini uygulayan tek sistem oldu
- ModelRift / Gemini Flash 3.0: zaman 1/5, kalite 3.8/5. ModelRift’in yinelemeli anotasyon iş akışını kullanan otonom olmayan sonuçlar içinde en iyisiydi ve Claude Code’a kıyasla yaklaşık 2 kat daha uzun sürdü
İş akışı gözlemleri
- İstemci iş akışı, modelin kendisi kadar önemliydi
- Codex Desktop, LLM’in bağlama aldığı görselleri doğrudan sohbet içinde gösterdiğinden, görsel CAD çalışmalarında referansların gerçekten kullanılıp kullanılmadığını doğrulamak kolaydı
- Cursor Agent ve Claude Code CLI da görsel kullanabiliyordu, ancak işleme sırasında görsel bağlam daha az açık biçimde görünüyordu
- Test edilen tüm sistemler yerel OpenSCAD araç zincirini kullanabildi ve macOS
PATHiçindeki OpenSCAD’i çağırarak PNG önizlemeleri render etti - Darboğaz araç erişimi değil, geometri değerlendirmesi, kamera ayarı ve önizleme modelinin temiz bir nihai mesh olarak dışa aktarılıp aktarılamamasıydı
- Codex, referans görselleri, OpenSCAD dosya düzenlemelerini ve üretilen önizlemeleri aynı iş parçacığında göstererek yineleme sürecini takip etmeyi kolaylaştırdı
- Benchmark yayımlandıktan sonra Codex çatı ve entablatur dışa aktarma sorunlarını düzeltmeye çalıştı, ancak nihai karşılaştırma ilk gönderilen model temel alınarak yapıldı
- Cursor, en hızlı etkileşim döngüsünü ve faydalı planlama/OpenSCAD kod paralel arayüzünü sundu, fakat çıktı kalitesi daha yavaş çalıştırmaların gerisinde kaldı
- Claude Code, terminal odaklı biçimde görselleri okuyup OpenSCAD komutlarını yineledi, ancak modelin oluşum süreci daha az görseldi
Google Antigravity 2.0 / Gemini 3.5 Flash High
- 3D sonucu keşfet
- Bu çalıştırma, Google’ın I/O 2026’da Antigravity 2.0’ı yayınlamasının ve Gemini 3.5 Flash’i 19 Mayıs 2026’da duyurmasının hemen ardından, 22 Mayıs 2026’da eklendi
- Sonuç, bu benchmark’taki en iyi tam otonom model oldu ve Flash 3.5 için ilk sinyaller de olumluydu
- Antigravity 2.0, planlama, görev yürütme ve önizleme özelliklerine sahip ajan öncelikli masaüstü uygulamasına daha yakındı; önceki IDE deneyimini isteyen kullanıcılar için sürüm düşürme veya eski uygulamaya sabitleme dışında sorunsuz bir geri dönüş yolu olmadığından, çıkış haftasında yoğun eleştiri aldı
- Flash 3.5 High, referans görsellere yalnızca göz kararı bakmak yerine gerçek Pantheon parametrelerini araştırdı
- Plan ve kod, rotunda, kubbe, portiko ve oculus için açık ölçüler kullandı ve bunları parametrik OpenSCAD değerlerine dönüştürdü
Implement a detailed, visually stunning, and dimensionally accurate 3D model of the Pantheon in Rome using OpenSCAD. - Pantheon’un iç yapısını da göstermek için bir cutaway modu önerdi
To showcase both the exterior (stepped rings, portico) and the interior (coffers, niches, perfect spherical proportion), I will include a toggle in the code `show_cutaway = false;`. - En güçlü detay tavandaydı
The Pantheon dome interior has 5 rings of 28 coffers. Subtracting these mathematically in OpenSCAD is highly detailed and looks amazing. - Antigravity, otonom ajanlar arasında yalnızca oculus üzerinden görülen tekrar eden kare kasetli tavan desenini uyguladı
- Dış görünümde, hızlı OpenSCAD çıktılarında çoğu zaman atlanan unsurlar da vardı
- gri ve kırmızı tonları karışan sütun malzemesi
- okunabilir yazıt
- kademeli çatı halkaları
- rotunda, orta blok, portiko ve kubbe arasındaki geniş ölçekli ilişki
- Kalite puanı 4.5/5, hız puanı 1/5 oldu
- Hızlı değildi ama bu benchmark’ta otonom üretimin üst sınırını yukarı taşıdı ve Flash 3.5’in planlama, render, inceleme ve düzeltme araçlarıyla birleştiğinde uzamsal kod üretiminde umut verici göründüğünü gösterdi
ModelRift / Gemini Flash 3.0
- 3D sonucu keşfet
- Bu sonuç, ModelRift ve Gemini Flash 3.0 kullanılan bir human-in-the-loop süreçle üretildi; ilk dört çalıştırmadaki gibi otonom tek geçişli bir benchmark değildi
- İş akışı yaklaşık 10 dakika sürdü ve Claude Code süresinin yaklaşık 2 katı olduğundan aynı 1/5 hız puanını aldı
- Bu benchmark, Gemini 3.5 Flash’in duyurulmasının hemen ardından 21 Mayıs 2026’da çalıştırıldı
- Antigravity sonucu, 3.5 Flash’in güçlü olduğunu gösterdi ancak ModelRift’in varsayılan model seçiminde kaliteyle birlikte maliyet ve gecikme de hesaba katılmak zorunda
- Google’ın Gemini API fiyatlandırması, Gemini 3.5 Flash standart fiyatını 1 milyon giriş tokenı başına 1.50 dolar ve 1 milyon çıkış tokenı başına 9.00 dolar; Gemini 3 Flash’i ise giriş için 0.50 dolar ve çıkış için 3.00 dolar olarak veriyor
- Gemini 3.5 Flash, önceki Flash nesline göre 3 kat maliyet artışı anlamına geliyor ve daha eski Gemini 1.5 Flash döneminin maliyet seviyelerinden de belirgin biçimde yüksek
- Kalite 3.8/5 ile önceki otonom çalıştırma grubundan daha iyiydi
- Model kusursuz değildi ama portiko, sütun yerleşimi, çatı, kubbe kaburgaları ve genel kütle daha tutarlıydı
- Temel fark, mevcut render’ın üstüne doğrudan görsel geri bildirim eklenebilmesiydi
- ModelRift iş akışı; model üretme, tarayıcıda inceleme, render üzerine görsel notlar yazma ve yapay zekadan OpenSCAD değişiklikleri isteme döngüsü için tasarlandı
- Uzamsal CAD çalışmalarında bu döngü, yalnızca metinle talimat vermeye kıyasla çok daha hassas
Başlıca otonom çalıştırma sonuçları
-
Codex 5.5 High
- 3D sonucu keşfet
- Codex 5.5 High, en yoğun detaylı modeli üretti
- İçerdiği unsurlar rotunda, kubbe kaburgaları, oculus, katmanlı taş bantlar, ön portiko, sütunlar, çevre kaide detayları ve entablatur metniydi
- Entablaturda
M AGRIPPA L F COS TERTIVM FECITyer aldı - OpenSCAD’de metin, yerleştirme, extrude etme, yön verme ve ince kalınlık koruma gerektirdiğinden modelleme açısından zor bir unsurdur
- Yinelemeler sırasında render önizlemeleri, son dışa aktarılan STL’den daha iyi görünüyordu
- Nihai sonuçta, entablatur ve portiko çatı bölgesinde sorunlu tavan benzeri yüzeyler oluştu ve bu da ön cephe birleşiminin algısını değiştirdi
- Codex, güçlü uzamsal akıl yürütme ve yüksek detay denemesi gösterdi ama aynı zamanda önizleme doğruluğunun nihai mesh doğruluğuyla aynı olmadığını da ortaya koydu
- Değerlendirme yayımlanan STL yerine en iyi PNG önizlemeye göre yapılsaydı, yapı ve detay seviyesi bakımından Antigravity 2.0’ın hemen altında yer alabilirdi
- 3.0/5 puanında, modelin tasarım niyetinden çok nihai dışa aktarma ve render tutarsızlığı cezası etkili oldu
-
Claude Sonnet
- 3D sonucu keşfet
- Claude Sonnet, mevcut otonom çalıştırmalar içinde en temiz modeli üretti
- Codex kadar ince detay denemedi ama silüeti daha temizdi ve ana mimari bileşenler daha doğal biçimde birleşiyordu
- Kubbe, tambur, portiko ve sütun düzeni, yan yana primitive’ler toplamı değil tek bir yapı gibi okunuyordu
- Oranlar daha kontrollüydü ve Antigravity çalıştırmasından önce en güçlü tam otonom sonuç buydu
- Claude Code, bu benchmark’ta Codex’ten yaklaşık 2–3 kat daha yavaştı ve Sonnet iyi kaliteye rağmen en düşük zaman puanını aldı
- Kalite puanı 3.4/5’ti; yani hâlâ üretim kalitesinde mimari rekonstrüksiyon değil, yaklaşık bir model seviyesindeydi
-
Cursor Composer
- 3D sonucu keşfet
- Cursor ve Composer 2.5 kombinasyonu en hızlı çalıştırma oldu ama sonuç en zayıf olanıydı
- Rotunda, kubbe, portiko ve sütunlar gibi büyük jestleri doğru yakaladı
- Ancak Pantheon’u tanınır kılan malzeme sadeliğini ve mimari nüansı kaçırdı
- Çıktı, tamamlanmış bir modelden çok basitleştirilmiş bir placeholder’a yakındı ve yayımlanmadan önce ciddi yeniden çalışma gerektiriyordu
-
Claude Opus
- 3D sonucu keşfet
- Claude Opus, Cursor ile Sonnet arasında konumlandı
- Cursor’dan daha tamamlanmış bir yapı üretti ve portiko ile kademeli kaide daha netti
- Ancak çıktı fazla tekdüzeydi ve Sonnet kadar ikna edici değildi
- Yapısal iskelet vardı ama görsel hiyerarşi değerlendirmesi eksikti
- Neredeyse tüm unsurların rengi ve ağırlığı aynı olduğundan, detaylar bakışı yönlendirmek yerine birbiriyle yarışıyordu
- Güncellenmiş puanı 3.0/5 oldu; ilk tablo sürümüne göre daha yüksek değerlendirilmeyi hak etse de Sonnet ve Antigravity’nin gerisinde kaldı
Temel dersler
- OpenSCAD hedef dil olarak iyi dayandı
- Sözdizimi küçüktü, çıktı deterministikti ve CLI yineleme döngüsünde denetlenebilir önizlemeler render ediyordu
- LLM’lerin OpenSCAD kullanmak için özel bir desteğe ihtiyacı olmadı
- Araç kullanımı darboğaz değildi
- Tüm ajanlar macOS
PATHiçindeki OpenSCAD’i çağırıp PNG önizlemeleri render edebildi - Zor kısım boru hattı değil geometri değerlendirmesiydi
- Tüm ajanlar macOS
- Hız, kaliteyi öngörmedi
- Cursor en hızlıydı ama en zayıf sonucu verdi
- Sonnet mevcut otonom çalıştırmalar içinde en uzun süreniydi ama en temiz modeli üretti
- Antigravity de yavaştı ama Gemini 3.5 Flash High planlama ve yineleme süresi kazandıktan sonra en iyi otonom sonucu verdi
- ModelRift/Gemini Flash 3.0 daha uzun sürdü ama görsel geri bildirim sayesinde önceki otonom gruptan daha yüksek kaliteye ulaştı
- Önizleme ile dışa aktarma aynı şey değil
- Codex, render döngüsünde güçlü görünse de nihai STL’de portiko çatısı çevresinde geometri sorunları yaşadı
- Baskıya gidecek modeller için yalnızca önizleme değil dışa aktarılan mesh de ayrıca incelenmeli
- Hiçbir çıktı gerçekten aslına sadık bir mimari model sayılacak seviyede değildi
- Codex’in yazıtı iyi bir detaydı
- Sonnet’in oranları tutarlıydı
- Antigravity’nin kasetli tavanı en şaşırtıcı detaydı
- ModelRift/Gemini Flash 3.0 sonucu, insanın görsel olarak ayar yaptığı durumda kalitenin nasıl yükseldiğini gösterdi
- Yalnızca iki referans görsel ve kısa bir prompt ile tüm sistemler, CAD kodunu elle doğrudan yazmadan geçerli ve render edilebilir OpenSCAD çıktısına ulaştı
- Araçlar arasındaki kalite farkı büyüktü, ancak başlangıç çizgisi beklenenden yüksekti
- Tam otonom üretim, bu tür işler için henüz doğru iş akışı değil
- ModelRift hâlâ yinelemeli çalışmalarda Annotation Mode kullanıyor
- Yöntem, 3D model ekran görüntülerinin üzerine oklar ve notlar çizip bunları tekrar yapay zekaya vermeye dayanıyor
- Uzamsal geometride, en iyi modeli kullansanız bile human-in-the-loop aşaması önemli kalıyor
- Model büyük kütleleri doğru kurarken sütun konumlarını ya da kubbe oranlarını yanlış yapabiliyor
- Sorunları render üzerinde doğrudan işaretlemek, metinle anlatmaktan daha hızlı ve daha doğru
1 yorum
Hacker News görüşleri
Geçen hafta eşime Marketplace'ten bir bisiklet aldım; durumu iyiydi ama iç kablo yönlendirme lastik tapasından biri eksikti
Hap şeklindeki deliğin fotoğrafını tek başına ve bir de dijital kumpasla uzun ve kısa yönleri ölçtüğüm fotoğrafla birlikte Claude'a verdim; çok kısa bir promptla tüm ölçüleri parametreleştirilmiş bir OpenSCAD modeli oluşturdu
TPU ile hiçbir düzeltme yapmadan bastım ve ilk denemede neredeyse kusursuzdu; Claude'un x/y ölçülerinden 0.3 mm çıkarmış olduğunu 0.1 mm'ye indirince tam oturdu. Antik Roma mimarisinden çok daha basit bir şekil ama bunun bu kadar kolay çalışması yine de etkileyici
OpenSCAD ve LLM ile 3D yazıcı için basit işlevsel parçalar üretme deneyimim de benzerdi; modellerin React kodu üretimi kadar iyi olmadığını da biliyorum ve ben de yetkin bir kullanıcıyla tam ters uçtayım. Yine de hobi düzeyinde yeni bir teknoloji öğrenmeye başlamamı sağlaması güzel
Asıl sihir, tek bir ölçü ya da üzerinde cetvel olan tek bir fotoğraf verdiğinde AI'ın gerisini çıkardığı an olurdu; en azından şu an Claude tahmin işinde epey zayıf
“Antigravity, Pantheon'un ikonik iç tavan desenini, yani oculustan görülen tekrarlı kare kasetli tavanı uygulayan tek otonom ajandı” ifadesi gerçekten etkileyici
3D modeli görmüş olmama rağmen bu cümleyi okuyana kadar binanın içini görmeyi düşünmemiştim bile
show_cutawayaçık 3D model burada: https://modelrift.com/models/pantheon-benchmark-antigravity-...“Pantheon” istiyorsan bu açıkça doğru davranış ama bir teknik ressam ya da mühendis için böyle bir çıktıyı kabul etmek zor olurdu gibi geliyor
Antigravity hangi benchmarkta birinci oldu bilmiyorum ama Gemini CLI'ın yerine zorla geçirilen benim Antigravity sürümüm her kullanımda tarayıcı girişi istiyor ve Antigravity IDE de hiç güncellenmiyor
Mümkünse bir şeyde birinciliği dert etmeden önce temelde kabul edilebilir bir dağıtım kalitesi sunsalar keşke
Asıl başlık “OpenSCAD LLM Benchmark: Building the Pantheon”
Yine de LLM modellerinin kendisi iyi ve Antigravity 2.0 da o kadar kötü değil. Ama pek çok kişi gibi Antigravity 1.0 ayarlarını ve projelerini kaybettiysen durum değişiyor
Gemini 3.5 Flash tuhaf. Cutoff'u eski, bazı yönlerden 3.1 Pro'dan daha iyi ama başka yönlerden daha kötü ve bazen daha ucuzken bazen 3.1 Pro'dan daha pahalı
Antigravity terk edilmiş gibi görünüyordu ve insanlar kapatılacağını düşünüyordu; aslında herkesi yeni Antigravity'ye taşıyarak bir bakıma öyle de oldu
Google sanki organizasyon şemasını olduğu gibi ürün diye piyasaya sürüyor; çok fazla AI ürünü var ama hiçbiri sınıfının en iyisi gibi görünmüyor. Örneğin Google Docs'taki Gemini entegrasyonu Claude'dan daha kötü
Beklediğim şey “Haiku maliyetinde Opus düzeyi zeka” ya da “Gemini 3.0 fiyatında Sonnet düzeyi performans” veren bir modeldi. Bunlardan sadece biri bile gelse ana model ve Claude/Codex rakibi olurdu ama ikisini de alamadık
Antigravity CLI + VS Code ya da başka bir IDE kombinasyonunun karşılayamadığı şeyin ne olduğunu merak ediyorum
Ama çarşamba gönderilen e-posta “Google One AI Pro aboneliğin için teşekkürler, artık hesabına kısıtlamalar ekliyoruz. Yapacak bir şey yok” tonundaydı ve gerçekten iticiydi. Daha önce AI Pro aboneliğini fiyat/performans açısından övmüştüm
Google'ın yatırım yapıyor olması sevindirici ama yaşlandıkça iş akışımı daha çok korur oldum
OpenSCAD için her türlü model ve ayarda çok sayıda benchmark koşturdum ve vardığım sonuç şu
Modeller tutarsız; bazı 3D model türlerinde çok iyiyken bazılarında olmayabiliyorlar
Benim deneyimime göre Gemini modelleri en az tutarsız olanlar ve görsel anlama konusunda en iyilerdi
Gemini modelleri aynı zamanda en yaratıcı olanlar ama hassas CAD parçaları istiyorsan bu aslında istenmeyen bir özellik olabilir
Genel olarak bu benchmark fazla bir şey kanıtlamıyor. Çünkü tek bir 3D model ve tek bir deneme yeterli değil. Ben genelde en az 12 modeli üçer kez üretip test ediyorum ama aslında çok daha fazlası gerekir. Ne var ki bireysel geliştirici için maliyet çok yüksek
Yine de bunu yayımladıkları için teşekkürler; Flash 3.5'in ne yaptığını yakında ben de deneyeceğim
LLM'leri geçerli 3D CAD modelleri üretebilme yeteneğine göre değerlendirmek ilginç bir benchmark
OpenSCAD tamamen koda dayandığı için bu tür bir değerlendirmeye özellikle uygun
Bizzat denediğinizde deneyim oldukça kötüydü. İlk denemede bir dereceye kadar fena olmayan bir taslak çıkabiliyor ama onu “debug” etmeye başlayınca çok sinir bozucu bir oturumun sonunda modelin sonucu düzgün şekilde “göremediğini” fark ediyorsunuz
Yani iteratif iyileştirme hiç yapılamıyor
Çoğu yürütme aracı ya da harness, görselleri işlemeden önce yeniden boyutlandırıyor ve bu süreçte özellikle wireframe görsellerde akıl yürütmeyi zorlaştıracak kadar ayrıntı kayboluyor gibi görünüyor
Belki ben yanlış kullanıyorumdur ama bu test bunu gerçekten sınamıyor. Sadece tek seferlik bir denemeydi ve bu yaklaşım çok hızlı çöküyor. Özellikle de yapmak istediğiniz şeyin referans fotoğrafı yoksa
Gerçek dünyadan tek bir nesne üretip buna benchmark demek, araçları değerlendirmek için sağlam bir yöntem değil
Iron Chef gibi, Yunan mimarisi teması verilip kazananın bir jüri tarafından belirlendiği bir format olmalı. Şu an yapılan şey, hangi aracın öznel olarak en inandırıcı Pantheon'u ürettiğine bakmaktan ibaret
Tekil ve düzgün tanımlanmamış bir örneği, son kullanıcı senaryosu bile olmadan tamamen öznel puanlama ölçütleriyle değerlendiriyor
Autodesk'i açığa satmak için henüz erken
Bu arada Autodesk aralık ayında Fusion için ajan tabanlı bir asistan çıkardı ama 6 ay sonra bile hâlâ oldukça kötü
Son birkaç haftadır 3D baskı için birkaç basit parça tasarlamam gerektiği için kullandım; her biri zaman çizelgesinde yaklaşık 4 işlem gerektirecek düzeydeydi ama Fusion terminolojisine uygun şekilde adım adım ayrıntılı anlatsam bile istediğime yakın bir şey üretemedi
Şu anda basit temel katıları bile düzgün yapabildiğinden emin değilim
Bana çok ikna edici gelmiyor. Pantheon tarihin en ikonik yapılarından biri; hakkında çok sayıda kitap var ve eğitim için kullanılmış mevcut fotoğraf ve açık model de bolca bulunuyor
Sağlanan referanslara dayanarak anonim bir yapıyı modellemeye yönelik bir benchmark daha ilginç olurdu. Bir LLM'nin tek seferde yapılacaklar uygulaması üretmesini izlemek gibi yüzeysel bir sihir numarası hissi veriyor
Ebeveynlik için bir teknoloji cihazı yapıyorum ve dış kasası tamamen AI tarafından üretildi
3D modellemeye nereden başlayacağımı hiç bilmiyordum ama LLM bunun da diğerleri gibi kod olduğunu gösterdi
Garip şekilde Opus 4.5 bunu tek seferde kusursuz yaptı; bu performans düşüşü tartışmalarından hemen önceydi ve o zamandan beri kasada en küçük değişikliği yapmak bile çok zorlaştı
Sanki Opus, şekilleri zihninde profesyonelce döndürebilen bir modelden, neyle uğraştığını bile bilmeyen bir modele dönüştü
Yalnız 4.7, düzeltme işlerinde fena değildi