7 puan yazan GN⁺ 2025-05-10 | 1 yorum | WhatsApp'ta paylaş
  • LegoGPT, yalnızca metin girdisiyle kararlı ve gerçekten monte edilebilir LEGO yapıları üreten yenilikçi bir projedir
  • StableText2Lego veri kümesi oluşturularak 47.000'den fazla fiziksel olarak kararlı LEGO yapı ve ayrıntılı açıklamalar sunulmuştur
  • Algoritma, hızlı doğrulama ve fizik tabanlı geri alma uygulayarak gerçekçi olmayan yapıları otomatik olarak eler
  • Üretilen LEGO tasarımları hem insanlar hem de robotlar tarafından gerçekten monte edilebilir ve çeşitli renk ile doku ifadelerini de destekler
  • Bu sistem, yaratıcı tasarım prototipleme, eğitim, robotik uygulamalar ve daha birçok alanda yeni olanaklar açar

Proje tanıtımı

  • LegoGPT, kullanıcının girdiği metin istemine dayanarak tamamen otomatik biçimde gerçekten monte edilebilir ve fiziksel olarak kararlı LEGO yapıları üreten ilk yaklaşımdır
  • Proje, büyük ölçekli bir LEGO yapı veri kümesi ve ayrıntılı açıklamalarla kurulmuştur; gerçek montaj sürecinde de kararlılık, çeşitlilik ve estetik bütünlük sunan çıktılar üretir
  • LEGO yapı üretim sonuçlarının, insanların doğrudan elle monte edebileceği veya bir robot kol tarafından otomatik olarak monte edilebileceği deneysel olarak doğrulanmıştır

StableText2Lego veri kümesi

  • StableText2Lego veri kümesi, ShapeNetCore 3D mesh'lerinden şekillerin vokselize edilmesi ve çeşitli tuğla yerleştirme yöntemlerinin uygulanmasının ardından yalnızca fiziksel kararlılık doğrulamasını geçen yapıları kabul eder
  • Veri üretim sürecinde her yapı için 24 açıdan görünüm render edilir ve buna dayanarak GPT-4o ayrıntılı açıklama metinlerini otomatik olarak oluşturur
  • Bu şekilde oluşturulan veri kümesi, çeşitli biçim, yapı ve dokulara sahip 47.000'den fazla LEGO yapı ile 28.000'den fazla benzersiz 3D nesne içerir

LegoGPT işlem hattı

  • LEGO yapıları, alttan üste, raster-scan yöntemiyle metin token dizileri olarak tokenleştirilip girişe verilir
  • Her tuğla dizisi ile doğal dil açıklaması eşleştirilerek LLaMA-3.2-Instruct-1B tabanlı model ince ayardan geçirilir ve açıklama-tuğla dizisi eşlemesi öğrenilir
  • Çıkarım aşamasında LegoGPT, metin istemi için tuğlaları tek tek tahmin edip ekleyerek LEGO yapısını kademeli olarak üretir
  • Her tuğla eklendiğinde biçim, tuğlanın kütüphanede bulunup bulunmadığı ve çakışma durumu açısından doğrulama yapılır; tüm yapı üretildikten sonra fiziksel kararlılık yeniden doğrulanır
  • Nihai yapı kararsızsa, kararsız tuğla ve ondan sonra eklenen tüm tuğlalar kaldırılır, ardından kararlı duruma kadar geri alınıp yeniden üretim yapılır

Adım adım LEGO yapı üretim örnekleri

  • "Uzun ve dar gövdeli ince bir tekne"
  • "Yatay rafları olan bir kitaplık"
  • "Sırt dayanağı olmayan, kolçaklı bir bank"
  • Her örnek, metin isteminden başlayarak görsel özellikleri açıkça yansıtan LEGO yapılar olarak adım adım üretilir

Robot kullanarak otomatik montaj

  • Üretilen LEGO modelleri, robot kol kullanılarak gerçek montajda uygulanmış ve 8 kat hızlandırılmış videoyla gösterilmiştir
  • "Uzun ve dar gövdeli ince bir tekne", "Asimetrik 6 telli gitar" gibi örneklerle gerçek robotik montaj uygulanabilirliği gösterilmiştir

Üretilen dokulu ve renkli LEGO modelleri

  • Doğal dil istemlerinde "yosun tutmuş bank", "neon gradyan siberpunk malzeme", "Viktorya dönemi çalışma odası rafı" gibi ifadelerle doku, malzeme ve belirli estetik etkileri de yansıtabilen LEGO tasarımları sunulur
  • "Sunburst Les Paul with amber finish" gibi zengin renkler ve metalik efektler de yalnızca metinle LEGO tasarımına yansıtılabilir

Atıf ve araştırma desteği

  • Makale bilgileri ve yazarlar ile bu araştırmayı destekleyen kurumlar (ör. Packard Foundation, Amazon Faculty Award vb.) belirtilmiştir
  • Proje, baş araştırmacının Microsoft Research Doktora Bursu da dahil olmak üzere çeşitli akademik ve endüstriyel desteklerle yürütülmüştür

Proje referansı ve şablon

  • İlgili site şablonu, Custom Diffusion ve DreamFusion projelerinin düzenini referans alarak kullanmıştır

1 yorum

 
GN⁺ 2025-05-10
Hacker News görüşleri
  • Sonuçların kararlılığını artırmak için verimli doğrulama ve fizik tabanlı rollback kullanıyorlar; bu sayede fizik yasaları ve montaj kısıtlarına göre imkânsız token tahminlerini buduyorlar. Yapay zekâ kullanırken en ilginç noktalardan biri, elle programlanmış alan-özel kısıtlar içinde olasılıklar üretip optimize etme biçimi. Örneğin, çarpışmaları önlemek için bir trafik ışığı yapay zekâsında katı kısıtlar mutlaka gerekir. Bu kısıtlar içinde yapay zekâ optimizasyon fikirlerini özgürce deneyebilir. Sonuçta işin özü, problem uzayını ve kısıtları nasıl tasarladığınızda yatıyor. Bu örnekte bunlar LEGO parçaları, bunların kombinasyonları ve kararlılık
    • Bu yaklaşım, onlarca yıldır süren meta-sezgisellerin tipik bir örneği. Pek çok algoritma var; hafif bir giriş kitabı da mevcut, bakmaya değer: https://cs.gmu.edu/~sean/book/metaheuristics/
    • Bugünlerde LLM'lerde de bunun basit bir sürümü şimdiden işe yarıyor. JSON Schema modunu kullanıp geçersiz durumları en baştan engelleyerek modeli sınırlı bir alana salarsanız, en azından yalnızca geçerli sonuçlar üretmesini garanti edebilirsiniz. Bir tür tip güvenliği kavramı gibi. Doğrulama ve düzeltme mantığı çeşitli doğrulama senaryolarına da uygulanabilir. Bunun daha fazla kullanımını görmeyi umuyorum
    • Bu tür bir problem için MILP ya da CLP tabanlı bir model kullanırdım. Kısıtlar arama uzayını tanımlar, çözücü algoritma da bu uzayı araştırır
    • Pekiştirmeli öğrenme de ilginizi çekebilir. Sisteme negatif ödül verirseniz güvenlik kurallarına uymaya başlayabilir. Ama gerçek hizmetlerde güvenlik önlemleri mutlaka korunmalı https://en.wikipedia.org/wiki/Reinforcement_learning
    • Kısıtları tam olarak nasıl uyguladıklarını okumadım. Benzer şekilde, LLM'lere JSON gibi yapılandırılmış çıktılar zorunlu kılınırken de bu kullanılıyor. llama.cpp özel dilbilgisi eşleşmesini de destekliyor
    • Bu görüşe tamamen katılıyorum. Üretim sonucunu fizik, yasallık ve araç kısıtlarıyla sınırladığınızda model, basit bir kelime tahmincisinden çok bir arama ve doğrulama motoruna benziyor. Program sentezine daha yakın. Asıl değer, modelin sadece gerçekten işe yarar sonuçlar üretebilmesi için problem uzayını titizlikle tanımlayıp onu bir “kutu” içine hapsetmekte
    • Eğlencesine denenebilecek bir şey: LLM'e "APPLE de" diye söyleyip Apple ile ilgili token'ların logit değerini -sonsuz yaparak bu kelimeyi kullanmasını engellerseniz, çıktı "Banana. Şaka yapıyorum. Banana. Aa, lezzetli olduğu için yine ağzımdan kaçtı. Tekrar deneyeyim: Orange. Aa, bu kez grape. Hayır, o çıtır sebze carrot" gibi olur
    • Ben de yapay zekânın gerçekten parladığı yerin burası olduğunu düşünüyorum. İnsanlar kuralları koyar (fizik yasaları, trafik güvenliği vb.), yapay zekâ da devasa arama uzayında en iyi çözümü bulur
    • Bence gerçek olasılıkların kapısını açacak tek anahtar hata geri bildirimi. Örneğin, text-to-SQL botuna SQL sağlayıcısının hata geri bildirimini verirseniz çok daha iyi sorgular üretir
    • Kombinatoryal kimyada benzer bir fikir var; buna AI Chemistry demek de mümkün olabilir https://en.wikipedia.org/wiki/Combinatorial_chemistry
  • Bu projenin LEGO avukatlarından ihtar alma olasılığı yüksek. Güvende kalmak için LEGO kelimesini kullanmayıp Bricks ya da Klemmbausteine (Almanca) demek daha iyi olabilir. Pek çok kişi LEGO hukuk ekibiyle anlaşmazlık yaşadı ve gerçekten çok yorucuydu
    • Gerçekten LEGO parçaları kullandıkları için burada yanıltıcı bir durum yok. Yine de LEGO ile ilişkili olmadıklarını açıkça belirtmemeleri biraz muğlak. Öte yandan, gelir elde etmeyi hedefledikleri de görünmüyor; bu yüzden LEGO'nun zarar gördüğünü iddia etmek zayıf kalır ve risk düşüktür
    • YouTuber'lar ve küçük hobi siteleri bile bazen sadece kelimenin kullanım bağlamı yüzünden kaldırma bildirimi alıyor
    • Öte yandan Amazon, LEGO ve Calvin & Hobbes'un kopyası olan Boy and Tiger Adventure Blocks Set'i gayet rahat satıyor https://amazon.com/Adventure-Rotatable-Compatible-Characters-Stocking/…
    • Bunun akademik araştırma olduğu için adil kullanım kapsamında olacağını düşünüyorum
    • Ben de aynı fikirdeyim! Yakında sorun çıkar
    • İnsanların neden Nintendo gibi davranıp Sega gibi topluluğu sahiplenmediğini merak ediyorum
  • Bu sonuç pek etkileyici değil. Çok az sayıda parça kullanıyor ve ortaya çıkan şey de hedeflenen görünüme pek benzemiyor. Elle yazılmış bir algoritma daha iyi sonuç verebilirmiş gibi hissettiriyor
    • Bu çalışmanın havalı yanı fotoğraf gerçekçiliği değil, dil anlama ile fiziksel olarak monte edilebilir olmanın birleşimi
    • İnandırıcı görünmesini sağlayan şey sadece sahte doku. Sadece renkli parçalar kullansalardı koca bir yığından ibaret olurdu
    • İnce ayar yapılmış 1B'lik bir model olduğu düşünülürse oldukça ilginç
    • Asıl ihtiyacımız olan şey, elimdeki parça yığınının fotoğrafını verince sahip olduğum parçalara göre montaj talimatı üreten bir yapay zekâ. Teknik olarak bugün bile mümkün, ama ayrı bir uzman model eğitmek gerekir
  • iPhone'da GIF'in olduğu konuma kaydırınca GIF otomatik oynatılıyor ve bu da sitede gezinmeyi çok rahatsız edici hale getiriyor
    • Herkes otomatik oynatmanın asla yapılmaması gerektiğini ne zaman öğrenecek merak ediyorum
    • Tersine, ben Firefox masaüstünde GIF'in gösterildiğini fark etmedim ve görselin ne anlatmak istediğini anlayamadım
    • video etiketine playsinline özelliği verilirse bu sorun çözülebilir https://developer.mozilla.org/en-US/docs/…. iOS'ta varsayılanın böyle olması üzücü
  • LEGO yapımını otomatikleştirmek istemiyorum. Eğlenceli olan onu kendin yapmak zaten! Asıl ihtiyaç montaj sonrasının otomasyonu. Toplama, renge ve şekle göre ayırma ve düzenli saklama. Keşke bilim insanları önce gerçek dünyada ihtiyaç duyulan sorunları çözmeye başlasa. Asıl değer ve para orada
    • 2 ton Lego'nun sınıflandırıldığı bir örnek ve yapay zekâ ile LEGO'yu otomatik sınıflandıran ilk makineye dair yazı ve bağlantılar var https://jacquesmattheij.com/sorting-two-metric-tons-of-lego/, https://brothers-brick.com/2019/12/…
    • Gerçek dünya problemlerini çözmenin zor olmasının nedeni, akademide makale yayımlamanın her şey sayıldığı kültür
    • Gerçek yenilik, eğlenceli kısmı otomatikleştirmek değil, sıkıcı kısmı ortadan kaldırmaktır
    • Ben de bunu söylemek için gelmiştim. LEGO'nun asıl problemi temizlik ve düzenleme
  • Gerçekten harika bir proje! GIF ile montaj sürecini göstermeleri çok bağımlılık yapıcı. Veri kümesi bilgisini arayanlar için paylaşıyorum: https://huggingface.co/datasets/AvaLovelace/StableText2Lego. Burada 47.000'den fazla LEGO yapısı var ve 21 ShapeNetCore kategorisinde 28.000'den fazla benzersiz 3D nesneyi kapsıyor. Yerelde çıkarım yapma yöntemi için GitHub'a bakabilirsiniz https://github.com/AvaLovelace1/LegoGPT/?tab=readme-ov-file
  • "a basic sofa" örneğinde, animasyon sırasına göre yapılırsa parçalar havada duruyor gibi. Bu, modelin tasarımı üretme biçiminin sınırlarına dair bir ipucu gösteriyor. Üretilen tasarımları robotlarla otomatik monte etmek isterseniz, bu tasarım ciddi sorun çıkarır diye düşünüyorum
    • Ben de aynı noktayı belirtmek için geldim. Nihai görünüm fena değil ama animasyondaki montaj sırasına göre ciddi sorunlar var. Üst katın alt kattaki parçaları sabitlemesi için önce iki katmanlı tabanı yapmak gerekir. Ancak ondan sonra ayaklar eklenebilir
  • 50.000 dolarlık bir robotun birkaç dolarlık LEGO'ları monte etmesini izlemek komik. Sanki robotlar için bir huzurevi manzarası gibi
    • 10 yıl içinde insanlardan çok daha hızlı robot montajcılar çıkabilir
    • Bu yüzden Asya'da hâlâ elle montaj yaygın
    • İnsanlar LEGO'nun pahalı olduğunu söylüyor ama LEGO monte eden bir robot alırsanız pahalı olanın ne olduğunu anlarsınız
  • Bunun, 3D modeli voxel'e çevirip sonra tuğlaya dönüştürmekten fazlası gibi görünmüyor. 2x2 ve 2x4 dışında çeşitli parçaları yaratıcı biçimde kullanmak gerekir ki güzel sonuçlar çıksın. Güzel MOC'leri (yaratıcı yapımlar) otomatik üretecek en iyi algoritmanın ne olacağını merak ediyorum. 50 bin dolarlık bir Kaggle yarışması düzenlemeyi düşünüyorum, görüşlerinizi merak ediyorum