18 puan yazan GN⁺ 2025-05-02 | 3 yorum | WhatsApp'ta paylaş
  • MLX kütüphanesi kullanılarak doğrudan Mac üzerinde çalıştırılıp güçlü ve güncel Qwen3-30B-A3B-8bit modeli yerelde servis ediliyor
  • Bunun ardından Localforge ile OpenAI API tarzında entegre edilerek bir ajan döngüsü kuruluyor
  • ollama tabanlı yardımcı model (Gemma3) ek olarak yapılandırılarak ajanın yardımcı rolü ayrıştırılıyor ve araçların daha verimli kullanılması sağlanıyor
  • Ajan, Localforge arayüzünde yapılandırıldıktan sonra "LS aracını çalıştır", web sitesi oluşturma ve Snake oyununu otomatik çalıştırmaya kadar işlemleri yerine getiriyor
  • Tüm bu süreç ücretsiz ve tamamen yerelde otonom çalışabilir; Mac kullanıcıları için doğrudan denemeye değer bir proje

Qwen3’ü Mac’te yerel olarak çalıştırmak

  • Hedef: En yeni Qwen3 modelini Mac’te çalıştırıp Localforge ile ajana dönüştürerek kodlama otomasyonunu denemek
  • Qwen3, Ollama ve HuggingFace MLX topluluğu üzerinden dağıtılıyor
  • 1. adım: MLX ortamını kurma

    pip install mlx  
    pip install mlx-lm  
    
  • 2. adım: model sunucusunu çalıştırma

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • Model otomatik olarak indirildikten sonra 8082 portunda API sunucusu olarak çalışıyor
    • Günlükte "Starting httpd..." mesajı görünürse başarıyla başlatılmış demektir

Localforge ayarları

  • Resmi site: https://localforge.dev
  • Kurulumdan sonra ayarlarda aşağıdaki yapılandırma gerekiyor:
  • Sağlayıcı ekleme

    • a) Ollama sağlayıcısı (yardımcı model)
      • Ad: LocalOllama
      • Tür: ollama
      • Gerekli kurulum: gemma3:latest modeli (basit dil işleme için uygun)
    • b) Qwen3 sağlayıcısı (ana model)

  • Ajan oluşturma

    • Ad: qwen3-agent
    • Ana model: qwen3:mlx:30b (model adı: mlx-community/Qwen3-30B-A3B-8bit)
    • Yardımcı model: LocalOllama (model adı: gemma3:latest)

Sonuç

  • Mac’te ücretsiz olarak büyük bir modeli yerelde çalıştırıp ajan tabanlı otomatik kodlama yapmak mümkün
  • Model seçimi veya sistem prompt’u ayarıyla daha rafine sonuçlar da elde edilebilir
  • Localforge + MLX + Qwen3, kişisel LLM deneyleri için oldukça faydalı bir kombinasyon

3 yorum

 
ragingwind 2025-05-02

Yerelde 30B ise gerçekten harika, değil mi? Qwen2.5-Coder pek iyi değildi ama bunu denemeye değer görünüyor.

 
GN⁺ 2025-05-02
Hacker News görüşleri
  • Qwen3-30B-A3B modelini yerelde kullanıyorum ve gerçekten çok etkileyici. GPT-4’ü bekleyenler için bir alternatif olabilir gibi görünüyor. M3 Max üzerinde 70 tok/s alıyorum, bu da kullanımı oldukça iyi hale getiriyor

    • Özellikle 0.6B modelinin, 1B altı modeller arasında önemsiz işlerde faydalı şekilde kullanılabilmesi etkileyici
    • Genel olarak çok etkileyici ve şu an mevcut kurulum ve entegrasyonlarıma nasıl uydurabileceğimi değerlendiriyorum
  • qwen3 çalıştırıp ls araç çağrısı yapmak "vibe coding" değil. Bu daha çok LocalForge reklamı gibi görünüyor

    • Gerçekten otonom işler için, örneğin birden fazla dosyayı okuyup dizinlerde gezinerek nerede değişiklik yapılması gerektiğini anlamada iyi çalışacak gibi durmuyor
  • MLX ve MLX-LM için de övgüde bulunmak istiyorum. Gemma 3 modelini yerelde fine-tune etmek için kullanıyorum; Apple geliştiricilerinin yaptığı kütüphane ve araçlar iyi yapılandırılmış

  • Tesadüfen Qwen3’ü basit bir prompt ile döngüye soktum

    • "mqtt konu yönlendirmesi için trie kullanan bir Python decorator oluştur" prompt’unu kullandım
    • phi4-reasoning çalışıyor ama kodda hata var gibi görünüyor
    • phi4-mini-reasoning kafası karışıyor
    • qwen3:30b döngüye giriyor ve decorator’ü unutuyor
    • mistral-small meseleyi hemen kavradı ve kod düzgün görünüyor
    • Copilot modelini düzenli kullanıyorum; Claude 3.7 ve Gemini ise testlerle birlikte kullanılabilir kod üretiyor. Ama yerel modeller henüz o seviyede değil gibi
  • MCP ile birlikte yerel LLM’lerin işleri işbirliği içinde yapabildiği, bağlamı sıkıştırabildiği ya da bulut ajanlarla birlikte çalışabildiği bir kurulum bilen var mı?

    • Yeni M3 makinenin sadece UI render etmesi, buluttaki LLM’in ise kod tabanını refactor etmesi aptalca görünüyor. Bunlar işleri kendi aralarında koordine edebilmeli gibi geliyor
  • Yerelde gerçek otonom ajanlar çalıştırıp basit işler yaptırmaya yönelik hızlı bir öğretici paylaşmak istiyorum

    • Doğru MLX ayarlarını ya da uygun model sürümünü hâlâ arıyorum ama bu yaklaşımın çerçevesi sağlam
  • LocalForge’u keşfettiğime sevindim. LocalForge hakkında bir sorum var. İki ajanı birleştirip bir görseli multimodal ajana vererek html/css üretmesini, diğer ajanın da kodun geri kalanını yazmasını sağlayabilir miyim?

    • Gönderide Gemma3 (multimodal) ve Qwen3’ten (multimodal olmayan) bahsediliyor. Yukarıdaki gibi kullanılabiliyor mu?
    • LocalForge’un prompt’u hangi ajana yönlendireceğini nasıl bildiğini merak ediyorum
  • Oldukça etkileyici. Ücretli token tabanlı modeller kadar iyi olmak zorunda değil

    • Örneğin geçen ay vibe coding için en az 300 $ harcadım. Bunun sebebi rekabet edebilecek araçları bilmek istemem ve bir yan projenin implementasyonunu bitirdikten sonra onu başka bir programlama dilinde yeniden yazmak istememdi
    • Burada biraz ara versem bile, yenilenmiş bir Nvidia dizüstü bilgisayar bir yıl içinde kendini amorti edebilir. Ollama’nın hâlâ tüm akışı yönetememesi hayal kırıklığı yaratıyor. Bunun tek bir komutla yapılabilmesi gerekir
  • Güzel görünüyor. Google’ın Gemma 3 27B modeliyle çalışacak local-first bir yapay zeka destekli IDE arıyordum

    • LocalForge’un kendi projesi olduğunu açıklaması gerektiğini düşünüyorum
  • Modelleri yerelde çalıştırmak artık ilginç hale geliyor. Özellikle 30B-A3B sürümü umut verici bir yön gibi görünüyor. 16 GB VRAM ile hâlâ erişilebilir değil ama oldukça yaklaşmış durumda

    • 24/32 GB VRAM’e sahip yeni Nvidia RTX kartlarını bekliyorum. Birkaç yıl içinde GPT-4 seviyesine ulaşabilir gibi görünüyor. Bu da birçok iş için faydalı olur