AMD’den Lemonade: GPU ve NPU kullanan hızlı açık kaynak yerel LLM sunucusu

(lemonade-server.ai)

11 puan yazan GN⁺ 28 일 전 | 1 yorum | WhatsApp'ta paylaş

GPU ve NPU’yu kullanarak metin, görüntü ve sesi hızlı işleyen açık kaynak bir platform olan AMD destekli yerel yapay zeka sunucusu
Yerelde çalıştırma ve gizliliğe odaklanır; OpenAI API standardıyla uyumlu olduğu için çeşitli uygulamalarla anında entegre olabilir
C++ tabanlı hafif arka uç, otomatik donanım yapılandırması ve aynı anda çoklu model çalıştırma ile pratik bir yerel yapay zeka ortamı sunar
Chat, Vision, Image Generation, Transcription, Speech Generation için tek bir birleşik API sağlar
Windows, Linux, macOS(beta) üzerinde aynı ortamı sunar; yerleşik GUI ile model indirme ve geçiş işlemleri kolaydır

Temel özellikler

Açık kaynak ve yerel odaklı tasarım
- Yerel yapay zeka özgür, açık, hızlı ve kişisel olmalı felsefesiyle geliştirildi
- Yerel yapay zeka topluluğu öncülüğünde oluşturuldu ve tüm PC’lerde çalışabilir
- Gizlilik ve bağımsız çalışma ortamına önem verir
Hızlı kurulum ve hafif yapı
- One Minute Install ile tüm yığını otomatik olarak kurar
- C++ yerel arka uç, yaklaşık 2MB boyutunda hafif bir servis
- Otomatik donanım yapılandırması özelliğiyle GPU ve NPU ortamını otomatik olarak ayarlar
Geniş uyumluluk
- OpenAI API uyumluluğu sayesinde yüzlerce uygulamayla anında entegre olur
- llama.cpp, Ryzen AI SW, FastFlowLM gibi çeşitli çıkarım motorlarını destekler
- Aynı anda çoklu model çalıştırma mümkündür; böylece birden fazla model paralel çalıştırılabilir
Birleşik API sunumu
- Tek bir yerel servisle Chat, Vision, Image Generation, Transcription, Speech Generation desteği sağlar
- Standart REST API biçiminde sunulur; örneğin etkileşimli model çağrısı için POST /api/v1/chat/completions uç noktası kullanılabilir
- Örnek istekte Paris nüfusunu sormak için "model": "Qwen3-0.6B-GGUF" kullanılır
Kullanıcı arayüzü ve ekosistem
- Yerleşik GUI uygulaması ile model indirme, test etme ve geçiş işlemleri hızlıca yapılabilir
- OpenAI API standardı temelinde çeşitli uygulamalarla anında uyumludur
- Topluluk katılımı sayesinde sürekli iyileştirme ve özellik genişletme sürer

Teknik özellikler ve kullanım örnekleri

Donanım ve performans
- 128GB birleşik RAM ortamında gpt-oss-120b, Qwen-Coder-Next gibi büyük modeller çalıştırılabilir
- --no-mmap seçeneğiyle yükleme süresi kısaltılabilir ve bağlam boyutu genişletilebilir (64 ve üzeri)
Görüntü ve ses özellikleri
- Görüntü üretim örneği: “Rönesans tarzında bir lemonade sürahisi”
- Ses örneği: “Hello, I am your AI assistant. What can I do for you today?”

En son sürümler

Lemonade sürekli geliştiriliyor; en yeni özellikler ve performans iyileştirmeleri sürüm akışı üzerinden sunuluyor
Yeni özellikler ve öne çıkanlar resmi sitede görülebilir

1 yorum

GN⁺ 28 일 전

Hacker News görüşleri

Neredeyse 1 yıldır Lemonade kullanıyorum. Strix Halo üzerinde başka araç kullanmadan sadece bunu kullanıyorum. kyuz0’nun AMD Strix Halo Toolboxes aracı da fena değil, ama Lemonade TTS, STT, metin·görsel üretimi ve görsel düzenlemeye kadar destekliyor. ROCm, Vulkan, CPU, GPU, NPU gibi çeşitli backend’leri destekliyor ve geliştirme hızı da pratik ve hızlı. AMD donanımı kullanıyorsanız şiddetle tavsiye ederim.
OpenAI ve Ollama uyumlu endpoint’ler sayesinde VSCode Copilot veya Open Web UI’de de doğrudan kullanılabiliyor
- Qwen3.5-122B modelini Lemonade ile Strix Halo’da çalıştırınca, Vulkan tabanlı llama.cpp’ye kıyasla performans artışının ne kadar olduğunu merak ediyorum
- Acaba bunu agents ya da Claw ile deneyen oldu mu, hangi modeli çalıştırdığınızı da merak ediyorum
Birkaç aydır 7900 XTX üzerinde yerel LLM çalıştırıyorum ve ROCm deneyimi epey pürüzlüydü. AMD’nin resmi bir çıkarım sunucusu yayınlayıp sürücü·bağımlılık sorunlarını çözmesi büyük ilerleme. Yine de NPU desteğinin gerçekten anlamlı bir throughput verip vermediğini merak ediyorum. Benim testlerimde küçük modeller dışında darboğaz oluyordu
- Nesi bu kadar zordu merak ettim. Ben RX 7900 XTX üzerinde Ollama ile yerel modeller çalıştırıyorum ve ROCm tarafında neredeyse hiç sorun yaşamadım. Sadece 24GB VRAM sınırı can sıkıyor. Daha büyük VRAM için Radeon Pro’ya geçmeyi düşünüyorum
- Kernel 7.0.0’da Vulkan performansı ROCm’den çok daha iyiydi, yaklaşık %20’den fazla hız artışı vardı
- NPU, bataryada kullanım için güç verimliliği amaçlı. GPU’nun yerine geçmesi için değil
Acaba adının ‘Lemonade’ olması, limonu sonuna kadar değerlendirmek gibi bir anlama mı geliyor diye merak ettim
- “L-L-M” telaffuzu “lemon”a benzediği için, LLM-aid → lemonade tarzı bir kelime oyunu gibi duruyor
- Hayat sana sürekli limon veriyorsa, bari patlayan limonlar yapmak lazım
- Ben yerel çıkarım için yalnızca AMD donanımı kullanıyorum. Açık sürücüler, güç verimliliği ve fiyat açısından tüketici tarafında Nvidia’dan daha iyi olduğunu düşünüyorum
- ‘Lemonsqueeze’ adı fazla şiddet çağrıştırdığı için elenmiş deniyor
Lemonade, Ollama ile LM Studio arasında bir yerde duruyor gibi. Sadece model servis etmekten çok entegre bir runtime olmaya odaklanması ilginç. Metin, görsel, ses gibi farklı modaliteleri tek seferde ele alan orkestrasyon asıl mesele gibi görünüyor. Bunun gerçekte bir soyutlama mı olduğu, yoksa çeşitli araçların bir araya getirilmiş hâli mi olduğu merak konusu. AMD/NPU optimizasyonunun tersine taşınabilirliği azaltıp azaltmadığı da ayrı soru
- Birden fazla araç, model seçimi ve yönetim özelliğini paket halinde sunuyor. CPU ya da Vulkan backend’iyle kurulabiliyor ama temelde sadece ROCm build’leri ve AMD NPU’yu destekliyor. CUDA ile çalıştırmak için llama.cpp sürümünü override etmek gerekiyor, bu da yönetimi zahmetli kılıyor. AMD makinelerde yerel modelleri kolayca çalıştırmak istiyorsanız en kolay çözüm bu.
  Ben bunu NAS üzerinde home assistant ile birlikte çalıştırıyorum. Strix Halo dışında ayrıca CUDA kartlı bir sunucuyu da yönetiyorum
Lemonade’in kullandığı NPU model·kernel’lerinin kapalı kaynak olması can sıkıcı. Keşke daha fazla açık destek olsa
- Belgelerde “Hugging Face modelleri Lemonade Server’a kaydedilebilir” deniyor
- NPU’yu kullanamayabileceğimi bilerek cihazı aldım ama yine de böyle haberleri duymak sinir bozucu
Lemonade’in asıl gücü çok modlu entegrasyon. Metin üretimi, görsel üretimi, konuşma tanıma gibi normalde farklı API ve model yönetimi gerektiren üç hizmeti tek bir sunucuda OpenAI uyumlu endpoint’lerle sunabiliyor. Prototipleme sırasında kalite artışı büyük oluyor.
NPU, küçük ve sürekli çalışan modeller ya da prefill offloading için kullanışlı ama genel chatbot kullanımında biraz abartılıyor.
AMD, GPU+NPU planlamasını şeffaf hâle getirip geliştiricilerin donanımı düşünmek zorunda kalmamasını sağlarsa, varsayılan tercih olma ihtimali yüksek
Strix Halo üzerinde Lemonade çalıştırıyorum. diffusion, llama gibi çeşitli backend’ler içeriyor ama ben yalnızca llama.cpp ROCm build’ini (bağlantı) kullanıyorum. Görsel ya da ses tarafını kullanmıyorum. GPT OSS 120B’de saniyede yaklaşık 50 token hız alıyorum. NPU, düşük güçte sürekli çalışan modeller için var; genel chatbot kullanımında büyük bir avantajı yok
- Küçük bir NPU bile prefill hesaplamasının bir kısmını offload edebilir. Ancak decode aşamasında durum bellek bant genişliği ve iç hesaplama desteğine bağlı. Örneğin Apple Neural Engine yalnızca INT8/FP16 işlemlerini desteklediği için çok büyük fayda sağlamıyor
Web sitesini ve duyuruyu okudum ama Lemonade’in tam olarak ne olduğunu anlamakta zorlandım. LM Studio’nun alternatifi mi, Mac’te MLX ya da Metal destekliyor mu onu da merak ediyorum. AMD optimizasyonu merkeze alınıyorsa, diğer GPU’larda dezavantajlı olup olmadığını bilmek isterim
- GitHub yol haritasına göre macOS beta tamamlanmış, MLX desteği ise geliştiriliyor
- Yerel AI yığınını kolayca kurup bakımını yapabilmeniz için tek durak çözüm. STT, TTS, görsel üretimi, LLM endpoint’lerini aynı anda sunuyor ve kendi WebUI’si de var. OpenAI, Ollama, Anthropic uyumlu endpoint’leri de destekliyor
- LM Studio gibi birden fazla runtime’ı soyutluyor ama AMD’nin FastFlowML runtime’ı üzerinden Ryzen AI CPU’nun NPU’sunu Linux’ta kullanabiliyor
- LM Studio gerçek LLM çalıştırmayı başka yazılımlara bırakıyor; o yazılım NPU desteklemiyorsa performans düşüyor. Lemonade ise bu tür bir backend rolünü üstleniyor gibi görünüyor
Linux için sunucu kurulum rehberinde Docker/Podman seçeneği olmaması şaşırtıcı. Sadece Snap/PPA ve RPM var. Muhtemelen container kullananların kendilerinin build etmesi bekleniyor olabilir
- Aslında Docker kurulum seçeneği var. Bunun sürüm sayfasına da eklenmesi iyi olurdu
Bunu Ollama ile karşılaştıran var mı merak ediyorum. Ben ROCm 7.4 ile 9070 XT üzerinde Ollama’yı sorunsuz kullanıyorum
- Lemonade birden fazla API ile AMD GPU·NPU’ya özel build’leri destekliyor. Doğrudan AMD tarafından geliştiriliyor. İçeride ikisi de llama.cpp tabanlı ama Lemonade GPU’ya göre optimize edilmiş build’lere sahip
- MacBook M1 Max (64GB RAM) üzerinde qwen3.59b modeliyle test ettiğimde, Ollama 1 dakika 44 saniye, Lemonade ise 1 dakika 14 saniye sürdü; yani Lemonade daha hızlıydı
- Ben de vLLM ile karşılaştırmasını merak ediyorum
- Şu anda Ollama kullanıyorum ama Lemonade ile arasındaki performans farkını merak ediyorum
- Vulkan’dan daha iyi olup olmadığını da bilmek isterim

AMD’den Lemonade: GPU ve NPU kullanan hızlı açık kaynak yerel LLM sunucusu

Temel özellikler

Açık kaynak ve yerel odaklı tasarım

Hızlı kurulum ve hafif yapı

Geniş uyumluluk

Birleşik API sunumu

Kullanıcı arayüzü ve ekosistem

Teknik özellikler ve kullanım örnekleri

Donanım ve performans

Görüntü ve ses özellikleri

En son sürümler

İlgili okumalar

1 yorum

Hacker News görüşleri