AMD’den Lemonade: GPU ve NPU kullanan hızlı açık kaynak yerel LLM sunucusu
(lemonade-server.ai)- GPU ve NPU’yu kullanarak metin, görüntü ve sesi hızlı işleyen açık kaynak bir platform olan AMD destekli yerel yapay zeka sunucusu
- Yerelde çalıştırma ve gizliliğe odaklanır; OpenAI API standardıyla uyumlu olduğu için çeşitli uygulamalarla anında entegre olabilir
- C++ tabanlı hafif arka uç, otomatik donanım yapılandırması ve aynı anda çoklu model çalıştırma ile pratik bir yerel yapay zeka ortamı sunar
- Chat, Vision, Image Generation, Transcription, Speech Generation için tek bir birleşik API sağlar
- Windows, Linux, macOS(beta) üzerinde aynı ortamı sunar; yerleşik GUI ile model indirme ve geçiş işlemleri kolaydır
Temel özellikler
-
Açık kaynak ve yerel odaklı tasarım
- Yerel yapay zeka özgür, açık, hızlı ve kişisel olmalı felsefesiyle geliştirildi
- Yerel yapay zeka topluluğu öncülüğünde oluşturuldu ve tüm PC’lerde çalışabilir
- Gizlilik ve bağımsız çalışma ortamına önem verir
-
Hızlı kurulum ve hafif yapı
- One Minute Install ile tüm yığını otomatik olarak kurar
- C++ yerel arka uç, yaklaşık 2MB boyutunda hafif bir servis
- Otomatik donanım yapılandırması özelliğiyle GPU ve NPU ortamını otomatik olarak ayarlar
-
Geniş uyumluluk
- OpenAI API uyumluluğu sayesinde yüzlerce uygulamayla anında entegre olur
- llama.cpp, Ryzen AI SW, FastFlowLM gibi çeşitli çıkarım motorlarını destekler
- Aynı anda çoklu model çalıştırma mümkündür; böylece birden fazla model paralel çalıştırılabilir
-
Birleşik API sunumu
- Tek bir yerel servisle Chat, Vision, Image Generation, Transcription, Speech Generation desteği sağlar
- Standart REST API biçiminde sunulur; örneğin etkileşimli model çağrısı için
POST /api/v1/chat/completionsuç noktası kullanılabilir - Örnek istekte Paris nüfusunu sormak için
"model": "Qwen3-0.6B-GGUF"kullanılır
-
Kullanıcı arayüzü ve ekosistem
- Yerleşik GUI uygulaması ile model indirme, test etme ve geçiş işlemleri hızlıca yapılabilir
- OpenAI API standardı temelinde çeşitli uygulamalarla anında uyumludur
- Topluluk katılımı sayesinde sürekli iyileştirme ve özellik genişletme sürer
Teknik özellikler ve kullanım örnekleri
-
Donanım ve performans
- 128GB birleşik RAM ortamında gpt-oss-120b, Qwen-Coder-Next gibi büyük modeller çalıştırılabilir
--no-mmapseçeneğiyle yükleme süresi kısaltılabilir ve bağlam boyutu genişletilebilir (64 ve üzeri)
-
Görüntü ve ses özellikleri
- Görüntü üretim örneği: “Rönesans tarzında bir lemonade sürahisi”
- Ses örneği: “Hello, I am your AI assistant. What can I do for you today?”
En son sürümler
- Lemonade sürekli geliştiriliyor; en yeni özellikler ve performans iyileştirmeleri sürüm akışı üzerinden sunuluyor
- Yeni özellikler ve öne çıkanlar resmi sitede görülebilir
1 yorum
Hacker News görüşleri
Neredeyse 1 yıldır Lemonade kullanıyorum. Strix Halo üzerinde başka araç kullanmadan sadece bunu kullanıyorum. kyuz0’nun AMD Strix Halo Toolboxes aracı da fena değil, ama Lemonade TTS, STT, metin·görsel üretimi ve görsel düzenlemeye kadar destekliyor. ROCm, Vulkan, CPU, GPU, NPU gibi çeşitli backend’leri destekliyor ve geliştirme hızı da pratik ve hızlı. AMD donanımı kullanıyorsanız şiddetle tavsiye ederim.
OpenAI ve Ollama uyumlu endpoint’ler sayesinde VSCode Copilot veya Open Web UI’de de doğrudan kullanılabiliyor
Birkaç aydır 7900 XTX üzerinde yerel LLM çalıştırıyorum ve ROCm deneyimi epey pürüzlüydü. AMD’nin resmi bir çıkarım sunucusu yayınlayıp sürücü·bağımlılık sorunlarını çözmesi büyük ilerleme. Yine de NPU desteğinin gerçekten anlamlı bir throughput verip vermediğini merak ediyorum. Benim testlerimde küçük modeller dışında darboğaz oluyordu
Acaba adının ‘Lemonade’ olması, limonu sonuna kadar değerlendirmek gibi bir anlama mı geliyor diye merak ettim
Lemonade, Ollama ile LM Studio arasında bir yerde duruyor gibi. Sadece model servis etmekten çok entegre bir runtime olmaya odaklanması ilginç. Metin, görsel, ses gibi farklı modaliteleri tek seferde ele alan orkestrasyon asıl mesele gibi görünüyor. Bunun gerçekte bir soyutlama mı olduğu, yoksa çeşitli araçların bir araya getirilmiş hâli mi olduğu merak konusu. AMD/NPU optimizasyonunun tersine taşınabilirliği azaltıp azaltmadığı da ayrı soru
Ben bunu NAS üzerinde home assistant ile birlikte çalıştırıyorum. Strix Halo dışında ayrıca CUDA kartlı bir sunucuyu da yönetiyorum
Lemonade’in kullandığı NPU model·kernel’lerinin kapalı kaynak olması can sıkıcı. Keşke daha fazla açık destek olsa
Lemonade’in asıl gücü çok modlu entegrasyon. Metin üretimi, görsel üretimi, konuşma tanıma gibi normalde farklı API ve model yönetimi gerektiren üç hizmeti tek bir sunucuda OpenAI uyumlu endpoint’lerle sunabiliyor. Prototipleme sırasında kalite artışı büyük oluyor.
NPU, küçük ve sürekli çalışan modeller ya da prefill offloading için kullanışlı ama genel chatbot kullanımında biraz abartılıyor.
AMD, GPU+NPU planlamasını şeffaf hâle getirip geliştiricilerin donanımı düşünmek zorunda kalmamasını sağlarsa, varsayılan tercih olma ihtimali yüksek
Strix Halo üzerinde Lemonade çalıştırıyorum. diffusion, llama gibi çeşitli backend’ler içeriyor ama ben yalnızca llama.cpp ROCm build’ini (bağlantı) kullanıyorum. Görsel ya da ses tarafını kullanmıyorum. GPT OSS 120B’de saniyede yaklaşık 50 token hız alıyorum. NPU, düşük güçte sürekli çalışan modeller için var; genel chatbot kullanımında büyük bir avantajı yok
Web sitesini ve duyuruyu okudum ama Lemonade’in tam olarak ne olduğunu anlamakta zorlandım. LM Studio’nun alternatifi mi, Mac’te MLX ya da Metal destekliyor mu onu da merak ediyorum. AMD optimizasyonu merkeze alınıyorsa, diğer GPU’larda dezavantajlı olup olmadığını bilmek isterim
Linux için sunucu kurulum rehberinde Docker/Podman seçeneği olmaması şaşırtıcı. Sadece Snap/PPA ve RPM var. Muhtemelen container kullananların kendilerinin build etmesi bekleniyor olabilir
Bunu Ollama ile karşılaştıran var mı merak ediyorum. Ben ROCm 7.4 ile 9070 XT üzerinde Ollama’yı sorunsuz kullanıyorum