- Ollama artık Windows'ta da yerel ortamda çalıştırılabiliyor; böylece yerel büyük dil modellerini indirme, çalıştırma ve üretim akışı kolaylaşıyor
- Windows için Ollama, yerleşik GPU hızlandırma, tam model kütüphanesine erişim ve OpenAI uyumlu Ollama API'sini birlikte sunuyor
- Model çalıştırmada NVIDIA GPU'lar ve AVX, AVX2 gibi modern CPU komut setleri kullanılıyor; ayrıca ek yapılandırma veya sanallaştırma gerekmiyor
- Tüm model kütüphanesi ve görü modelleri Windows'ta kullanılabiliyor; LLaVA 1.6'da görseller
ollama run içine sürükleyip bırakarak mesaja eklenebiliyor
- Arka planda çalışan Ollama API'si sayesinde mevcut OpenAI araçları yerel modellerle bağlantılı olarak kullanılabiliyor
Windows önizlemesi yayınlandı
- Ollama, Windows önizlemesi olarak sunuluyor ve Windows'ta büyük dil modellerini indirme, çalıştırma ve üretme imkanı veriyor
- Windows için Ollama, temel özellikleri tek pakette sunuyor
Donanım hızlandırma ve çalışma biçimi
- Model çalıştırırken hızlandırma için NVIDIA GPU kullanılıyor
- Mümkün olduğunda AVX, AVX2 gibi modern CPU komut setlerinden de yararlanılıyor
- Ek yapılandırma veya sanallaştırma olmadan doğrudan Windows ortamında kullanılabiliyor
Tam model kütüphanesi ve görü modelleri
- Windows'ta da Ollama'nın tam model kütüphanesi çalıştırılabiliyor
- Görü modelleri de buna dahil
- LLaVA 1.6 gibi bir görü modeli çalışırken, bir görseli
ollama run içine sürükleyip bırakarak mesaja ekleyebilirsiniz
Arka planda çalışan Ollama API'si
- Ollama API'si arka planda otomatik olarak çalışır ve
http://localhost:11434 adresinde sunulur
- Araçlar ve uygulamalar ek yapılandırma olmadan bu API'ye bağlanabilir
- PowerShell'den Ollama API'sini çağırma örneği şöyle:
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
- Windows için Ollama da diğer platformlarda olduğu gibi OpenAI uyumluluğunu destekliyor
- Mevcut OpenAI araçları, Ollama üzerinden çalışan yerel modellerle birlikte kullanılabiliyor
Kurulum ve geri bildirim
- Windows Preview'ı başlatmak için OllamaSetup.exe dosyasını indirin
- Yüklemek için
OllamaSetup.exe dosyasına çift tıklayın
- Kurulumdan sonra terminali açın ve modeli şu komutla çalıştırın
ollama run llama2
- Yeni bir sürüm yayınlandığında Ollama sizi güncelleme konusunda bilgilendirir
- Bir sorun yaşarsanız GitHub issue açabilir veya Discord sunucusuna katılarak geri bildirim gönderebilirsiniz
1 yorum
Hacker News yorumları
Masaüstünde ön yüz olarak Open-WebUI bağlayıp kullanıyorum.
Yaklaşık 12 Mistral ince ayarlı modeli ve birkaç başka modeli bir araya getirdim; sohbet ya da bilgi çıkarma işleri için gayet yeterli.
Open-WebUI uygulaması ChatGPT’ye epey benziyor ve konuşmalarda arama da yapılabiliyor.
https://github.com/open-webui/open-webui
Ollama için oldukça sağlam bir ön yüz olduğunu söyleyebilirim. Gerçekten iyi çalışıyor ve geliştirme hızı da şaşırtıcı derecede yüksek.
Birkaç haftada bir en yeni Docker imajını çektiğimde ne kadar geliştiğine her seferinde şaşırıyorum.
[0] https://github.com/open-webui/open-webui/discussions/764
Her zamanki gibi AMD GPU desteğinden hiç söz yok.
Bu sefer AMD aldığıma pişman olacak kadar üzücü bir durum.
Bunu henüz ROADMAP.md gibi bir yerde düzgünce yayımlayamamış olmamız üzücü; yakında bunu yapmayı planlıyoruz.
Proje bakımcılarından birkaç kişi ATI Technologies’in asıl memleketi olan Toronto bölgesinden olduğu için, kişisel olarak da Ollama’nın AMD GPU’larda iyi çalışmasını istiyoruz :)
AMD desteği üzerinde çalışırken kullandığımız test makinelerinden biri Radeon RX 7900XT kullanıyor ve oldukça hızlı. Üst seviye GeForce 40 serisi GPU’larla rahatlıkla karşılaştırılabilir.
[1]: https://en.wikipedia.org/wiki/ATI_Technologies
Nvidia’yı yakında yakalayacağını umarak pahalıya güçlü bir AMD kart aldım ama gerçekte hiç öyle olmadı; bence bunun nedeni AMD’nin gereken kaynakları ayırmaması.
AMD değişebilir, ama hemen şimdi başlaması gerekiyor.
Teknoloji sektöründe gördüğüm en kötü kendi kendine zarar verme örneklerinden biri.
Windows’ta tinyBLAS kütüphanesi sayesinde yalnızca grafik sürücüsünün olması yeterli.
https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
Varsayılan olarak sohbet GUI’si olan bir tarayıcı sekmesi açıyor; aşağıdaki gibi Ollama benzeri komut satırı sohbet botu olarak da çalıştırılabiliyor.
https://justine.lol/oneliners/#chat
Vulkan desteğiyle derlenmiş llama.cpp’yi kendi uygulamam [1] ile birlikte kullanıp bir AMD dizüstünde çalıştırmayı başardım; ancak Ollama, makinede kullanılabilir GPU’yu bulma biçimiyle ilgili bazı varsayımlar yaptığı için çalıştıramadım.
[1]: https://msty.app
Ollama üzerinde kullanılabilecek iyi bir sohbet UI arıyorsanız ve hem çevrimiçi hem de yerel modelleri desteklemesini istiyorsanız, geliştirmekte olduğum uygulama [1] var.
Çevrimdışı kullanım ve gizliliğe odaklanıyor; Windows desteğini de bu sabah yayımladım.
[1]: https://msty.app
Bu tür “yerelde çalıştır” yapay zeka portlarının neden bu kadar sık sunucu olarak çalıştırıldığını merak ediyorum
Geliştiriciler kodu UI sürecinin içinde çalıştırabileceklerini unuttu mu?
Stable Diffusion çalıştırıcılarında ya da LLM host’larında da aynı kalıbı görüyorum
Zorunlu değilse yerelde arka plan servisi çalıştırmak istemiyorum; peki bu uygulamaların hepsi neden böyle davranıyor gibi görünüyor?
İyi bir benzetme veritabanı motorları olabilir. SQLite bir kütüphane, Postgres ise uzun süre çalışan bir servis; ikisi de yaygın kullanılıyor ve her birinin kendi ödünleşimleri var
Ayrıca büyük bir etken olarak, makineyi, ortamı ve işletim sistemini modelin verimli çalışabileceği hâle getirmenin kolay olmamasını görüyorum
Bu karmaşıklığı bir konteynerin, yani “sunucunun” içine koymak, ilk kurulumu ve süregelen iyileştirme/güncellemeleri takip etmeyi ciddi ölçüde kolaylaştırıyor
Bunun yerine uzun süre çalışan bir sürecin birden çok tahmin isteğini işlemesi daha doğru
Yakında bir noktada bunun birden çok istemciye de sunulması çok olası
Güçlü bir dizüstüm ya da iş istasyonum yok ama çoklu GPU’lu başsız bir sunucum var
Bu tür projeler sayesinde sunucuda LLM’leri deneyebiliyor, API’yi ve web arayüzünü iç ağa açabiliyorum
Bu yüzden Open-WebUI’yi chat.domain.example üzerinde, Ollama’yı da api.chat.domain.example üzerinde ayağa kaldırdım. İkisine de yalnızca yerel ağ içinden erişilebiliyor
Bu yapılandırmayla dizüstü ve telefonda web arayüzü üzerinden maksimum hızda yerel modeli kullanabiliyorum; deneysel sesli asistan çalıştıran Raspberry Pi ise API endpoint’i üzerinden Ollama’ya sorgu gönderebiliyor
Oyun GPU’su sayesinde hepsi maksimum hızda çalışıyor. Aynı mantık Stable Diffusion yapılandırması için de geçerli
Windows kullanıcılarının Ollama’yı kullanamadığını bilmiyordum
Daha sadece birkaç yıl önce beklemek zorunda kalan taraf Mac kullanıcılarıymış gibi geliyor
Sadece çoğu kişi için pek rahat değildi; yerel Windows desteği ise pastanın üzerindeki krema
Sonuçta x86 Linux olduğu için her şey olduğu gibi düzgün çalışıyor
Kapalı kaynaklı LM Studio’nun (https://lmstudio.ai) Ollama’ya kıyasla nasıl olduğunu merak ediyorum
Sevmediğim tarafı ise Windows’ta ağırlıkları /users/username/.cache altında kendine özgü bir dizin yapısına koyup onlarca GB yer kaplaması, bunu size söylememesi ve başka istemcilerle paylaşmanıza izin vermemesi
Kendi indirdiğiniz modelleri içe aktarmanıza izin vermiyor, arama işlevi berbat ve örnek ayarlarını ele alış biçimi de hoşuma gitmiyor
Zaten Linux ve Mac’te kullanılabiliyor gibi görünüyor
Bu değişiklik Windows’un eklenmesi: https://github.com/ollama/ollama
Tam da bu gereksinimleri kendim kurup biraz kurcalamayı düşünüyordum ki bu yazı çıktı
Deneyince gerçekten basit ve iyi çalışması ilginç
Ancak kurulum programında hedef konumu seçme seçeneğinin yine olmaması sorun gibi görünüyor. Sunucuda birden fazla kullanıcı varsa tek bir genel kurulum yerine herkesin kendi kişisel kopyası oluyor
Yazı yazmak için bir dilbilgisi/yazım denetimi iş akışı oluşturma fikriyle Ollama çalıştırıyorum
Ollama’nın kendisiyle doğrudan ilgili değil; şu ana kadar Ollama iyi çalışıyor
Böyle bir soruyu sorabileceğim bir yer var mı? LLM’ler için Stack Overflow benzeri bir yer merak ediyorum
Yeni Mac Mini’de llama2 modelini kurup çalıştırmayı denedim, tam bir kernel panic oldu. Bu da ne?
llama2’nin hangi sürümünü seçtiniz ve ne kadar birleşik belleğiniz var?