Ollama, Windows'ta önizleme sürümüyle kullanılabiliyor

(ollama.com)

2 puan yazan GN⁺ 2024-02-18 | 1 yorum | WhatsApp'ta paylaş

Ollama artık Windows'ta da yerel ortamda çalıştırılabiliyor; böylece yerel büyük dil modellerini indirme, çalıştırma ve üretim akışı kolaylaşıyor
Windows için Ollama, yerleşik GPU hızlandırma, tam model kütüphanesine erişim ve OpenAI uyumlu Ollama API'sini birlikte sunuyor
Model çalıştırmada NVIDIA GPU'lar ve AVX, AVX2 gibi modern CPU komut setleri kullanılıyor; ayrıca ek yapılandırma veya sanallaştırma gerekmiyor
Tüm model kütüphanesi ve görü modelleri Windows'ta kullanılabiliyor; LLaVA 1.6'da görseller ollama run içine sürükleyip bırakarak mesaja eklenebiliyor
Arka planda çalışan Ollama API'si sayesinde mevcut OpenAI araçları yerel modellerle bağlantılı olarak kullanılabiliyor

Windows önizlemesi yayınlandı

Ollama, Windows önizlemesi olarak sunuluyor ve Windows'ta büyük dil modellerini indirme, çalıştırma ve üretme imkanı veriyor
Windows için Ollama, temel özellikleri tek pakette sunuyor
- Yerleşik GPU hızlandırma
  - Tam model kütüphanesine erişim
  - OpenAI uyumluluğu içeren Ollama API'si

Donanım hızlandırma ve çalışma biçimi

Model çalıştırırken hızlandırma için NVIDIA GPU kullanılıyor
Mümkün olduğunda AVX, AVX2 gibi modern CPU komut setlerinden de yararlanılıyor
Ek yapılandırma veya sanallaştırma olmadan doğrudan Windows ortamında kullanılabiliyor

Tam model kütüphanesi ve görü modelleri

Windows'ta da Ollama'nın tam model kütüphanesi çalıştırılabiliyor
Görü modelleri de buna dahil
LLaVA 1.6 gibi bir görü modeli çalışırken, bir görseli ollama run içine sürükleyip bırakarak mesaja ekleyebilirsiniz

Arka planda çalışan Ollama API'si

Ollama API'si arka planda otomatik olarak çalışır ve http://localhost:11434 adresinde sunulur
Araçlar ve uygulamalar ek yapılandırma olmadan bu API'ye bağlanabilir
PowerShell'den Ollama API'sini çağırma örneği şöyle:

(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json

Windows için Ollama da diğer platformlarda olduğu gibi OpenAI uyumluluğunu destekliyor
Mevcut OpenAI araçları, Ollama üzerinden çalışan yerel modellerle birlikte kullanılabiliyor

Kurulum ve geri bildirim

Windows Preview'ı başlatmak için OllamaSetup.exe dosyasını indirin
Yüklemek için OllamaSetup.exe dosyasına çift tıklayın
Kurulumdan sonra terminali açın ve modeli şu komutla çalıştırın

ollama run llama2

Yeni bir sürüm yayınlandığında Ollama sizi güncelleme konusunda bilgilendirir
Bir sorun yaşarsanız GitHub issue açabilir veya Discord sunucusuna katılarak geri bildirim gönderebilirsiniz

1 yorum

GN⁺ 2024-02-18

Hacker News yorumları

Masaüstünde ön yüz olarak Open-WebUI bağlayıp kullanıyorum.
Yaklaşık 12 Mistral ince ayarlı modeli ve birkaç başka modeli bir araya getirdim; sohbet ya da bilgi çıkarma işleri için gayet yeterli.
Open-WebUI uygulaması ChatGPT’ye epey benziyor ve konuşmalarda arama da yapılabiliyor.
https://github.com/open-webui/open-webui
- Birkaç saat önceki duyuruyu kaçıranlar için: open-webui, eskiden ollama-webui olarak adlandırılan projenin yeniden markalanmış hâli.
  Ollama için oldukça sağlam bir ön yüz olduğunu söyleyebilirim. Gerçekten iyi çalışıyor ve geliştirme hızı da şaşırtıcı derecede yüksek.
  Birkaç haftada bir en yeni Docker imajını çektiğimde ne kadar geliştiğine her seferinde şaşırıyorum.
  [0] https://github.com/open-webui/open-webui/discussions/764
- Merak ediyorum, o ince ayarlı modelleri nerelerde kullanıyorsun? Kendi verilerinle mi ince ayar yaptın, yoksa işe göre herkese açık modelleri seçip mi kullanıyorsun?
- Terminalde kullanılabilecek benzer bir araç var mı?
Her zamanki gibi AMD GPU desteğinden hiç söz yok.
Bu sefer AMD aldığıma pişman olacak kadar üzücü bir durum.
- AMD GPU desteği kesinlikle proje yol haritasının önemli bir parçası.
  Bunu henüz ROADMAP.md gibi bir yerde düzgünce yayımlayamamış olmamız üzücü; yakında bunu yapmayı planlıyoruz.
  Proje bakımcılarından birkaç kişi ATI Technologies’in asıl memleketi olan Toronto bölgesinden olduğu için, kişisel olarak da Ollama’nın AMD GPU’larda iyi çalışmasını istiyoruz :)
  AMD desteği üzerinde çalışırken kullandığımız test makinelerinden biri Radeon RX 7900XT kullanıyor ve oldukça hızlı. Üst seviye GeForce 40 serisi GPU’larla rahatlıkla karşılaştırılabilir.
  [1]: https://en.wikipedia.org/wiki/ATI_Technologies
- Ben de aynı durumdayım. Uzun süredir Linux kullanıcısı olarak Nvidia’nın bana yaşattığı sıkıntılar yüzünden Nvidia’dan çok nefret ediyorum ve AMD’nin başarılı olmasını gerçekten istedim.
  Nvidia’yı yakında yakalayacağını umarak pahalıya güçlü bir AMD kart aldım ama gerçekte hiç öyle olmadı; bence bunun nedeni AMD’nin gereken kaynakları ayırmaması.
  AMD değişebilir, ama hemen şimdi başlaması gerekiyor.
- AMD sanki bu yeni moda olan GPU hesaplama işinin yakında geçip gideceğine inanıyor ve bu yüzden yatırım yapmaya gerek görmüyor gibi.
  Teknoloji sektöründe gördüğüm en kötü kendi kendine zarar verme örneklerinden biri.
- llamafile AMD GPU’ları destekliyor.
  Windows’ta tinyBLAS kütüphanesi sayesinde yalnızca grafik sürücüsünün olması yeterli.
  https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
  Varsayılan olarak sohbet GUI’si olan bir tarayıcı sekmesi açıyor; aşağıdaki gibi Ollama benzeri komut satırı sohbet botu olarak da çalıştırılabiliyor.
  https://justine.lol/oneliners/#chat
- Başkalarının da söylediği gibi Ollama içeride Llama.CPP kullanıyor; Llama.CPP de yakın zamanda AMD GPU’larda da çalışması beklenen Vulkan desteğini yayımladı.
  Vulkan desteğiyle derlenmiş llama.cpp’yi kendi uygulamam [1] ile birlikte kullanıp bir AMD dizüstünde çalıştırmayı başardım; ancak Ollama, makinede kullanılabilir GPU’yu bulma biçimiyle ilgili bazı varsayımlar yaptığı için çalıştıramadım.
  [1]: https://msty.app
Ollama üzerinde kullanılabilecek iyi bir sohbet UI arıyorsanız ve hem çevrimiçi hem de yerel modelleri desteklemesini istiyorsanız, geliştirmekte olduğum uygulama [1] var.
Çevrimdışı kullanım ve gizliliğe odaklanıyor; Windows desteğini de bu sabah yayımladım.
[1]: https://msty.app
- Bilginiz olsun, Program:Win32/Wacapew.C!ml tespiti çıkıyor.
- Konudan bağımsız ama açılış sayfasını neyle yaptınız?
- Bu, LLM Studio’ya benziyor mu?
- Linux istemcisi planınız da var mı?
- Gemini API de ekleyecek misiniz?
Bu tür “yerelde çalıştır” yapay zeka portlarının neden bu kadar sık sunucu olarak çalıştırıldığını merak ediyorum
Geliştiriciler kodu UI sürecinin içinde çalıştırabileceklerini unuttu mu?
Stable Diffusion çalıştırıcılarında ya da LLM host’larında da aynı kalıbı görüyorum
Zorunlu değilse yerelde arka plan servisi çalıştırmak istemiyorum; peki bu uygulamaların hepsi neden böyle davranıyor gibi görünüyor?
- Gerçekten ilginç bir soru. Bence iki dağıtım modeli de var olabilir
  İyi bir benzetme veritabanı motorları olabilir. SQLite bir kütüphane, Postgres ise uzun süre çalışan bir servis; ikisi de yaygın kullanılıyor ve her birinin kendi ödünleşimleri var
- Başkalarının söylediği ilk yükleme süresinin yanı sıra, birden çok uygulamada aynı çıkarım motorunu ya da aynı LLM’i farklı amaçlarla kullanmak isteyebilirsiniz
  Ayrıca büyük bir etken olarak, makineyi, ortamı ve işletim sistemini modelin verimli çalışabileceği hâle getirmenin kolay olmamasını görüyorum
  Bu karmaşıklığı bir konteynerin, yani “sunucunun” içine koymak, ilk kurulumu ve süregelen iyileştirme/güncellemeleri takip etmeyi ciddi ölçüde kolaylaştırıyor
- Ağırlıkları her seferinde anlık olarak yüklemek mantıklı değil. Çünkü birkaç gigabit ölçeğinde belleği sürekli taşımak gerekiyor
  Bunun yerine uzun süre çalışan bir sürecin birden çok tahmin isteğini işlemesi daha doğru
  Yakında bir noktada bunun birden çok istemciye de sunulması çok olası
- Bence bu kişisel olarak iyi bir şey
  Güçlü bir dizüstüm ya da iş istasyonum yok ama çoklu GPU’lu başsız bir sunucum var
  Bu tür projeler sayesinde sunucuda LLM’leri deneyebiliyor, API’yi ve web arayüzünü iç ağa açabiliyorum
- Hız nedeniyle Ollama’yı büyük oyun PC’mde çalıştırıyorum, ama modeli evin başka yerlerinde de kullanmak istiyorum
  Bu yüzden Open-WebUI’yi chat.domain.example üzerinde, Ollama’yı da api.chat.domain.example üzerinde ayağa kaldırdım. İkisine de yalnızca yerel ağ içinden erişilebiliyor
  Bu yapılandırmayla dizüstü ve telefonda web arayüzü üzerinden maksimum hızda yerel modeli kullanabiliyorum; deneysel sesli asistan çalıştıran Raspberry Pi ise API endpoint’i üzerinden Ollama’ya sorgu gönderebiliyor
  Oyun GPU’su sayesinde hepsi maksimum hızda çalışıyor. Aynı mantık Stable Diffusion yapılandırması için de geçerli
Windows kullanıcılarının Ollama’yı kullanamadığını bilmiyordum
Daha sadece birkaç yıl önce beklemek zorunda kalan taraf Mac kullanıcılarıymış gibi geliyor
- Birkaç aydır WSL üzerinde, tam GPU desteği dahil olmak üzere gayet iyi çalışıyordu
  Sadece çoğu kişi için pek rahat değildi; yerel Windows desteği ise pastanın üzerindeki krema
- Bir süredir Ollama’yı Windows WSL’de çalıştırıyorum
  Sonuçta x86 Linux olduğu için her şey olduğu gibi düzgün çalışıyor
Kapalı kaynaklı LM Studio’nun (https://lmstudio.ai) Ollama’ya kıyasla nasıl olduğunu merak ediyorum
- İyi tarafı, kurulumunun çok kolay olması; modelleri/ağırlıkları tek tıkla indirip yükleyebilmeniz ve çok iyi çalışması
  Sevmediğim tarafı ise Windows’ta ağırlıkları /users/username/.cache altında kendine özgü bir dizin yapısına koyup onlarca GB yer kaplaması, bunu size söylememesi ve başka istemcilerle paylaşmanıza izin vermemesi
  Kendi indirdiğiniz modelleri içe aktarmanıza izin vermiyor, arama işlevi berbat ve örnek ayarlarını ele alış biçimi de hoşuma gitmiyor
Zaten Linux ve Mac’te kullanılabiliyor gibi görünüyor
Bu değişiklik Windows’un eklenmesi: https://github.com/ollama/ollama
Tam da bu gereksinimleri kendim kurup biraz kurcalamayı düşünüyordum ki bu yazı çıktı
Deneyince gerçekten basit ve iyi çalışması ilginç
Ancak kurulum programında hedef konumu seçme seçeneğinin yine olmaması sorun gibi görünüyor. Sunucuda birden fazla kullanıcı varsa tek bir genel kurulum yerine herkesin kendi kişisel kopyası oluyor
Yazı yazmak için bir dilbilgisi/yazım denetimi iş akışı oluşturma fikriyle Ollama çalıştırıyorum
Ollama’nın kendisiyle doğrudan ilgili değil; şu ana kadar Ollama iyi çalışıyor
Böyle bir soruyu sorabileceğim bir yer var mı? LLM’ler için Stack Overflow benzeri bir yer merak ediyorum
Yeni Mac Mini’de llama2 modelini kurup çalıştırmayı denedim, tam bir kernel panic oldu. Bu da ne?
- Seçtiğiniz model kullanılabilir birleşik bellekten büyükse böyle bir şey olabilir
  llama2’nin hangi sürümünü seçtiniz ve ne kadar birleşik belleğiniz var?

Ollama, Windows'ta önizleme sürümüyle kullanılabiliyor

Windows önizlemesi yayınlandı

Yerleşik GPU hızlandırma

Donanım hızlandırma ve çalışma biçimi

Tam model kütüphanesi ve görü modelleri

Arka planda çalışan Ollama API'si

Kurulum ve geri bildirim

İlgili okumalar

1 yorum

Hacker News yorumları