2 puan yazan GN⁺ 2024-02-18 | 1 yorum | WhatsApp'ta paylaş
  • Ollama artık Windows'ta da yerel ortamda çalıştırılabiliyor; böylece yerel büyük dil modellerini indirme, çalıştırma ve üretim akışı kolaylaşıyor
  • Windows için Ollama, yerleşik GPU hızlandırma, tam model kütüphanesine erişim ve OpenAI uyumlu Ollama API'sini birlikte sunuyor
  • Model çalıştırmada NVIDIA GPU'lar ve AVX, AVX2 gibi modern CPU komut setleri kullanılıyor; ayrıca ek yapılandırma veya sanallaştırma gerekmiyor
  • Tüm model kütüphanesi ve görü modelleri Windows'ta kullanılabiliyor; LLaVA 1.6'da görseller ollama run içine sürükleyip bırakarak mesaja eklenebiliyor
  • Arka planda çalışan Ollama API'si sayesinde mevcut OpenAI araçları yerel modellerle bağlantılı olarak kullanılabiliyor

Windows önizlemesi yayınlandı

  • Ollama, Windows önizlemesi olarak sunuluyor ve Windows'ta büyük dil modellerini indirme, çalıştırma ve üretme imkanı veriyor
  • Windows için Ollama, temel özellikleri tek pakette sunuyor

Donanım hızlandırma ve çalışma biçimi

  • Model çalıştırırken hızlandırma için NVIDIA GPU kullanılıyor
  • Mümkün olduğunda AVX, AVX2 gibi modern CPU komut setlerinden de yararlanılıyor
  • Ek yapılandırma veya sanallaştırma olmadan doğrudan Windows ortamında kullanılabiliyor

Tam model kütüphanesi ve görü modelleri

  • Windows'ta da Ollama'nın tam model kütüphanesi çalıştırılabiliyor
  • Görü modelleri de buna dahil
  • LLaVA 1.6 gibi bir görü modeli çalışırken, bir görseli ollama run içine sürükleyip bırakarak mesaja ekleyebilirsiniz

Arka planda çalışan Ollama API'si

  • Ollama API'si arka planda otomatik olarak çalışır ve http://localhost:11434 adresinde sunulur
  • Araçlar ve uygulamalar ek yapılandırma olmadan bu API'ye bağlanabilir
  • PowerShell'den Ollama API'sini çağırma örneği şöyle:
(Invoke-WebRequest -method POST -Body '{"model":"llama2", "prompt":"Why is the sky blue?", "stream": false}' -uri http://localhost:11434/api/generate ).Content | ConvertFrom-json
  • Windows için Ollama da diğer platformlarda olduğu gibi OpenAI uyumluluğunu destekliyor
  • Mevcut OpenAI araçları, Ollama üzerinden çalışan yerel modellerle birlikte kullanılabiliyor

Kurulum ve geri bildirim

  • Windows Preview'ı başlatmak için OllamaSetup.exe dosyasını indirin
  • Yüklemek için OllamaSetup.exe dosyasına çift tıklayın
  • Kurulumdan sonra terminali açın ve modeli şu komutla çalıştırın
ollama run llama2
  • Yeni bir sürüm yayınlandığında Ollama sizi güncelleme konusunda bilgilendirir
  • Bir sorun yaşarsanız GitHub issue açabilir veya Discord sunucusuna katılarak geri bildirim gönderebilirsiniz

1 yorum

 
GN⁺ 2024-02-18
Hacker News yorumları
  • Masaüstünde ön yüz olarak Open-WebUI bağlayıp kullanıyorum.
    Yaklaşık 12 Mistral ince ayarlı modeli ve birkaç başka modeli bir araya getirdim; sohbet ya da bilgi çıkarma işleri için gayet yeterli.
    Open-WebUI uygulaması ChatGPT’ye epey benziyor ve konuşmalarda arama da yapılabiliyor.
    https://github.com/open-webui/open-webui

    • Birkaç saat önceki duyuruyu kaçıranlar için: open-webui, eskiden ollama-webui olarak adlandırılan projenin yeniden markalanmış hâli.
      Ollama için oldukça sağlam bir ön yüz olduğunu söyleyebilirim. Gerçekten iyi çalışıyor ve geliştirme hızı da şaşırtıcı derecede yüksek.
      Birkaç haftada bir en yeni Docker imajını çektiğimde ne kadar geliştiğine her seferinde şaşırıyorum.
      [0] https://github.com/open-webui/open-webui/discussions/764
    • Merak ediyorum, o ince ayarlı modelleri nerelerde kullanıyorsun? Kendi verilerinle mi ince ayar yaptın, yoksa işe göre herkese açık modelleri seçip mi kullanıyorsun?
    • Terminalde kullanılabilecek benzer bir araç var mı?
  • Her zamanki gibi AMD GPU desteğinden hiç söz yok.
    Bu sefer AMD aldığıma pişman olacak kadar üzücü bir durum.

    • AMD GPU desteği kesinlikle proje yol haritasının önemli bir parçası.
      Bunu henüz ROADMAP.md gibi bir yerde düzgünce yayımlayamamış olmamız üzücü; yakında bunu yapmayı planlıyoruz.
      Proje bakımcılarından birkaç kişi ATI Technologies’in asıl memleketi olan Toronto bölgesinden olduğu için, kişisel olarak da Ollama’nın AMD GPU’larda iyi çalışmasını istiyoruz :)
      AMD desteği üzerinde çalışırken kullandığımız test makinelerinden biri Radeon RX 7900XT kullanıyor ve oldukça hızlı. Üst seviye GeForce 40 serisi GPU’larla rahatlıkla karşılaştırılabilir.
      [1]: https://en.wikipedia.org/wiki/ATI_Technologies
    • Ben de aynı durumdayım. Uzun süredir Linux kullanıcısı olarak Nvidia’nın bana yaşattığı sıkıntılar yüzünden Nvidia’dan çok nefret ediyorum ve AMD’nin başarılı olmasını gerçekten istedim.
      Nvidia’yı yakında yakalayacağını umarak pahalıya güçlü bir AMD kart aldım ama gerçekte hiç öyle olmadı; bence bunun nedeni AMD’nin gereken kaynakları ayırmaması.
      AMD değişebilir, ama hemen şimdi başlaması gerekiyor.
    • AMD sanki bu yeni moda olan GPU hesaplama işinin yakında geçip gideceğine inanıyor ve bu yüzden yatırım yapmaya gerek görmüyor gibi.
      Teknoloji sektöründe gördüğüm en kötü kendi kendine zarar verme örneklerinden biri.
    • llamafile AMD GPU’ları destekliyor.
      Windows’ta tinyBLAS kütüphanesi sayesinde yalnızca grafik sürücüsünün olması yeterli.
      https://github.com/Mozilla-Ocho/llamafile/releases/tag/0.6.2
      Varsayılan olarak sohbet GUI’si olan bir tarayıcı sekmesi açıyor; aşağıdaki gibi Ollama benzeri komut satırı sohbet botu olarak da çalıştırılabiliyor.
      https://justine.lol/oneliners/#chat
    • Başkalarının da söylediği gibi Ollama içeride Llama.CPP kullanıyor; Llama.CPP de yakın zamanda AMD GPU’larda da çalışması beklenen Vulkan desteğini yayımladı.
      Vulkan desteğiyle derlenmiş llama.cpp’yi kendi uygulamam [1] ile birlikte kullanıp bir AMD dizüstünde çalıştırmayı başardım; ancak Ollama, makinede kullanılabilir GPU’yu bulma biçimiyle ilgili bazı varsayımlar yaptığı için çalıştıramadım.
      [1]: https://msty.app
  • Ollama üzerinde kullanılabilecek iyi bir sohbet UI arıyorsanız ve hem çevrimiçi hem de yerel modelleri desteklemesini istiyorsanız, geliştirmekte olduğum uygulama [1] var.
    Çevrimdışı kullanım ve gizliliğe odaklanıyor; Windows desteğini de bu sabah yayımladım.
    [1]: https://msty.app

    • Bilginiz olsun, Program:Win32/Wacapew.C!ml tespiti çıkıyor.
    • Konudan bağımsız ama açılış sayfasını neyle yaptınız?
    • Bu, LLM Studio’ya benziyor mu?
    • Linux istemcisi planınız da var mı?
    • Gemini API de ekleyecek misiniz?
  • Bu tür “yerelde çalıştır” yapay zeka portlarının neden bu kadar sık sunucu olarak çalıştırıldığını merak ediyorum
    Geliştiriciler kodu UI sürecinin içinde çalıştırabileceklerini unuttu mu?
    Stable Diffusion çalıştırıcılarında ya da LLM host’larında da aynı kalıbı görüyorum
    Zorunlu değilse yerelde arka plan servisi çalıştırmak istemiyorum; peki bu uygulamaların hepsi neden böyle davranıyor gibi görünüyor?

    • Gerçekten ilginç bir soru. Bence iki dağıtım modeli de var olabilir
      İyi bir benzetme veritabanı motorları olabilir. SQLite bir kütüphane, Postgres ise uzun süre çalışan bir servis; ikisi de yaygın kullanılıyor ve her birinin kendi ödünleşimleri var
    • Başkalarının söylediği ilk yükleme süresinin yanı sıra, birden çok uygulamada aynı çıkarım motorunu ya da aynı LLM’i farklı amaçlarla kullanmak isteyebilirsiniz
      Ayrıca büyük bir etken olarak, makineyi, ortamı ve işletim sistemini modelin verimli çalışabileceği hâle getirmenin kolay olmamasını görüyorum
      Bu karmaşıklığı bir konteynerin, yani “sunucunun” içine koymak, ilk kurulumu ve süregelen iyileştirme/güncellemeleri takip etmeyi ciddi ölçüde kolaylaştırıyor
    • Ağırlıkları her seferinde anlık olarak yüklemek mantıklı değil. Çünkü birkaç gigabit ölçeğinde belleği sürekli taşımak gerekiyor
      Bunun yerine uzun süre çalışan bir sürecin birden çok tahmin isteğini işlemesi daha doğru
      Yakında bir noktada bunun birden çok istemciye de sunulması çok olası
    • Bence bu kişisel olarak iyi bir şey
      Güçlü bir dizüstüm ya da iş istasyonum yok ama çoklu GPU’lu başsız bir sunucum var
      Bu tür projeler sayesinde sunucuda LLM’leri deneyebiliyor, API’yi ve web arayüzünü iç ağa açabiliyorum
    • Hız nedeniyle Ollama’yı büyük oyun PC’mde çalıştırıyorum, ama modeli evin başka yerlerinde de kullanmak istiyorum
      Bu yüzden Open-WebUI’yi chat.domain.example üzerinde, Ollama’yı da api.chat.domain.example üzerinde ayağa kaldırdım. İkisine de yalnızca yerel ağ içinden erişilebiliyor
      Bu yapılandırmayla dizüstü ve telefonda web arayüzü üzerinden maksimum hızda yerel modeli kullanabiliyorum; deneysel sesli asistan çalıştıran Raspberry Pi ise API endpoint’i üzerinden Ollama’ya sorgu gönderebiliyor
      Oyun GPU’su sayesinde hepsi maksimum hızda çalışıyor. Aynı mantık Stable Diffusion yapılandırması için de geçerli
  • Windows kullanıcılarının Ollama’yı kullanamadığını bilmiyordum
    Daha sadece birkaç yıl önce beklemek zorunda kalan taraf Mac kullanıcılarıymış gibi geliyor

    • Birkaç aydır WSL üzerinde, tam GPU desteği dahil olmak üzere gayet iyi çalışıyordu
      Sadece çoğu kişi için pek rahat değildi; yerel Windows desteği ise pastanın üzerindeki krema
    • Bir süredir Ollama’yı Windows WSL’de çalıştırıyorum
      Sonuçta x86 Linux olduğu için her şey olduğu gibi düzgün çalışıyor
  • Kapalı kaynaklı LM Studio’nun (https://lmstudio.ai) Ollama’ya kıyasla nasıl olduğunu merak ediyorum

    • İyi tarafı, kurulumunun çok kolay olması; modelleri/ağırlıkları tek tıkla indirip yükleyebilmeniz ve çok iyi çalışması
      Sevmediğim tarafı ise Windows’ta ağırlıkları /users/username/.cache altında kendine özgü bir dizin yapısına koyup onlarca GB yer kaplaması, bunu size söylememesi ve başka istemcilerle paylaşmanıza izin vermemesi
      Kendi indirdiğiniz modelleri içe aktarmanıza izin vermiyor, arama işlevi berbat ve örnek ayarlarını ele alış biçimi de hoşuma gitmiyor
  • Zaten Linux ve Mac’te kullanılabiliyor gibi görünüyor
    Bu değişiklik Windows’un eklenmesi: https://github.com/ollama/ollama

  • Tam da bu gereksinimleri kendim kurup biraz kurcalamayı düşünüyordum ki bu yazı çıktı
    Deneyince gerçekten basit ve iyi çalışması ilginç
    Ancak kurulum programında hedef konumu seçme seçeneğinin yine olmaması sorun gibi görünüyor. Sunucuda birden fazla kullanıcı varsa tek bir genel kurulum yerine herkesin kendi kişisel kopyası oluyor

  • Yazı yazmak için bir dilbilgisi/yazım denetimi iş akışı oluşturma fikriyle Ollama çalıştırıyorum
    Ollama’nın kendisiyle doğrudan ilgili değil; şu ana kadar Ollama iyi çalışıyor
    Böyle bir soruyu sorabileceğim bir yer var mı? LLM’ler için Stack Overflow benzeri bir yer merak ediyorum

  • Yeni Mac Mini’de llama2 modelini kurup çalıştırmayı denedim, tam bir kernel panic oldu. Bu da ne?

    • Seçtiğiniz model kullanılabilir birleşik bellekten büyükse böyle bir şey olabilir
      llama2’nin hangi sürümünü seçtiniz ve ne kadar birleşik belleğiniz var?