4 puan yazan GN⁺ 2025-01-29 | 3 yorum | WhatsApp'ta paylaş
  • Qwen2.5-1M, bağlam uzunluğunu 1M tokene kadar destekleyen yüksek performanslı açık kaynaklı bir model ve 2 ay önce tanıtılan Qwen2.5-Turbo’yu geliştiriyor
  • İki kontrol noktası yayımlandı: Qwen2.5-7B-Instruct-1M ve Qwen2.5-14B-Instruct-1M
    • Qwen model ailesinde ilk kez 1M token bağlam desteği sunuluyor
  • Çıkarım çerçevesi yayımlandı: vLLM tabanlı optimize edilmiş bir çıkarım çerçevesi sağlanıyor. Seyrek dikkat (sparse attention) tekniğinin entegrasyonu sayesinde 1M token girdiler 3~7 kat daha hızlı işleniyor
  • Teknik rapor yayımlandı: Eğitim ve çıkarım çerçevesi tasarımı ile deney sonuçlarını içeren ayrıntılı bir teknik rapor paylaşıldı

Model performansı

Uzun bağlam görevleri

  • Passkey Retrieval değerlendirmesi: 1M tokenlık belgelerden bilgi doğru biçimde çıkarılıyor. Qwen2.5-7B modelinde küçük hatalar görülürken, Qwen2.5-14B yüksek doğruluğunu koruyor
  • Karmaşık görev değerlendirmesi:
    • RULER, LV-Eval, LongbenchChat gibi testlerde Qwen2.5-1M modeli, 128K modele göre daha iyi performans gösteriyor
    • Özellikle Qwen2.5-14B, GPT-4o-mini ile karşılaştırıldığında da genel olarak daha yüksek performans sunuyor

Kısa bağlam görevleri

  • Kısa görevlerde de Qwen2.5-1M modeli, 128K sürümle aynı performansı koruyor
  • Kısa bağlam görevlerinde GPT-4o-mini’ye benzer performans gösterirken, en fazla 8 kat daha uzun bağlam desteği sunuyor

Temel teknolojiler

Uzun bağlam eğitimi

  • Bağlam uzunluğu 4K’den 256K’ye kademeli olarak genişletildi
  • RoPE tabanlı ayarlama, aşamalı eğitim ve pekiştirmeli öğrenme uygulandı
  • Dual Chunk Attention(DCA) tekniğiyle 1M token bağlama ölçeklenme destekleniyor
  • DCA, ek eğitim olmadan da uzun bağlamlarda yüksek doğruluğu koruyor

Seyrek dikkat (Sparse Attention)

  • MInference tabanlı seyrek dikkat kullanıma alındı
  • Chunked Prefill entegrasyonu: bellek kullanımı %96,7 azaltıldı
  • Length Extrapolation entegrasyonu: DCA ile birleştirilerek doğruluk ve çıkarım verimliliği artırıldı
  • Sparsity Refinement on Long Sequences: optimize edilmiş seyrekleştirme yapılandırmasıyla uzun bağlamlarda performans kaybı en aza indirildi
  • Sonuç olarak 1M token uzunluğunda çıkarım hızı 3,2 kat ile 6,7 kat arasında artırıldı

Qwen2.5-1M’i yerel ortama dağıtma

Sistem gereksinimleri

  • CUDA 12.1/12.3, Python 3.9~3.12
  • VRAM gereksinimleri:
    • Qwen2.5-7B: 120GB ve üzeri
    • Qwen2.5-14B: 320GB ve üzeri

Kurulum ve çalıştırma

  1. vLLM deposunu klonlayıp kurun
  2. OpenAI uyumlu API hizmetini başlatın
  3. Modelle curl veya Python üzerinden etkileşim kurabilirsiniz

Bundan sonraki yönelim

  • Daha verimli eğitim, model mimarisi ve çıkarım yöntemleri üzerinde çalışılıyor
  • Hem kısa hem uzun bağlamda üstün performans hedefiyle geliştiriliyor
  • Uzun bağlam modellerinin pratik kullanım alanlarını genişletme planı sürüyor

3 yorum

 
yangeok 2025-01-30

Yerelde Koreceyi iyi çalıştırır mı acaba

 
GN⁺ 2025-01-29
Hacker News yorumları
  • Yapay zeka ile kodlamada çok büyük context window'lar pratikte pek faydalı değil. Yaklaşık 25-30k token'ın üzerine çıkınca modelin kafası karışıyor

    • Bu sorun gpt-4o, Sonnet, DeepSeek gibi modellerde görülüyor
    • Birçok kullanıcı bu sorunu bildiriyor ve bunu çözmek için özel yardım sayfaları hazırlanmış
    • Büyük context, çok sayıda "düşük değerli" context içeren belirli işler için faydalı olabilir, ancak kodlama tarafında sorun çıkarabiliyor
  • Ollama'da context window uzunluğunu kontrol eden num_ctx parametresi var ve varsayılan değer 2048

    • macOS'ta MLX kullanarak çalıştırmaya dair bir ipucu da var
  • Bellek merkezli hesaplamada en güncel teknikler (SOTA) üzerine bir tartışma var

    • Yapay zeka bellek maliyetlerini düşürmek için yeni bir paradigma gerekebilir
    • DRAM ile optik interconnect'leri bağlamanın bir yolu olabilir
    • Diziye bağımlı olmayan, transformer benzeri işlevlere sahip bir şey olup olmadığı merak ediliyor
  • 128K'nin üzerinde context uzunluğuna sahip, yerelde çalıştırılabilen ilk modelin doğrudan 1M'e çıkıp çıkmadığını doğrulamak isteniyor

  • Mac'te uzun prompt'ları başarıyla çalıştıran kişilerin deneyimlerini duymak isteniyor

  • 1M context window'a sahip, yalnızca API üzerinden sunulan bir model kasım ayında yayımlandı

  • Native context uzunluğuna dair söylentiler duyulmuş, ancak bunun gerçekten 1M context uzunluğu olup olmadığı net değil

    • llama3 8b gibi modellerin daha büyük context sunduğu söylense de pratikte durum öyle değil
    • 16gb vram'de 8k'nin üstüne çıkmak zor
  • Herkes context window'u büyütmeye odaklanıyor, ancak output tarafını da düşünmek gerekiyor

    • Binlerce satır kod üretmek isteniyor; bununla ilgili ipucu olup olmadığı soruluyor