Qwen2.5-1M - 1 milyon tokene kadar destekleyen Qwen’i kendi ortamınızda dağıtın

(qwenlm.github.io)

4 puan yazan GN⁺ 2025-01-29 | 3 yorum | WhatsApp'ta paylaş

Qwen2.5-1M, bağlam uzunluğunu 1M tokene kadar destekleyen yüksek performanslı açık kaynaklı bir model ve 2 ay önce tanıtılan Qwen2.5-Turbo’yu geliştiriyor
İki kontrol noktası yayımlandı: Qwen2.5-7B-Instruct-1M ve Qwen2.5-14B-Instruct-1M
- Qwen model ailesinde ilk kez 1M token bağlam desteği sunuluyor
Çıkarım çerçevesi yayımlandı: vLLM tabanlı optimize edilmiş bir çıkarım çerçevesi sağlanıyor. Seyrek dikkat (sparse attention) tekniğinin entegrasyonu sayesinde 1M token girdiler 3~7 kat daha hızlı işleniyor
Teknik rapor yayımlandı: Eğitim ve çıkarım çerçevesi tasarımı ile deney sonuçlarını içeren ayrıntılı bir teknik rapor paylaşıldı

Model performansı

Uzun bağlam görevleri

Passkey Retrieval değerlendirmesi: 1M tokenlık belgelerden bilgi doğru biçimde çıkarılıyor. Qwen2.5-7B modelinde küçük hatalar görülürken, Qwen2.5-14B yüksek doğruluğunu koruyor
Karmaşık görev değerlendirmesi:
- RULER, LV-Eval, LongbenchChat gibi testlerde Qwen2.5-1M modeli, 128K modele göre daha iyi performans gösteriyor
- Özellikle Qwen2.5-14B, GPT-4o-mini ile karşılaştırıldığında da genel olarak daha yüksek performans sunuyor

Kısa bağlam görevleri

Kısa görevlerde de Qwen2.5-1M modeli, 128K sürümle aynı performansı koruyor
Kısa bağlam görevlerinde GPT-4o-mini’ye benzer performans gösterirken, en fazla 8 kat daha uzun bağlam desteği sunuyor

Temel teknolojiler

Uzun bağlam eğitimi

Bağlam uzunluğu 4K’den 256K’ye kademeli olarak genişletildi
RoPE tabanlı ayarlama, aşamalı eğitim ve pekiştirmeli öğrenme uygulandı
Dual Chunk Attention(DCA) tekniğiyle 1M token bağlama ölçeklenme destekleniyor
DCA, ek eğitim olmadan da uzun bağlamlarda yüksek doğruluğu koruyor

Seyrek dikkat (Sparse Attention)

MInference tabanlı seyrek dikkat kullanıma alındı
Chunked Prefill entegrasyonu: bellek kullanımı %96,7 azaltıldı
Length Extrapolation entegrasyonu: DCA ile birleştirilerek doğruluk ve çıkarım verimliliği artırıldı
Sparsity Refinement on Long Sequences: optimize edilmiş seyrekleştirme yapılandırmasıyla uzun bağlamlarda performans kaybı en aza indirildi
Sonuç olarak 1M token uzunluğunda çıkarım hızı 3,2 kat ile 6,7 kat arasında artırıldı

Qwen2.5-1M’i yerel ortama dağıtma

Sistem gereksinimleri

CUDA 12.1/12.3, Python 3.9~3.12
VRAM gereksinimleri:
- Qwen2.5-7B: 120GB ve üzeri
- Qwen2.5-14B: 320GB ve üzeri

Kurulum ve çalıştırma

vLLM deposunu klonlayıp kurun
OpenAI uyumlu API hizmetini başlatın
Modelle curl veya Python üzerinden etkileşim kurabilirsiniz

Bundan sonraki yönelim

Daha verimli eğitim, model mimarisi ve çıkarım yöntemleri üzerinde çalışılıyor
Hem kısa hem uzun bağlamda üstün performans hedefiyle geliştiriliyor
Uzun bağlam modellerinin pratik kullanım alanlarını genişletme planı sürüyor

3 yorum

yangeok 2025-01-30

Yerelde Koreceyi iyi çalıştırır mı acaba

xguru 2025-01-29

2023-08-03 Alibaba, açık kaynak yapay zeka modeli QWEN'i duyurdu
2024-04-25 Qwen1.5-110B : Alibaba'nın açık kaynak LLM serisi Qwen1.5'in ilk 100B+ modeli
2024-06-07 Alibaba, Qwen 2 modelini duyurdu
2024-09-19 Qwen2.5 - birden fazla foundation model duyuruldu
2024-11-28 QwQ - Alibaba'nın ChatGPT o1'e benzer akıl yürütme LLM'i
2024-12-24 Qwen'in yeni görsel akıl yürütme modeli QvQ kullanım deneyimi

GN⁺ 2025-01-29

Hacker News yorumları

Yapay zeka ile kodlamada çok büyük context window'lar pratikte pek faydalı değil. Yaklaşık 25-30k token'ın üzerine çıkınca modelin kafası karışıyor
- Bu sorun gpt-4o, Sonnet, DeepSeek gibi modellerde görülüyor
- Birçok kullanıcı bu sorunu bildiriyor ve bunu çözmek için özel yardım sayfaları hazırlanmış
- Büyük context, çok sayıda "düşük değerli" context içeren belirli işler için faydalı olabilir, ancak kodlama tarafında sorun çıkarabiliyor
Ollama'da context window uzunluğunu kontrol eden num_ctx parametresi var ve varsayılan değer 2048
- macOS'ta MLX kullanarak çalıştırmaya dair bir ipucu da var
Bellek merkezli hesaplamada en güncel teknikler (SOTA) üzerine bir tartışma var
- Yapay zeka bellek maliyetlerini düşürmek için yeni bir paradigma gerekebilir
- DRAM ile optik interconnect'leri bağlamanın bir yolu olabilir
- Diziye bağımlı olmayan, transformer benzeri işlevlere sahip bir şey olup olmadığı merak ediliyor
128K'nin üzerinde context uzunluğuna sahip, yerelde çalıştırılabilen ilk modelin doğrudan 1M'e çıkıp çıkmadığını doğrulamak isteniyor
Mac'te uzun prompt'ları başarıyla çalıştıran kişilerin deneyimlerini duymak isteniyor
1M context window'a sahip, yalnızca API üzerinden sunulan bir model kasım ayında yayımlandı
Native context uzunluğuna dair söylentiler duyulmuş, ancak bunun gerçekten 1M context uzunluğu olup olmadığı net değil
- llama3 8b gibi modellerin daha büyük context sunduğu söylense de pratikte durum öyle değil
- 16gb vram'de 8k'nin üstüne çıkmak zor
Herkes context window'u büyütmeye odaklanıyor, ancak output tarafını da düşünmek gerekiyor
- Binlerce satır kod üretmek isteniyor; bununla ilgili ipucu olup olmadığı soruluyor

Qwen2.5-1M - 1 milyon tokene kadar destekleyen Qwen’i kendi ortamınızda dağıtın

Model performansı

Uzun bağlam görevleri

Kısa bağlam görevleri

Temel teknolojiler

Uzun bağlam eğitimi

Seyrek dikkat (Sparse Attention)

Qwen2.5-1M’i yerel ortama dağıtma

Sistem gereksinimleri

Kurulum ve çalıştırma

Bundan sonraki yönelim

İlgili okumalar

3 yorum

Hacker News yorumları