- Qwen2.5-1M, bağlam uzunluğunu 1M tokene kadar destekleyen yüksek performanslı açık kaynaklı bir model ve 2 ay önce tanıtılan Qwen2.5-Turbo’yu geliştiriyor
- İki kontrol noktası yayımlandı: Qwen2.5-7B-Instruct-1M ve Qwen2.5-14B-Instruct-1M
- Qwen model ailesinde ilk kez 1M token bağlam desteği sunuluyor
- Çıkarım çerçevesi yayımlandı: vLLM tabanlı optimize edilmiş bir çıkarım çerçevesi sağlanıyor. Seyrek dikkat (sparse attention) tekniğinin entegrasyonu sayesinde 1M token girdiler 3~7 kat daha hızlı işleniyor
- Teknik rapor yayımlandı: Eğitim ve çıkarım çerçevesi tasarımı ile deney sonuçlarını içeren ayrıntılı bir teknik rapor paylaşıldı
Model performansı
Uzun bağlam görevleri
- Passkey Retrieval değerlendirmesi: 1M tokenlık belgelerden bilgi doğru biçimde çıkarılıyor. Qwen2.5-7B modelinde küçük hatalar görülürken, Qwen2.5-14B yüksek doğruluğunu koruyor
- Karmaşık görev değerlendirmesi:
- RULER, LV-Eval, LongbenchChat gibi testlerde Qwen2.5-1M modeli, 128K modele göre daha iyi performans gösteriyor
- Özellikle Qwen2.5-14B, GPT-4o-mini ile karşılaştırıldığında da genel olarak daha yüksek performans sunuyor
Kısa bağlam görevleri
- Kısa görevlerde de Qwen2.5-1M modeli, 128K sürümle aynı performansı koruyor
- Kısa bağlam görevlerinde GPT-4o-mini’ye benzer performans gösterirken, en fazla 8 kat daha uzun bağlam desteği sunuyor
Temel teknolojiler
Uzun bağlam eğitimi
- Bağlam uzunluğu 4K’den 256K’ye kademeli olarak genişletildi
- RoPE tabanlı ayarlama, aşamalı eğitim ve pekiştirmeli öğrenme uygulandı
- Dual Chunk Attention(DCA) tekniğiyle 1M token bağlama ölçeklenme destekleniyor
- DCA, ek eğitim olmadan da uzun bağlamlarda yüksek doğruluğu koruyor
Seyrek dikkat (Sparse Attention)
- MInference tabanlı seyrek dikkat kullanıma alındı
- Chunked Prefill entegrasyonu: bellek kullanımı %96,7 azaltıldı
- Length Extrapolation entegrasyonu: DCA ile birleştirilerek doğruluk ve çıkarım verimliliği artırıldı
- Sparsity Refinement on Long Sequences: optimize edilmiş seyrekleştirme yapılandırmasıyla uzun bağlamlarda performans kaybı en aza indirildi
- Sonuç olarak 1M token uzunluğunda çıkarım hızı 3,2 kat ile 6,7 kat arasında artırıldı
Qwen2.5-1M’i yerel ortama dağıtma
Sistem gereksinimleri
- CUDA 12.1/12.3, Python 3.9~3.12
- VRAM gereksinimleri:
- Qwen2.5-7B: 120GB ve üzeri
- Qwen2.5-14B: 320GB ve üzeri
Kurulum ve çalıştırma
- vLLM deposunu klonlayıp kurun
- OpenAI uyumlu API hizmetini başlatın
- Modelle
curl veya Python üzerinden etkileşim kurabilirsiniz
Bundan sonraki yönelim
- Daha verimli eğitim, model mimarisi ve çıkarım yöntemleri üzerinde çalışılıyor
- Hem kısa hem uzun bağlamda üstün performans hedefiyle geliştiriliyor
- Uzun bağlam modellerinin pratik kullanım alanlarını genişletme planı sürüyor
3 yorum
Yerelde Koreceyi iyi çalıştırır mı acaba
2023-08-03 Alibaba, açık kaynak yapay zeka modeli QWEN'i duyurdu
2024-04-25 Qwen1.5-110B : Alibaba'nın açık kaynak LLM serisi Qwen1.5'in ilk 100B+ modeli
2024-06-07 Alibaba, Qwen 2 modelini duyurdu
2024-09-19 Qwen2.5 - birden fazla foundation model duyuruldu
2024-11-28 QwQ - Alibaba'nın ChatGPT o1'e benzer akıl yürütme LLM'i
2024-12-24 Qwen'in yeni görsel akıl yürütme modeli QvQ kullanım deneyimi
Hacker News yorumları
Yapay zeka ile kodlamada çok büyük context window'lar pratikte pek faydalı değil. Yaklaşık 25-30k token'ın üzerine çıkınca modelin kafası karışıyor
Ollama'da context window uzunluğunu kontrol eden
num_ctxparametresi var ve varsayılan değer 2048Bellek merkezli hesaplamada en güncel teknikler (SOTA) üzerine bir tartışma var
128K'nin üzerinde context uzunluğuna sahip, yerelde çalıştırılabilen ilk modelin doğrudan 1M'e çıkıp çıkmadığını doğrulamak isteniyor
Mac'te uzun prompt'ları başarıyla çalıştıran kişilerin deneyimlerini duymak isteniyor
1M context window'a sahip, yalnızca API üzerinden sunulan bir model kasım ayında yayımlandı
Native context uzunluğuna dair söylentiler duyulmuş, ancak bunun gerçekten 1M context uzunluğu olup olmadığı net değil
Herkes context window'u büyütmeye odaklanıyor, ancak output tarafını da düşünmek gerekiyor