Ask HN: GPT'den kendi modeline geçenlerin deneyimi nasıldı?
(news.ycombinator.com)HN'de paylaşılan bir soruya verilen yanıtların derlemesi
- Onlarca müşterinin OpenPipe üzerinde GPT-4/GPT-3.5'ten kendi ince ayarlı modellerine geçmesine yardımcı olundu
- En yaygın tepki, "Vay canına, bu kadar az çabayla bu kadar iyi çalışacağını bilmiyordum" oldu
- Çoğu görevde ince ayarlı Mistral 7B, çok daha düşük maliyetle GPT-3.5'i geride bırakıyor
- Bazı kullanım senaryolarında GPT-4'e benzer ya da daha iyi performans gösteriyor (özellikle sınıflandırma, bilgi çıkarımı ve özetleme gibi görevlerde)
- Mistral-Instruct-0.1 telefon/e-posta özetleri için, Mixtral sözleşme madenciliği için, OpenChat ise RAG araçlarına sahip ajan sohbet botlarını güçlendirmek için kullanıldı
- Deneyim harikaydı; INT8 ödünleşimi, donanımsal FP8(FP4) daha yaygın ve daha ucuz hale gelene kadar kabul edilebilir
- On-premise maliyet, hâlihazırda A100 ve V100 legacy donanımı kullanılarak milyonlarca etkileşimi çalıştırma içinde zaten absorbe edilmiş durumda
- Continue ve Ollama birlikte kullanılıyor; ağırlıklı olarak kullanılan LLM deepseek-coder 7b. Bu kurulum ChatGPT 4 kadar iyi, local-first ve genel olarak tatmin edici
- Teknik işler yapmak için LLM ayarlandı ve çok iyi çalıştı. Ancak LLM'leri değerlendirmek beklenmedik şekilde zor; ayrıca GPT-4'ün genel olarak o kadar da mükemmel olmadığı görüldü
- 10.000'den fazla kayıt üzerinde veri çıkarma veya işleme yapılırken yerel modeller tercih ediliyor. Bu ölçekte hosting hizmetleri yavaş ve kırılgan kalıyor. İnce ayarlı Mistral 7B (en iyisi OpenChat) veriyi hızlı işliyor. Karmaşık prompt'lardaki bilgiyi özetlemek için ChatGPT-4 kullanılıyor, ardından bu yerel modelde çalıştırılıyor. Zamanla durumun daha da iyileşeceği düşünülüyor
- Uygulama ve kurumsal ürünlerde hem OpenAI API'si hem de on-device kütüphaneler (ör. llama.cpp) destekleniyor. API ve kütüphaneler çok benzer olduğu için geçiş süreci kullanıcı açısından neredeyse görünmez. Diğer platformların API'leri de yakında desteklenecek ve OpenAI kadar kolay entegre edilebilecek
- Wi‑Fi olmayan bir uçuş sırasında Mistral 7B kullanıldı; ihtiyaç duyulan bilgiyi bulmada oldukça iyiydi, ancak adım adım talimat verirken başarı durumu değişkendi
- Double.bot geliştirilirken birçok model test edildi ama sonunda tekrar gpt4'e dönüldü. Diğer modeller eğlenceli olsa da, gpt4'ün çözdüğü 100 sorudan 1'ini kaçırmak bile hayal kırıklığı yaratıyor. Şu anda daha fazla değer, modelin etrafındaki özellikleri uygulamaktan geliyor; bu da GitHub Copilot'un sorunlarını gideriyor (parantezleri doğru kapatan otomatik tamamlama, öneri kabul edildiğinde otomatik import, yorum yazarken rahatsız etmemesi için önerileri devre dışı bırakma, satır ortasında tamamlama vb.). Önümüzdeki 6 ay içinde açık kaynak modellerin gpt4'ü yakalaması umuluyor
- Genel olarak Llama 2'nin, özellikle İngilizce dışındaki dillerde, oldukça kötü olduğu düşünülüyor. Sohbet için Mixtral ile çok iyi sonuçlar alındı. Elbette gerçek ChatGPT ile kıyaslandığında hepsi biraz Frankenstein gibi hissettiriyor. Benzer davranıp iyi çalışıyorlar ama bazen tamamen berbat çıktılar veya artifact'ler üreterek ince ayarın ihmal edilip edilmediğini düşündürüyorlar
- İlk aşama kendi modelle yürütülüyor; kendi modelin sonucundan emin olunmadığında gpt'ye escalation yapılıyor
- 2024'te, daha fazla kişinin maliyet ve gecikme nedeniyle OpenAI'den ayrılmasının beklendiği belirtiliyor; özellikle de daha az kanıtlanmış/ölçeklenmiş rakiplere kıyasla. Hız ile kalite çoğu zaman ödünleşim içinde ve OpenAI'den 3 kat daha hızlı olup kalitenin 1/3'ünden fazlasını sunan birden fazla sağlayıcı görüldüğü ifade ediliyor
- Scripting, fikir arama ve/veya her zaman fact-check gerektiren tanımlar gibi kullanım senaryoları için Mixtral 8x7b (q5) kullanılıyor. Şu anda 96GB RAM'li bir M2 üzerinde lmstudio kullanılıyor. Ancak Ollama veya başka bir OSS çözümüne geçiş değerlendiriliyor
1 yorum
Bunun HN olduğu için İngilizceyi temel aldığını akılda tutmak gerekir.