5 puan yazan GN⁺ 2023-10-25 | 1 yorum | WhatsApp'ta paylaş
  • 'Embedding' adı verilen tekniğin kavramını ele alan bir makale; bu teknik, içeriği kayan noktalı sayı dizilerine dönüştürerek çeşitli uygulamalarda kullanılmasını sağlar.
  • Yazar Simon Willison, PyBay 2023’te embedding’ler hakkında bir konuşma yaptı ve bu makale o konuşmanın geliştirilmiş bir sürümüdür.
  • Embedding’ler, ChatGPT, Bard ve Claude gibi teknolojileri destekleyen büyük dil modeli alanında kullanılır.
  • Yazar, OpenAI text-embedding-ada-002 modelini kullanarak kendi blogunda “ilgili içerik” özelliğini nasıl oluşturduğunu anlatır.
  • Makale ayrıca Symbex adlı aracı kullanarak kod için embedding’lerin nasıl kullanılacağını da ele alır; bu araç, kod tabanındaki tüm fonksiyonlar için embedding hesaplayabilir ve bir kod arama motoru oluşturabilir.
  • Yazar, embedding kullanmak ve anlamsal arama motorları kurmak için kullanılabilecek LLM (Large Language Models) aracını tanıtır.
  • Makale ayrıca CLIP adlı modeli kullanarak görseller için embedding’lerin nasıl kullanılacağını da ele alır; bu model, metni ve görselleri aynı vektör uzayına gömebilir.
  • Yazar, embedding kullanarak sınıflandırmanın nasıl yapılacağını tartışır; embedding gruplarının ortalama konumunu hesaplayıp yeni içeriği bu konumla karşılaştırarak kategori atamanın nasıl yapılacağını açıklar.
  • Makale, kişisel belgeler veya şirket içi belgeler temelinde soruları yanıtlamak için embedding kullanan bir teknik olan Retrieval-Augmented Generation (RAG) tartışmasıyla sona erer.
  • Makalede, yazarın LangChain, kosinüs benzerliği dışındaki uzaklık fonksiyonları, büyük hacimli veri işleme ve embedding modellerindeki gelecekteki gelişmelerle ilgili soruları yanıtladığı bir Soru-Cevap bölümü de yer alır.

1 yorum

 
GN⁺ 2023-10-25
Hacker News görüşü
  • Yazar, makaleyi yayımladıktan sonra embedding'leri daha derinlemesine anlamaya yardımcı olacak ek kaynaklar buldu.
  • Embedding'ler, bilgisayarlı görü ve görsel SLAM algoritmalarında yer tanımanın standart yöntemi hâline geldi.
  • Kelime embedding'lerinin ünlü bir örneği King - Man + Women = Queen olsa da, bu 2 boyuta yansıtıldığında görsel olarak etkileyici bir izlenim bırakmıyor.
  • Autoencoding, basitliğine rağmen iyi çalışıyor ve kişisel donanımda çalıştırılabilecek iyi belge embedding modeli'lerine ilgi var.
  • Embedding'ler, not alma uygulamalarındaki mevcut uzman arama işlevine şaşırtıcı derecede kolay eklenebildi ve beklenenden daha güçlüydü.
  • Dilde embedding'ler için zihinsel model, son derece yüksek boyutlu bir uzayda birçok konumda çok sayıda nokta bulunması şeklinde açıklanıyor.
  • Belirli bir alan için geliştirme yapılırken ticari embedding modellerinin sınırlamaları var ve embedding modellerini ince ayarlamaya yönelik daha iyi araçlar ile literatüre dair bir beklenti bulunuyor.
  • Makale, makine öğrenimi geçmişi neredeyse hiç olmayan kişiler için bile faydalı ve ilgi çekiciydi.
  • Yazarın dot product hesaplamak için neden vektörleştirilmiş numpy işlemleri yerine belirli bir yöntemi kullandığına dair sorular var.
  • Makalede kullanılan clustering kodu konusunda kafa karışıklığı var; özellikle veritabanındaki her satırın bir numpy dizisine dönüştürülmesi ve MiniBatchKMeans modeli kullanılarak etiketlerin üretilmesi yöntemi hakkında.