- Kaggle'a yasa dışı olarak yüklenen Harry Potter veri setini kullanarak SQL tabanlı RAG uygulaması oluşturma sürecini sunan bir yazıydı, ancak artık silinmiş durumda
- Azure SQL ve Microsoft Fabric SQL DB, yerel vektör aramayı destekliyor ve
langchain-sqlserver ile Vector Store yönetimi mümkün
- Azure Blob Storage'dan yükleme, metni parçalara bölme, Azure OpenAI embedding'leri oluşturma ve ardından vektörleri SQL'e kaydetme akışı kuruluyor
- Vektör benzerliği araması ve metadata filtreleri kullanılarak doğru bir Soru-Cevap sistemi oluşturuluyor
- Aynı vektör deposu kullanılarak GPT4o tabanlı fan fiction üretme özelliğine kadar genişletiliyor
- Archive.is bağlantısı
Azure SQL yerel vektör desteği ve LangChain entegrasyonu
- Azure SQL ve Microsoft Fabric SQL DB'de yerel vektör arama özelliği genel önizleme olarak sunuluyor
langchain-sqlserver paketinin yayımlanmasıyla SQL Server, LangChain Vector Store olarak yönetilebiliyor
- PyPI ve GitHub deposu üzerinden kurulum ve örnek kodlar sağlanıyor
- Azure SQL DB, LangChain ve LLM birleştirilerek yalnızca birkaç satır kodla üretken yapay zeka özellikleri eklemek mümkün
Örnek veri seti yapısı
- Kaggle'da sunulan 7 Harry Potter kitabının metin veri seti kullanılıyor
- 7 adet
.txt dosyası içeriyor
- Demoda yalnızca 1. kitap olan Harry Potter and the Sorcerer’s Stone kullanılıyor
- Geniş kitlelerce bilinen bir veri seti kullanılarak anlaşılması kolay bir örnek oluşturuluyor
Örnek uygulama oluşturma adımları
1. langchain-sqlserver paketini kurma
- Entegrasyon paketi
pip install langchain-sqlserver==0.1.1 komutuyla kuruluyor
- SQL tabanlı vektör deposu özelliği etkinleştiriliyor
2. Azure Blob Storage verisini yükleme ve parçalara bölme
- Harry Potter metin dosyaları Azure Blob Storage'a kaydedilip yükleniyor
- LangChain'in AzureBlobStorage entegrasyonu kullanılıyor
- Uzun metinler
langchain-text-splitter ile küçük parçalara ayrılıyor
- Amaç, Azure OpenAI embedding giriş token sınırına uyum sağlamak
3. Embedding ve Chat Completion tanımlama
- Her parça için metin embedding'leri oluşturmak üzere Azure OpenAI kullanılıyor
- LangChain'in sunduğu farklı embedding modelleriyle değiştirilebiliyor
- Chat Completion yapılandırılarak soru-cevap işleme hazırlığı yapılıyor
4. Vector Store'u başlatma ve belge ekleme
- AzureOpenAI embedding'leriyle birlikte Vector Store başlatılıyor
add_documents fonksiyonuyla belgeler ve embedding'ler Azure SQL'e kaydediliyor
- Az miktarda kodla vektör üretimi ve depolaması yapılabiliyor
5. Benzerlik araması yapma
similarity_search_with_score fonksiyonuyla vektör benzerliği araması yürütülüyor
- Metadata filtresi destekleniyor
- Belirli metadata özelliklerine göre arama kapsamı sınırlandırılabiliyor
Kullanım Senaryosu 1: Soru-Cevap sistemi kurma
- SQL Vector Store ve LangChain tabanlı hikâye Soru-Cevap sistemi uygulanıyor
- Kullanıcı sorusu için en ilgili ilk 10 belge aranıp yanıt oluşturuluyor
vector_store tabanlı bir retriever oluşturuluyor
create_stuff_documents_chain ile soru-yanıt zinciri kuruluyor
ChatPromptTemplate ile yapılandırılmış yanıt formatı tanımlanıyor
create_retrieval_chain kullanıldığında bulunan belgeler "context" anahtarıyla birlikte döndürülüyor
- Yanıt üretiminde kullanılan kaynak gösterme özelliği destekleniyor
Kullanım Senaryosu 2: Harry Potter fan fiction üretimi
- Vektör deposu tabanlı yeni bir yapay zeka fan fiction üretme özelliği uygulanıyor
- Kullanıcı prompt'u girildiğinde ilgili paragraflar aranıyor
- SQL vektör deposunda saklanan embedding'lere dayalı bağlamsal benzerlik araştırılıyor
- Bulunan paragraflar tek bir string olarak düzenlenip model girdisi için bağlam oluşturuluyor
- GPT4o modeline bağlam ve kullanıcı prompt'u birlikte iletiliyor
- Mevcut bağlamsal unsurları yansıtan yeni bir hikâye üretiliyor
- Üretim sonucuyla birlikte başvurulan vektör kaynak bilgileri de gösteriliyor
Entegre kullanım senaryosu
- Soru-Cevap sistemi ile fan fiction üretme özelliği birleştirilerek etkileşimli bir okuma deneyimi sunuluyor
- Kitap içeriğini anlamak gerektiğinde Soru-Cevap kullanılabiliyor
- Belirli bir sahnenin genişletilmesi veya alternatif bir son üretilmesi mümkün
Kod örnekleri ve kaynaklar
- LangChain-SQL-RAG notebook GitHub deposu sağlanıyor
- Azure SQL ve SQL Server geri bildirim portalı üzerinden özellik iyileştirme talepleri iletilebiliyor
1 yorum
Hacker News görüşleri
Microsoft’taki bu olayın telif hakkı sorunundan daha temel bir süreç çöküşünü gösterdiği düşünülüyor
Bir belge bile incelenmiyorsa, yeni kodun düzgün review ediliyor olma ihtimali ne kadar diye sorgulatıyor
Yönetime şunu sormak istiyorum — güvenlik, kalite ve yapay zeka inovasyonu arasındaki bu üç sütundan hangisini seçecekler
(Scott Hanselman, seni seviyorum ama buna doğrudan cevap verme; lütfen bunu liderliğe ilet)
O dönemde onay süreci olmadan kişisel olarak yazı yayımlayabiliyorduk, bu yüzden blog daha doğal ve samimi bir alandı
Bu olay daha çok birinin hatalı bir kararı gibi görünüyor ve yazının kaldırılması da doğal bir adım gibi duruyor
Ama daha önemli olan, o yazarın bağlı olduğu ekibin yapay zeka eğitimi için telif ihlalini meşrulaştırıp meşrulaştırmadığı
Görünüşe göre bu meseleye sadece iç hukukçular değil, dışarıdakiler de bakacak
Kodda bug’lardan kaynaklı ciddi sorun ihtimali olduğu için biçimsel review süreçleri var,
ama belgeler yazılımın davranışını doğrudan etkilemediğinden aynı düzeyde katılık uygulanmıyor
Bir belgenin incelenmemiş olması, kodun da incelenmediği anlamına gelmez
Büyük organizasyonlarda bölümler arasında doğrulama seviyesi farklı uygulanır ve kod üzerinde belgelere kıyasla çok daha sıkı kontroller vardır
Neredeyse Stack Overflow yanıtlarını olduğu gibi kopyalamış düzeydeydi ve bunu hata mesajı ararken görünce
sinirlenmekten çok sadece hayal kırıklığına uğradım
Microsoft’un blog yazısı Kaggle’daki Harry Potter veri kümesi sayfasına bağlantı veriyordu
O sayfa CC0 yani public domain olduğunu iddia ediyor ama açıkça telif sorunu taşıyor
Üstelik bu yazı 2024 Kasım’ından beri yayındaymış ve hâlâ kaldırılmamış olması şaşırtıcı
“Report Dataset” özelliğiyle bildirmek istedim ama Google’ın telif bildirimi sayfasına yönlendirdi
Ama “telif sahibi ya da temsilcisi değilseniz bildiremezsiniz” mesajıyla reddedildim
Tam bir komedi gibi bir durum. O veri kümesi düpedüz hırsızlık
Asıl sorumluluk muhtemelen yanlış lisansla yükleyen kişidedir
Yine de “Harry Potter” adını gören herkes bunun public domain olmadığını anlayabilir,
dolayısıyla sağduyu açısından Microsoft’un da sorumluluktan tamamen kaçması zor
Microsoft sonunda ilgili sayfayı kaldırdı
Ama archive.is üzerinde korunmuş bir kopya duruyor
Başlığı “5 dakikada RAG uygulaması yapmak” gibiydi ve Azure ile GPT kullanan bir örnekti
İnsanların hâlâ o siteyi kullanması hayal kırıklığı yaratıyor
Blogun yapay zeka ile üretilmiş küçük görselinde(görsel bağlantısı)
genç Harry ve arkadaşı Microsoft logosunun önünde duruyordu. Gerçekten şaşırtıcı
Muhtemelen kadraj biraz daha geniş olsaydı vagon bağlantı kısmı hiç olmayacaktı
Microsoft’tan hoşlanmayan biri olarak bile, bu olayı “korsan rehberi” diye yaftalamak abartılı geliyor
Bu sadece araştırma amaçlı bir örnek, ürün entegrasyonu değil
Telif tekelleri ve fair use etrafındaki aşırı tepki de utanılacak düzeyde
Araştırma için bile olsa kullanılan metinlerin karşılığını ödeyebilecek gücü fazlasıyla var
Ticari LLM şirketlerinin çoğu benzer şeyler yapıyor
Normal bir insan için yasa dışı olacak bir eylem, kurumsal bir blogda rehber olarak anlatılmış oldu
Anthropic’in telif ihlali nedeniyle 1,5 milyar dolarlık bir uzlaşmaya vardığı örneği de var
Ben de mevcut telif sistemi sevmiyorum ama şirketlerle bireylere farklı standart uygulanmasını kabul edemem
Bu bir korsan rehberi değil, sadece bir veri kümesinin SQL’e nasıl dahil edileceğini anlatan bir yazıydı
Asıl sorumluluk belki de Kaggle’da ya da yükleyen Shubham Maindola tarafındadır
“Harry Potter e-kitaplarını txt’ye dönüştürdüm” şeklindeki veri kaynağı açıklaması tüyler ürpertici
Buna rağmen Kaggle puanının 10.0 olması da şaşırtıcı
Bu yazı 2024’te yayımlanmış ve Kaggle veriyi barındırıyor
Rowling tarafının neden hâlâ hiçbir şey yapmadığı merak konusu
Kaggle indirme sayısı 10 bin civarında olduğundan dikkat çekmemiş olabilir
Ama bu açıkça çizgiyi aşan bir durum
Daha önce de Microsoft’un yapay zeka bağlantılı intihal olayı olmuştu,
o zaman da iç denetim sürecinin neredeyse hiç olmadığı söylenmişti
İlgili başlık: “Microsoft morged my diagram”
Ama artık ticari modeller ortaya çıktığı için durum tamamen değişti
Books3 gibi yüz binlerce telifli kitabı içeren veri kümeleri de bir dönem kamuya açılmıştı
Sayfa zaten silinmiş ama web arşivi kopyası duruyor
Etik bilinci eksik insanların geleceğin teknolojisini yapıyor olması kaygı verici
Bu kadar sıkı işe alım süreçlerinden geçmiş insanlar böyle kararlar veriyorsa,
gerçekten önemli kararların ne kadar riskli olabileceğini düşündürüyor
Ama bu onu mazur göstermez
Artık fikri mülkiyetin anlamsızlaştığı bir dünyada yaşıyor gibiyiz
Bu yüzden şaka yollu, “Harry Potter’ı aynen üreten yapay zeka roman girişimine” yatırım yapmak isteyen var mı diye soruluyor
Yapay zekanın şimdiye kadar istikrarlı biçimde iyi yaptığı tek şey mizah gibi görünüyor
sonsuz ölçeklenebilir bir yapay zeka startup’ı fikri de ortaya atılıyor
mevcut ürünlerle benzerliğin “tamamen tesadüf” olduğu söylenerek taşlama yapılıyor
Sıradan biri yaparsa yine her şeyini kaybedip hapse gider
Microsoft’un son dönemdeki gidişatına bakınca, bu olay hiç de şaşırtıcı değil
2026’daki Microsoft’ta sanki telif hukuku ve fikri mülkiyet artık geçerli değilmiş gibi bir hava var