Microsoft'un LLM eğitimi için korsan Harry Potter rehberi (2024) [Silindi]

(devblogs.microsoft.com)

1 puan yazan GN⁺ 2026-02-20 | 1 yorum | WhatsApp'ta paylaş

Kaggle'a yasa dışı olarak yüklenen Harry Potter veri setini kullanarak SQL tabanlı RAG uygulaması oluşturma sürecini sunan bir yazıydı, ancak artık silinmiş durumda
Azure SQL ve Microsoft Fabric SQL DB, yerel vektör aramayı destekliyor ve langchain-sqlserver ile Vector Store yönetimi mümkün
Azure Blob Storage'dan yükleme, metni parçalara bölme, Azure OpenAI embedding'leri oluşturma ve ardından vektörleri SQL'e kaydetme akışı kuruluyor
Vektör benzerliği araması ve metadata filtreleri kullanılarak doğru bir Soru-Cevap sistemi oluşturuluyor
Aynı vektör deposu kullanılarak GPT4o tabanlı fan fiction üretme özelliğine kadar genişletiliyor
Archive.is bağlantısı

Azure SQL yerel vektör desteği ve LangChain entegrasyonu

Azure SQL ve Microsoft Fabric SQL DB'de yerel vektör arama özelliği genel önizleme olarak sunuluyor
langchain-sqlserver paketinin yayımlanmasıyla SQL Server, LangChain Vector Store olarak yönetilebiliyor
- PyPI ve GitHub deposu üzerinden kurulum ve örnek kodlar sağlanıyor
Azure SQL DB, LangChain ve LLM birleştirilerek yalnızca birkaç satır kodla üretken yapay zeka özellikleri eklemek mümkün

Örnek veri seti yapısı

Kaggle'da sunulan 7 Harry Potter kitabının metin veri seti kullanılıyor
- 7 adet .txt dosyası içeriyor
- Demoda yalnızca 1. kitap olan Harry Potter and the Sorcerer’s Stone kullanılıyor
Geniş kitlelerce bilinen bir veri seti kullanılarak anlaşılması kolay bir örnek oluşturuluyor

Örnek uygulama oluşturma adımları

1. langchain-sqlserver paketini kurma

Entegrasyon paketi pip install langchain-sqlserver==0.1.1 komutuyla kuruluyor
SQL tabanlı vektör deposu özelliği etkinleştiriliyor

2. Azure Blob Storage verisini yükleme ve parçalara bölme

Harry Potter metin dosyaları Azure Blob Storage'a kaydedilip yükleniyor
LangChain'in AzureBlobStorage entegrasyonu kullanılıyor
Uzun metinler langchain-text-splitter ile küçük parçalara ayrılıyor
- Amaç, Azure OpenAI embedding giriş token sınırına uyum sağlamak

3. Embedding ve Chat Completion tanımlama

Her parça için metin embedding'leri oluşturmak üzere Azure OpenAI kullanılıyor
LangChain'in sunduğu farklı embedding modelleriyle değiştirilebiliyor
Chat Completion yapılandırılarak soru-cevap işleme hazırlığı yapılıyor

4. Vector Store'u başlatma ve belge ekleme

AzureOpenAI embedding'leriyle birlikte Vector Store başlatılıyor
add_documents fonksiyonuyla belgeler ve embedding'ler Azure SQL'e kaydediliyor
Az miktarda kodla vektör üretimi ve depolaması yapılabiliyor

5. Benzerlik araması yapma

similarity_search_with_score fonksiyonuyla vektör benzerliği araması yürütülüyor
Metadata filtresi destekleniyor
- Belirli metadata özelliklerine göre arama kapsamı sınırlandırılabiliyor

Kullanım Senaryosu 1: Soru-Cevap sistemi kurma

SQL Vector Store ve LangChain tabanlı hikâye Soru-Cevap sistemi uygulanıyor
Kullanıcı sorusu için en ilgili ilk 10 belge aranıp yanıt oluşturuluyor
vector_store tabanlı bir retriever oluşturuluyor
create_stuff_documents_chain ile soru-yanıt zinciri kuruluyor
ChatPromptTemplate ile yapılandırılmış yanıt formatı tanımlanıyor
create_retrieval_chain kullanıldığında bulunan belgeler "context" anahtarıyla birlikte döndürülüyor
- Yanıt üretiminde kullanılan kaynak gösterme özelliği destekleniyor

Kullanım Senaryosu 2: Harry Potter fan fiction üretimi

Vektör deposu tabanlı yeni bir yapay zeka fan fiction üretme özelliği uygulanıyor
Kullanıcı prompt'u girildiğinde ilgili paragraflar aranıyor
- SQL vektör deposunda saklanan embedding'lere dayalı bağlamsal benzerlik araştırılıyor
Bulunan paragraflar tek bir string olarak düzenlenip model girdisi için bağlam oluşturuluyor
GPT4o modeline bağlam ve kullanıcı prompt'u birlikte iletiliyor
- Mevcut bağlamsal unsurları yansıtan yeni bir hikâye üretiliyor
Üretim sonucuyla birlikte başvurulan vektör kaynak bilgileri de gösteriliyor

Entegre kullanım senaryosu

Soru-Cevap sistemi ile fan fiction üretme özelliği birleştirilerek etkileşimli bir okuma deneyimi sunuluyor
- Kitap içeriğini anlamak gerektiğinde Soru-Cevap kullanılabiliyor
- Belirli bir sahnenin genişletilmesi veya alternatif bir son üretilmesi mümkün

Kod örnekleri ve kaynaklar

LangChain-SQL-RAG notebook GitHub deposu sağlanıyor
- https://github.com/Azure-Samples/azure-sql-db-vector-search
Azure SQL ve SQL Server geri bildirim portalı üzerinden özellik iyileştirme talepleri iletilebiliyor

1 yorum

GN⁺ 2026-02-20

Hacker News görüşleri

Microsoft’taki bu olayın telif hakkı sorunundan daha temel bir süreç çöküşünü gösterdiği düşünülüyor
Bir belge bile incelenmiyorsa, yeni kodun düzgün review ediliyor olma ihtimali ne kadar diye sorgulatıyor
Yönetime şunu sormak istiyorum — güvenlik, kalite ve yapay zeka inovasyonu arasındaki bu üç sütundan hangisini seçecekler
(Scott Hanselman, seni seviyorum ama buna doğrudan cevap verme; lütfen bunu liderliğe ilet)
- Microsoft’ta uzun süre çalıştım ve blog da yürüttüm
  O dönemde onay süreci olmadan kişisel olarak yazı yayımlayabiliyorduk, bu yüzden blog daha doğal ve samimi bir alandı
  Bu olay daha çok birinin hatalı bir kararı gibi görünüyor ve yazının kaldırılması da doğal bir adım gibi duruyor
  Ama daha önemli olan, o yazarın bağlı olduğu ekibin yapay zeka eğitimi için telif ihlalini meşrulaştırıp meşrulaştırmadığı
  Görünüşe göre bu meseleye sadece iç hukukçular değil, dışarıdakiler de bakacak
- Belge incelemesinin kod review’dan daha az önemli olduğunu kesin biçimde söyleyemeyiz
  Kodda bug’lardan kaynaklı ciddi sorun ihtimali olduğu için biçimsel review süreçleri var,
  ama belgeler yazılımın davranışını doğrudan etkilemediğinden aynı düzeyde katılık uygulanmıyor
  Bir belgenin incelenmemiş olması, kodun da incelenmediği anlamına gelmez
- Bu tür bir olayın organizasyonun bir yerindeki sorunu gösterdiği doğru, ama bunu tüm kod tabanına genellemek fazla olur
  Büyük organizasyonlarda bölümler arasında doğrulama seviyesi farklı uygulanır ve kod üzerinde belgelere kıyasla çok daha sıkı kontroller vardır
- Eskiden beri Microsoft’un geliştirici bloglarının çoğunun bireysel geliştirici inisiyatifiyle yürüdüğü izlenimine sahiptim
- Ben de benzer kalitede devblogs yazıları gördüm
  Neredeyse Stack Overflow yanıtlarını olduğu gibi kopyalamış düzeydeydi ve bunu hata mesajı ararken görünce
  sinirlenmekten çok sadece hayal kırıklığına uğradım
Microsoft’un blog yazısı Kaggle’daki Harry Potter veri kümesi sayfasına bağlantı veriyordu
O sayfa CC0 yani public domain olduğunu iddia ediyor ama açıkça telif sorunu taşıyor
Üstelik bu yazı 2024 Kasım’ından beri yayındaymış ve hâlâ kaldırılmamış olması şaşırtıcı
- Kaggle sayfasına bizzat baktım; iki yıldır olduğu gibi duruyordu
  “Report Dataset” özelliğiyle bildirmek istedim ama Google’ın telif bildirimi sayfasına yönlendirdi
  Ama “telif sahibi ya da temsilcisi değilseniz bildiremezsiniz” mesajıyla reddedildim
  Tam bir komedi gibi bir durum. O veri kümesi düpedüz hırsızlık
- Sırf bağlantı verdi diye Microsoft hemen doğrudan sorumlu sayılmayabilir
  Asıl sorumluluk muhtemelen yanlış lisansla yükleyen kişidedir
  Yine de “Harry Potter” adını gören herkes bunun public domain olmadığını anlayabilir,
  dolayısıyla sağduyu açısından Microsoft’un da sorumluluktan tamamen kaçması zor
Microsoft sonunda ilgili sayfayı kaldırdı
Ama archive.is üzerinde korunmuş bir kopya duruyor
- Ama yazı 2024’te yayımlanmıştı; sanki biri bu başlığı görüp harekete geçmiş gibi
- Acaba şu yazı da birlikte kaldırıldı mı diye merak ediyorum
  Başlığı “5 dakikada RAG uygulaması yapmak” gibiydi ve Azure ile GPT kullanan bir örnekti
- Bu açık bir telif ihlali kanıtı. Rowling isterse dava açabilir gibi görünüyor
- archive.is’in CAPTCHA üzerinden kullanıcı tarayıcılarını DDoS için kötüye kullandığı yönünde tartışmalar var
  İnsanların hâlâ o siteyi kullanması hayal kırıklığı yaratıyor
- Bende sayfa hâlâ görünüyor
Blogun yapay zeka ile üretilmiş küçük görselinde(görsel bağlantısı)
genç Harry ve arkadaşı Microsoft logosunun önünde duruyordu. Gerçekten şaşırtıcı
- Yapay zekada trenleri hep garip çizme gibi bir bug var
  Muhtemelen kadraj biraz daha geniş olsaydı vagon bağlantı kısmı hiç olmayacaktı
Microsoft’tan hoşlanmayan biri olarak bile, bu olayı “korsan rehberi” diye yaftalamak abartılı geliyor
Bu sadece araştırma amaçlı bir örnek, ürün entegrasyonu değil
Telif tekelleri ve fair use etrafındaki aşırı tepki de utanılacak düzeyde
- Yine de Microsoft’un piyasa değeri neredeyse 3 trilyon dolar
  Araştırma için bile olsa kullanılan metinlerin karşılığını ödeyebilecek gücü fazlasıyla var
- Aslında bu sadece Microsoft’un sorunu değil
  Ticari LLM şirketlerinin çoğu benzer şeyler yapıyor
- Başlık abartı değil; gerçekten yasadışı materyalin indirilmesini ve kullanılmasını anlatan bir yazıydı
  Normal bir insan için yasa dışı olacak bir eylem, kurumsal bir blogda rehber olarak anlatılmış oldu
  Anthropic’in telif ihlali nedeniyle 1,5 milyar dolarlık bir uzlaşmaya vardığı örneği de var
  Ben de mevcut telif sistemi sevmiyorum ama şirketlerle bireylere farklı standart uygulanmasını kabul edemem
Bu bir korsan rehberi değil, sadece bir veri kümesinin SQL’e nasıl dahil edileceğini anlatan bir yazıydı
Asıl sorumluluk belki de Kaggle’da ya da yükleyen Shubham Maindola tarafındadır
“Harry Potter e-kitaplarını txt’ye dönüştürdüm” şeklindeki veri kaynağı açıklaması tüyler ürpertici
Buna rağmen Kaggle puanının 10.0 olması da şaşırtıcı
- Üstelik metnin ilk kelimesinde bile yazım hatası var — “M r.”...
Bu yazı 2024’te yayımlanmış ve Kaggle veriyi barındırıyor
Rowling tarafının neden hâlâ hiçbir şey yapmadığı merak konusu
- Muhtemelen radarlarına girmediği için
  Kaggle indirme sayısı 10 bin civarında olduğundan dikkat çekmemiş olabilir
  Ama bu açıkça çizgiyi aşan bir durum
  Daha önce de Microsoft’un yapay zeka bağlantılı intihal olayı olmuştu,
  o zaman da iç denetim sürecinin neredeyse hiç olmadığı söylenmişti
  İlgili başlık: “Microsoft morged my diagram”
- Rowling’e Twitter’dan doğrudan ulaştım ve hukuk ekibine de bildirdim
- Eskiden akademik araştırma amaçlı text mining yasa dışı olsa da çoğu zaman görmezden gelinirdi
  Ama artık ticari modeller ortaya çıktığı için durum tamamen değişti
  Books3 gibi yüz binlerce telifli kitabı içeren veri kümeleri de bir dönem kamuya açılmıştı
Sayfa zaten silinmiş ama web arşivi kopyası duruyor
Etik bilinci eksik insanların geleceğin teknolojisini yapıyor olması kaygı verici
- Daha da kaygı verici olan, böyle bir yazıyı yayımlamanın sorun olduğunu bile düşünmemiş olmaları
  Bu kadar sıkı işe alım süreçlerinden geçmiş insanlar böyle kararlar veriyorsa,
  gerçekten önemli kararların ne kadar riskli olabileceğini düşündürüyor
- Elbette telif ihlali, büyük şirketlerin diğer etik dışı davranışlarının yanında küçük kalabilir
  Ama bu onu mazur göstermez
Artık fikri mülkiyetin anlamsızlaştığı bir dünyada yaşıyor gibiyiz
Bu yüzden şaka yollu, “Harry Potter’ı aynen üreten yapay zeka roman girişimine” yatırım yapmak isteyen var mı diye soruluyor
- “Robot köle üretme sürecindeyse yatırım yaparım” diye şaka yollu yanıt veriliyor
- Hatta yapay zekayla sonsuz fanfic üreteci yapmak daha eğlenceli olabilir
  Yapay zekanın şimdiye kadar istikrarlı biçimde iyi yaptığı tek şey mizah gibi görünüyor
- “Bee Movie”yi Ghibli tarzına çevirip, sesi metne dönüştürüp sonra yeniden TTS ile oynatan
  sonsuz ölçeklenebilir bir yapay zeka startup’ı fikri de ortaya atılıyor
- “Vindows” adında yeni bir işletim sistemi yaptıklarına dair bir şaka da var
  mevcut ürünlerle benzerliğin “tamamen tesadüf” olduğu söylenerek taşlama yapılıyor
- Elbette bunlar yalnızca milyarderlerin sahip olduğu bir ayrıcalık
  Sıradan biri yaparsa yine her şeyini kaybedip hapse gider
Microsoft’un son dönemdeki gidişatına bakınca, bu olay hiç de şaşırtıcı değil
2026’daki Microsoft’ta sanki telif hukuku ve fikri mülkiyet artık geçerli değilmiş gibi bir hava var

Microsoft'un LLM eğitimi için korsan Harry Potter rehberi (2024) [Silindi]

Azure SQL yerel vektör desteği ve LangChain entegrasyonu

Örnek veri seti yapısı

Örnek uygulama oluşturma adımları

1. langchain-sqlserver paketini kurma

2. Azure Blob Storage verisini yükleme ve parçalara bölme

3. Embedding ve Chat Completion tanımlama

4. Vector Store'u başlatma ve belge ekleme

5. Benzerlik araması yapma

Kullanım Senaryosu 1: Soru-Cevap sistemi kurma

Kullanım Senaryosu 2: Harry Potter fan fiction üretimi

Entegre kullanım senaryosu

Kod örnekleri ve kaynaklar

İlgili okumalar

1 yorum

Hacker News görüşleri