1 puan yazan GN⁺ 2026-02-20 | 1 yorum | WhatsApp'ta paylaş
  • Kaggle'a yasa dışı olarak yüklenen Harry Potter veri setini kullanarak SQL tabanlı RAG uygulaması oluşturma sürecini sunan bir yazıydı, ancak artık silinmiş durumda
  • Azure SQL ve Microsoft Fabric SQL DB, yerel vektör aramayı destekliyor ve langchain-sqlserver ile Vector Store yönetimi mümkün
  • Azure Blob Storage'dan yükleme, metni parçalara bölme, Azure OpenAI embedding'leri oluşturma ve ardından vektörleri SQL'e kaydetme akışı kuruluyor
  • Vektör benzerliği araması ve metadata filtreleri kullanılarak doğru bir Soru-Cevap sistemi oluşturuluyor
  • Aynı vektör deposu kullanılarak GPT4o tabanlı fan fiction üretme özelliğine kadar genişletiliyor
  • Archive.is bağlantısı

Azure SQL yerel vektör desteği ve LangChain entegrasyonu

  • Azure SQL ve Microsoft Fabric SQL DB'de yerel vektör arama özelliği genel önizleme olarak sunuluyor
  • langchain-sqlserver paketinin yayımlanmasıyla SQL Server, LangChain Vector Store olarak yönetilebiliyor
    • PyPI ve GitHub deposu üzerinden kurulum ve örnek kodlar sağlanıyor
  • Azure SQL DB, LangChain ve LLM birleştirilerek yalnızca birkaç satır kodla üretken yapay zeka özellikleri eklemek mümkün

Örnek veri seti yapısı

  • Kaggle'da sunulan 7 Harry Potter kitabının metin veri seti kullanılıyor
    • 7 adet .txt dosyası içeriyor
    • Demoda yalnızca 1. kitap olan Harry Potter and the Sorcerer’s Stone kullanılıyor
  • Geniş kitlelerce bilinen bir veri seti kullanılarak anlaşılması kolay bir örnek oluşturuluyor

Örnek uygulama oluşturma adımları

1. langchain-sqlserver paketini kurma

  • Entegrasyon paketi pip install langchain-sqlserver==0.1.1 komutuyla kuruluyor
  • SQL tabanlı vektör deposu özelliği etkinleştiriliyor

2. Azure Blob Storage verisini yükleme ve parçalara bölme

  • Harry Potter metin dosyaları Azure Blob Storage'a kaydedilip yükleniyor
  • LangChain'in AzureBlobStorage entegrasyonu kullanılıyor
  • Uzun metinler langchain-text-splitter ile küçük parçalara ayrılıyor
    • Amaç, Azure OpenAI embedding giriş token sınırına uyum sağlamak

3. Embedding ve Chat Completion tanımlama

  • Her parça için metin embedding'leri oluşturmak üzere Azure OpenAI kullanılıyor
  • LangChain'in sunduğu farklı embedding modelleriyle değiştirilebiliyor
  • Chat Completion yapılandırılarak soru-cevap işleme hazırlığı yapılıyor

4. Vector Store'u başlatma ve belge ekleme

  • AzureOpenAI embedding'leriyle birlikte Vector Store başlatılıyor
  • add_documents fonksiyonuyla belgeler ve embedding'ler Azure SQL'e kaydediliyor
  • Az miktarda kodla vektör üretimi ve depolaması yapılabiliyor

5. Benzerlik araması yapma

  • similarity_search_with_score fonksiyonuyla vektör benzerliği araması yürütülüyor
  • Metadata filtresi destekleniyor
    • Belirli metadata özelliklerine göre arama kapsamı sınırlandırılabiliyor

Kullanım Senaryosu 1: Soru-Cevap sistemi kurma

  • SQL Vector Store ve LangChain tabanlı hikâye Soru-Cevap sistemi uygulanıyor
  • Kullanıcı sorusu için en ilgili ilk 10 belge aranıp yanıt oluşturuluyor
  • vector_store tabanlı bir retriever oluşturuluyor
  • create_stuff_documents_chain ile soru-yanıt zinciri kuruluyor
  • ChatPromptTemplate ile yapılandırılmış yanıt formatı tanımlanıyor
  • create_retrieval_chain kullanıldığında bulunan belgeler "context" anahtarıyla birlikte döndürülüyor
    • Yanıt üretiminde kullanılan kaynak gösterme özelliği destekleniyor

Kullanım Senaryosu 2: Harry Potter fan fiction üretimi

  • Vektör deposu tabanlı yeni bir yapay zeka fan fiction üretme özelliği uygulanıyor
  • Kullanıcı prompt'u girildiğinde ilgili paragraflar aranıyor
    • SQL vektör deposunda saklanan embedding'lere dayalı bağlamsal benzerlik araştırılıyor
  • Bulunan paragraflar tek bir string olarak düzenlenip model girdisi için bağlam oluşturuluyor
  • GPT4o modeline bağlam ve kullanıcı prompt'u birlikte iletiliyor
    • Mevcut bağlamsal unsurları yansıtan yeni bir hikâye üretiliyor
  • Üretim sonucuyla birlikte başvurulan vektör kaynak bilgileri de gösteriliyor

Entegre kullanım senaryosu

  • Soru-Cevap sistemi ile fan fiction üretme özelliği birleştirilerek etkileşimli bir okuma deneyimi sunuluyor
    • Kitap içeriğini anlamak gerektiğinde Soru-Cevap kullanılabiliyor
    • Belirli bir sahnenin genişletilmesi veya alternatif bir son üretilmesi mümkün

Kod örnekleri ve kaynaklar

1 yorum

 
GN⁺ 2026-02-20
Hacker News görüşleri
  • Microsoft’taki bu olayın telif hakkı sorunundan daha temel bir süreç çöküşünü gösterdiği düşünülüyor
    Bir belge bile incelenmiyorsa, yeni kodun düzgün review ediliyor olma ihtimali ne kadar diye sorgulatıyor
    Yönetime şunu sormak istiyorum — güvenlik, kalite ve yapay zeka inovasyonu arasındaki bu üç sütundan hangisini seçecekler
    (Scott Hanselman, seni seviyorum ama buna doğrudan cevap verme; lütfen bunu liderliğe ilet)

    • Microsoft’ta uzun süre çalıştım ve blog da yürüttüm
      O dönemde onay süreci olmadan kişisel olarak yazı yayımlayabiliyorduk, bu yüzden blog daha doğal ve samimi bir alan
      Bu olay daha çok birinin hatalı bir kararı gibi görünüyor ve yazının kaldırılması da doğal bir adım gibi duruyor
      Ama daha önemli olan, o yazarın bağlı olduğu ekibin yapay zeka eğitimi için telif ihlalini meşrulaştırıp meşrulaştırmadığı
      Görünüşe göre bu meseleye sadece iç hukukçular değil, dışarıdakiler de bakacak
    • Belge incelemesinin kod review’dan daha az önemli olduğunu kesin biçimde söyleyemeyiz
      Kodda bug’lardan kaynaklı ciddi sorun ihtimali olduğu için biçimsel review süreçleri var,
      ama belgeler yazılımın davranışını doğrudan etkilemediğinden aynı düzeyde katılık uygulanmıyor
      Bir belgenin incelenmemiş olması, kodun da incelenmediği anlamına gelmez
    • Bu tür bir olayın organizasyonun bir yerindeki sorunu gösterdiği doğru, ama bunu tüm kod tabanına genellemek fazla olur
      Büyük organizasyonlarda bölümler arasında doğrulama seviyesi farklı uygulanır ve kod üzerinde belgelere kıyasla çok daha sıkı kontroller vardır
    • Eskiden beri Microsoft’un geliştirici bloglarının çoğunun bireysel geliştirici inisiyatifiyle yürüdüğü izlenimine sahiptim
    • Ben de benzer kalitede devblogs yazıları gördüm
      Neredeyse Stack Overflow yanıtlarını olduğu gibi kopyalamış düzeydeydi ve bunu hata mesajı ararken görünce
      sinirlenmekten çok sadece hayal kırıklığına uğradım
  • Microsoft’un blog yazısı Kaggle’daki Harry Potter veri kümesi sayfasına bağlantı veriyordu
    O sayfa CC0 yani public domain olduğunu iddia ediyor ama açıkça telif sorunu taşıyor
    Üstelik bu yazı 2024 Kasım’ından beri yayındaymış ve hâlâ kaldırılmamış olması şaşırtıcı

    • Kaggle sayfasına bizzat baktım; iki yıldır olduğu gibi duruyordu
      “Report Dataset” özelliğiyle bildirmek istedim ama Google’ın telif bildirimi sayfasına yönlendirdi
      Ama “telif sahibi ya da temsilcisi değilseniz bildiremezsiniz” mesajıyla reddedildim
      Tam bir komedi gibi bir durum. O veri kümesi düpedüz hırsızlık
    • Sırf bağlantı verdi diye Microsoft hemen doğrudan sorumlu sayılmayabilir
      Asıl sorumluluk muhtemelen yanlış lisansla yükleyen kişidedir
      Yine de “Harry Potter” adını gören herkes bunun public domain olmadığını anlayabilir,
      dolayısıyla sağduyu açısından Microsoft’un da sorumluluktan tamamen kaçması zor
  • Microsoft sonunda ilgili sayfayı kaldırdı
    Ama archive.is üzerinde korunmuş bir kopya duruyor

    • Ama yazı 2024’te yayımlanmıştı; sanki biri bu başlığı görüp harekete geçmiş gibi
    • Acaba şu yazı da birlikte kaldırıldı mı diye merak ediyorum
      Başlığı “5 dakikada RAG uygulaması yapmak” gibiydi ve Azure ile GPT kullanan bir örnekti
    • Bu açık bir telif ihlali kanıtı. Rowling isterse dava açabilir gibi görünüyor
    • archive.is’in CAPTCHA üzerinden kullanıcı tarayıcılarını DDoS için kötüye kullandığı yönünde tartışmalar var
      İnsanların hâlâ o siteyi kullanması hayal kırıklığı yaratıyor
    • Bende sayfa hâlâ görünüyor
  • Blogun yapay zeka ile üretilmiş küçük görselinde(görsel bağlantısı)
    genç Harry ve arkadaşı Microsoft logosunun önünde duruyordu. Gerçekten şaşırtıcı

    • Yapay zekada trenleri hep garip çizme gibi bir bug var
      Muhtemelen kadraj biraz daha geniş olsaydı vagon bağlantı kısmı hiç olmayacaktı
  • Microsoft’tan hoşlanmayan biri olarak bile, bu olayı “korsan rehberi” diye yaftalamak abartılı geliyor
    Bu sadece araştırma amaçlı bir örnek, ürün entegrasyonu değil
    Telif tekelleri ve fair use etrafındaki aşırı tepki de utanılacak düzeyde

    • Yine de Microsoft’un piyasa değeri neredeyse 3 trilyon dolar
      Araştırma için bile olsa kullanılan metinlerin karşılığını ödeyebilecek gücü fazlasıyla var
    • Aslında bu sadece Microsoft’un sorunu değil
      Ticari LLM şirketlerinin çoğu benzer şeyler yapıyor
    • Başlık abartı değil; gerçekten yasadışı materyalin indirilmesini ve kullanılmasını anlatan bir yazıydı
      Normal bir insan için yasa dışı olacak bir eylem, kurumsal bir blogda rehber olarak anlatılmış oldu
      Anthropic’in telif ihlali nedeniyle 1,5 milyar dolarlık bir uzlaşmaya vardığı örneği de var
      Ben de mevcut telif sistemi sevmiyorum ama şirketlerle bireylere farklı standart uygulanmasını kabul edemem
  • Bu bir korsan rehberi değil, sadece bir veri kümesinin SQL’e nasıl dahil edileceğini anlatan bir yazıydı
    Asıl sorumluluk belki de Kaggle’da ya da yükleyen Shubham Maindola tarafındadır
    “Harry Potter e-kitaplarını txt’ye dönüştürdüm” şeklindeki veri kaynağı açıklaması tüyler ürpertici
    Buna rağmen Kaggle puanının 10.0 olması da şaşırtıcı

    • Üstelik metnin ilk kelimesinde bile yazım hatası var — “M r.”...
  • Bu yazı 2024’te yayımlanmış ve Kaggle veriyi barındırıyor
    Rowling tarafının neden hâlâ hiçbir şey yapmadığı merak konusu

    • Muhtemelen radarlarına girmediği için
      Kaggle indirme sayısı 10 bin civarında olduğundan dikkat çekmemiş olabilir
      Ama bu açıkça çizgiyi aşan bir durum
      Daha önce de Microsoft’un yapay zeka bağlantılı intihal olayı olmuştu,
      o zaman da iç denetim sürecinin neredeyse hiç olmadığı söylenmişti
      İlgili başlık: “Microsoft morged my diagram”
    • Rowling’e Twitter’dan doğrudan ulaştım ve hukuk ekibine de bildirdim
    • Eskiden akademik araştırma amaçlı text mining yasa dışı olsa da çoğu zaman görmezden gelinirdi
      Ama artık ticari modeller ortaya çıktığı için durum tamamen değişti
      Books3 gibi yüz binlerce telifli kitabı içeren veri kümeleri de bir dönem kamuya açılmıştı
  • Sayfa zaten silinmiş ama web arşivi kopyası duruyor
    Etik bilinci eksik insanların geleceğin teknolojisini yapıyor olması kaygı verici

    • Daha da kaygı verici olan, böyle bir yazıyı yayımlamanın sorun olduğunu bile düşünmemiş olmaları
      Bu kadar sıkı işe alım süreçlerinden geçmiş insanlar böyle kararlar veriyorsa,
      gerçekten önemli kararların ne kadar riskli olabileceğini düşündürüyor
    • Elbette telif ihlali, büyük şirketlerin diğer etik dışı davranışlarının yanında küçük kalabilir
      Ama bu onu mazur göstermez
  • Artık fikri mülkiyetin anlamsızlaştığı bir dünyada yaşıyor gibiyiz
    Bu yüzden şaka yollu, “Harry Potter’ı aynen üreten yapay zeka roman girişimine” yatırım yapmak isteyen var mı diye soruluyor

    • “Robot köle üretme sürecindeyse yatırım yaparım” diye şaka yollu yanıt veriliyor
    • Hatta yapay zekayla sonsuz fanfic üreteci yapmak daha eğlenceli olabilir
      Yapay zekanın şimdiye kadar istikrarlı biçimde iyi yaptığı tek şey mizah gibi görünüyor
    • “Bee Movie”yi Ghibli tarzına çevirip, sesi metne dönüştürüp sonra yeniden TTS ile oynatan
      sonsuz ölçeklenebilir bir yapay zeka startup’ı fikri de ortaya atılıyor
    • “Vindows” adında yeni bir işletim sistemi yaptıklarına dair bir şaka da var
      mevcut ürünlerle benzerliğin “tamamen tesadüf” olduğu söylenerek taşlama yapılıyor
    • Elbette bunlar yalnızca milyarderlerin sahip olduğu bir ayrıcalık
      Sıradan biri yaparsa yine her şeyini kaybedip hapse gider
  • Microsoft’un son dönemdeki gidişatına bakınca, bu olay hiç de şaşırtıcı değil
    2026’daki Microsoft’ta sanki telif hukuku ve fikri mülkiyet artık geçerli değilmiş gibi bir hava var