- Web siteleri yalnızca insanlara bilgi sunmak için değil, aynı zamanda LLM'lere de bilgi sağlamak için kullanılır
- LLM'ler, programlama kütüphaneleri ve API'ler hakkındaki bilgileri web sitesi dokümantasyonundan toplama seçeneği de dahil olmak üzere, geliştiricilerin kullandığı geliştirme ortamlarını iyileştirmek için kullanılır
- LLM'ler için bilgi sağlamak, insanlar için bilgi sağlamaktan biraz farklıdır ancak büyük ölçüde örtüşür
- Genellikle daha kısa ve öz biçimlerde sunulan bilgiyi tercih ederler
- Çok sayıda bilgiyi hızlıca toplayabildikleri için, tüm temel bilgilerin tek bir yerde toplanması faydalıdır
- LLM'lerin bağlam penceresi tüm bir web sitesini işleyecek kadar büyük değildir ve karmaşık HTML sayfalarını LLM dostu düz metin belgelere dönüştürmek zordur
- Bu nedenle, yapay zeka yardımcılarına sunulacak en önemli bilgileri belirlemenin ve bunları en uygun biçimde sağlamanın bir yoluna ihtiyaç vardır
Proposal
- LLM dostu içerik sunmak isteyen kişilere, sitelerine
/llms.txt dosyası eklemeleri önerilir
- Bu, basit arka plan bilgileri ve yönergeler sağlayan, daha ayrıntılı bilgi içeren Markdown dosyalarına bağlantılar barındıran bir Markdown dosyasıdır
- Bir kütüphanenin kullanımına dair gerekli bilgileri sağlamak veya bir kişi ya da kuruluş hakkında bilgi edinmeye yönelik araştırmanın parçası olarak kullanılabilir
llms.txt Markdown'u hem insanlar hem de LLM'ler tarafından okunabilir, ancak aynı zamanda kesin biçimin işlenmesine de olanak tanır
llms.txt dosyası çeşitli senaryolarda kullanılabilir
- Yazılım kütüphaneleri için, dokümantasyona yapılandırılmış bir genel bakış sunarak LLM'lerin belirli işlevleri veya kullanım örneklerini kolayca bulmasına yardımcı olur
- Kurumsal web sitelerinde, organizasyon yapısını ve temel bilgi kaynaklarını ana hatlarıyla açıklayabilir
- Yeni yasa tasarıları ile gerekli arka plan ve bağlam bilgileri
llms.txt dosyasında derlenerek paydaşların bunları anlamasına yardımcı olabilir
- Kişisel portföy veya CV web siteleri, kişi hakkındaki soruların yanıtlanmasına yardımcı olabilir
- E-ticarette ürün kategorileri ve politikalar kısaca açıklanabilir
- Eğitim kurumları bunu ders tekliflerini ve kaynakları özetlemek için kullanabilir
llms.txt dosya biçimi
llms.txt dosya biçimi, dil modellerinin kolayca anlayabileceği Markdown kullanarak bilginin yapısını sunar
- Bu dosya, geleneksel yapılandırılmış biçimler (örn. XML) yerine Markdown kullanır; çünkü dosyanın temel okuyucuları dil modelleri ve ajanlardır
llms.txt dosyası standart programlama araçlarıyla okunabilir ve belirli bir biçime göre düzenlenir
- H1 başlığı: Projenin veya sitenin adını içerir ve zorunlu olan tek bölümdür.
- Alıntı bloğu: Projeye dair kısa bir özet içerir ve dosyanın geri kalanını anlamak için gerekli temel bilgileri sağlar.
- Markdown bölümleri: Ayrıntılı bilgi sunar; paragraflar, listeler vb. çeşitli bölüm türlerini içerebilir ancak ek başlıklar içermez.
- H2 başlıklarıyla ayrılan dosya listesi bölümleri: Ek bilgi sağlayan URL listelerini içerir; her öğe Markdown bağlantı biçiminde
[ad](URL) yazılır ve isteğe bağlı olarak bir açıklama eklenebilir.
- Dosya örneği
# Proje Başlığı
> Projeye dair isteğe bağlı açıklama buraya gelir
İsteğe bağlı ayrıntılar buraya gelir
## Bölüm Adı
- [Bağlantı Başlığı](https://링크_URL): İsteğe bağlı bağlantı açıklaması
## Optional
- [Bağlantı Başlığı](https://링크_URL)
- "Optional" bölümü: Özel bir anlama sahiptir; kısa bağlam gerektiğinde bu URL'ler atlanabilir. Sıkça atlanabilecek ikincil bilgileri içerir.
Mevcut standartlarla birlikte var olma
llms.txt, mevcut web standartlarıyla birlikte çalışacak şekilde tasarlanmıştır
- Site haritaları (sitemaps) arama motorları için tüm sayfaları listelerken,
llms.txt LLM'ler (büyük dil modelleri) için özenle seçilmiş bir genel bakış sunar
llms.txt, robots.txt ile tamamlayıcı bir ilişki içindedir ve izin verilen içerik için bağlam sağlayabilir
- Ayrıca sitede kullanılan yapılandırılmış veri işaretlemelerine atıfta bulunarak LLM'lerin bunları anlamasına ve yorumlamasına yardımcı olabilir
- Dosyanın yolu,
/robots.txt ve /sitemap.xml örneklerinde olduğu gibi standartlaştırılır
- robots.txt ve llms.txt farklı amaçlara hizmet eder
- robots.txt: Otomatik araçların (örn. arama indeksleme botları) siteye hangi ölçüde erişebileceğini anlamak için kullanılır
- llms.txt: Esas olarak kullanıcı belirli bir konu hakkında açıkça bilgi talep ettiğinde kullanılır. Örneğin, bir kodlama kütüphanesinin dokümantasyonunu projeye dahil etmek veya arama özelliği olan bir sohbet botundan bilgi istemek için faydalıdır
llms.txt'nin esas olarak çıkarım (inference) için yararlı olması beklenir. Kullanıcının yardıma ihtiyaç duyduğu anda kullanılacaktır ve eğitim (training) için kullanılmayacağı öngörülür. Ancak llms.txt kullanımı yaygınlaşırsa, gelecekte eğitim süreçlerinde de bu bilginin kullanılma ihtimali olabilir
- sitemap.xml ile farkları
- sitemap.xml: Sitedeki dizine eklenebilir, insanlar tarafından okunabilir tüm bilgileri listeler
llms.txt, sitemap.xml'in yerine geçmez:
- LLM'lerin okuyabileceği sayfa sürümlerini içermeyebilir.
- Bilgiyi anlamada faydalı olabilecek harici sitelerin URL'lerini içermez.
- Genellikle LLM'lerin bağlam penceresine sığmayacak kadar büyük belgeler içerir ve sitenin anlaşılması için gereksiz pek çok bilgi de barındırır.
llms.txt, dil modellerinin belirli bilgilere erişmesi ve bağlamı anlaması için optimize edilmiş bir araç olarak işlev görebilir
4 yorum
robots.txt'yi genişletmek de yeterli olabilir gibi… LLM'ler için crawler'lara özel bir statü vermek gerekli mi?Bundan ziyade, LLM crawler'larının user-agent'leri biraz düzene girse keşke… ama user-agent'in kendisi de artık sallantıda olduğu için konu biraz muğlak.
Not 1. Adı
.txtiken neden Markdown acaba? Ben de Markdown'ı çok seviyorum ama illa gerek var mı…llmsadlandırmasının belirli bir teknoloji için bir arayüz gibi görünmesi biraz rahatsız edici...Aynen öyle. Garip ve çok düşük genelliğe sahip bir başka standart oluşturmak yerine, JSON-LD gibi zaten var olan standartları kullanmanın ya da genişletmenin daha iyi olacağını düşünüyorum.
Bu yaygınlaşırsa, uygun bir
llms.txtdosyasıyla LLM'in sitemi kullanmasını engellemek mümkün olur sanırım.Örneğin tamamen alakasız ve anlamsız bilgiler vererek ya da
LLM'in tüm bağlamını tüketecek kadar büyük bilgiler sunarak.