πFS - Verileri sabit disk yerine π içinde sakladığını iddia eden dosya sistemi
(github.com/philipl)- πfs, verileri sabit diskte saklamak yerine π içinde saklayarak alan kullanmama fikrini hayata geçiren bir dosya sistemi; temel varsayımı, π'nin var olabilecek tüm dosyaları içerdiği yönünde
- Açıklama, π'nin normal sayı (normal) olduğu varsayımı doğruysa, onaltılık gösterimi içinde tüm sonlu dosyaların bulunduğu düşüncesine dayanıyor
- Bir dosyanın π içindeki indeksi ve uzunluğu biliniyorsa, Bailey–Borwein–Plouffe formula ile dosya çıkarılabiliyor; bu uygulama performans için dosyanın her baytını π'den ayrı ayrı sorguluyor
- Çalıştırmak için
πfs -o mdd=<metadata directory> <mountpoint>biçimi kullanılıyor; metadata directory içinde dosya adı ve dosyanın π içindeki konumu gibi metaveriler saklanıyor - Derleme için
autoconf,automake,libfusepaketleri gerekiyor ve./autogen.sh,./configure,make,make installakışı izleniyor - Mevcut uygulama erken prototip aşamasında; örnek olarak 400 satırlık bir metin dosyasını kaydetmenin 5 dakika sürdüğü belirtiliyor
- Gelecekteki olasılıklar arasında değişken yürütme uzunluklu arama ve erişim, Arithmetic Coding, paralel sorgulama, bulut tabanlı π sorgulama ve Hadoop için πfs yer alıyor
1 yorum
Hacker News yorumları
Babil Kütüphanesi'ni veri sıkıştırma aracı olarak kullanmayı denemeyi düşündüğüm zamanı hatırlattı
Bu sayede eğlenceli bir rabbit hole'a daldım ve bilgi teorisiyle ilk kez tanıştım
Vardığım sonuç, verinin konum adresini ifade etmek için de verinin kendisi kadar neredeyse aynı miktarda bilgi gerektiği, dolayısıyla sıkıştırma açısından pek etkili olmadığı ve daha çok ilginç bir düşünce deneyi olduğuydu
Bugünün ölçütleriyle ilginç olan nokta, LLM'lerin bu araçların başaramadığı hedefin özünü fiilen gerçekleştiren bir kayıplı sıkıştırma türü olması. Elbette kayıp var ve devasa bir temel gerektiriyor
https://youtu.be/l6DKRf-fAAM?is=ne73FCJ7ErXhzZ-v
https://youtu.be/l6DKRf-fAAM
Geçerli 4-gram'ları, yani dört kelimelik dizileri saklamaya dair kabaca hesap şu: 10 milyar × kelime başına 14 bit = 10 milyarın tamamı için yaklaşık 17 GB. Buna rağmen bundan 100 kat daha küçük bir LLM bile tutarlı düzyazı yazabiliyor
nsafs, yani National Security Agency Filesystem'ı hatırlattı. Ücreti devlet ödediği için “ücretsiz” sayılıyor: https://github.com/freedomtools/nsafs
https://en.wikipedia.org/wiki/Write-only_memory_(joke)
Fikir şuydu: rastgele bir indeks seçip o özel anahtarı karşı tarafla paylaşırsanız, sonrasında metni tek kullanımlık şifre pedi olarak kullanabilirsiniz. NSA'nın bunu çözebilmesi için GB/s hızında üretilen tüm akışı tamponlayıp saklaması gerekeceği söyleniyordu, ama pek pratik görünmemişti
Veri uzunluğu arttıkça, π içindeki ilgili dizinin indeksi ve uzunluğunun özgün veriden daha kısa olma olasılığının son derece düşük olduğunu belirtmekte fayda var
Alan kodu dâhil 10 haneli bir numarayı bulacak hesaplama kaynağım yoktu
<20TB number>oluyorİlgili yazılar bunlar. Daha fazlası var mı?
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=36357466 - Haziran 2023, 107 yorum
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=28699499 - Eylül 2021, 30 yorum
PiFS – The Data-Free Filesystem - https://news.ycombinator.com/item?id=26208704 - Şubat 2021, 1 yorum
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=21359338 - Ekim 2019, 1 yorum
The π Filesystem for FUSE: Store Your Data in π - https://news.ycombinator.com/item?id=19223032 - Şubat 2019, 1 yorum
pifs - Avoid disk space usage by saving your files in the digits of Pi - https://news.ycombinator.com/item?id=18687275 - Aralık 2018, 1 yorum
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=13869691 - Mart 2017, 105 yorum
Πfs: Stores your data in π - https://news.ycombinator.com/item?id=10856108 - Ocak 2016, 1 yorum
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=10847693 - Ocak 2016, 1 yorum
File system that stores location of file in Pi - https://news.ycombinator.com/item?id=8018818 - Temmuz 2014, 98 yorum
100% Compression Using Pi - https://news.ycombinator.com/item?id=6698852 - Kasım 2013, 32 yorum
Yeniden paylaşımlar yaklaşık 1 yıl geçince sorun olmuyor ve eski başlık bağlantıları da daha fazla merak eden okurlar için var
Bu da aklıma geldi: https://www.spronck.net/sloot.html
Ek okuma: https://en.wikipedia.org/wiki/Sloot_Digital_Coding_System
Gerçek kodlama yöntemi, videonun her satırını veritabanında saklayıp her kareyi satır sorgularının dizisi olarak kodlamak, ardından bu kodlanmış kareyi başka bir veritabanında saklamak üzerine kuruluydu. Her video da kare sorgularının bir dizisi oluyordu
90'ların sonundaki donanımda 16 videoyu aynı anda akıcı biçimde oynatabildiğini göstermesinin nedeni buydu. Her kare satır sorgularından oluştuğu için, ekranı yatay olarak 16 parçaya bölüp 16 videoyu aynı anda oynatmak, tüm ekranı kaplayan tek bir videoyu oynatmaktan daha zor değildi
Aynı şekilde, her kare ayrı ayrı çözüldüğü için ileri sarma ve geri sarma da akıcıydı. Geleneksel video sıkıştırmadaki gibi her ana karede farkları hesaplamak gerekmediğinden, 2x oynatma da 1x'ten daha zor değildi
Elbette video dosyalarını 8KB gibi boyutlarda saklayamazdı, ama örneğin bir TV dizisinin bir sezonu veritabanında varsa açılış ve kapanış jeneriklerini yalnızca bir kez saklamak yeterli olurdu
π’nin geçmiş ve gelecekteki tüm bilgileri, hatta ne zaman öleceğimi bile içerdiğini fark etmek rahatsız edici
Ayrıca geçmiş ve geleceğe dair tüm bilgileri içerdiği de söylenemez. Çünkü geçmiş ve geleceğe ilişkin mümkün olan tüm yalanlar da, gerçekten ayırt edilemeyecek şekilde onun içinde yer alıyor
Bilgiyi sözde rastgele bir dizinin ofseti olarak kodlamak, bilgiyi doğrudan depolamaktan daha verimli bir depolama yöntemi değildir
Eğlenceli bilgi: “Chrispratt”, antik Kaliforniya dilinde “Joel McHale o rolü istemedi” anlamına gelir
https://dn760100.eu.archive.org/0/items/TheLibraryOfBabel/ba...
Eskiden bir sıkıştırma benchmark’ına katılan bir girişin, dosya adını açma algoritmasının girdisinin bir parçası olarak ele alıp benchmark’ı kurnazca geçtiğini belirsiz de olsa hatırlıyorum
Benchmark yalnızca dosya boyutunu ölçtüğü için o metriği yenebilmişti
Bu, π hakkında henüz kanıtlanmamış bir özelliğe dayanmıyor mu? Tüm sonlu dizeleri içerme ya da normallik gerekiyor, ama ikisi de kanıtlanmış değil