- 20 yıl önce Joel, "Plain Text diye bir şey yoktur" diyerek kodlamayı mutlaka bilmek gerektiğini vurguladı
- Unicode, tüm insan dillerinin bilgisayarlarda kullanılabilmesini sağlayan birleşik standarttır
- Farklı karakterlere benzersiz numaralar atayan bir kod noktası sistemi kullanır
- En büyük kod noktası
0x10FFFF olup yaklaşık 1,1 milyon kod noktası alanı sunar
- UTF-8 en yaygın kodlamadır ve %98 olasılıkla kullanılır
- UTF-8 değişken uzunluklu bir kodlamadır; kod noktaları 1 ila 4 baytlık diziler halinde kodlanabilir
- UTF-8, ASCII ile bayt düzeyinde uyumludur ve temel Latin alfabesi için alan açısından verimlidir
- UTF-8, yerleşik hata algılama ve kurtarma özelliklerine sahiptir; eksiksiz ve geçerli UTF-8 bayt dizilerini tanımlayabilir
- Genişletilmiş grapheme cluster ya da grapheme, kod noktalarının değil, üzerinde yineleme yapılması gereken birimdir
- Unicode her yıl güncellenir ve grapheme cluster'ları tanımlayan kurallar da her yıl değişir
- Unicode, yerel ayara göre farklı şekilde render edilebilir
- Unicode'daki surrogate pair, tek bir Unicode kod noktasını kodlamak için kullanılan iki UTF-16 birimidir
- UTF-16, bazı sistemlerde hâlâ bellek içi gösterim olarak kullanılır
- Unicode dizeleri karşılaştırılmadan önce normalize edilmelidir
- Makale,
strlen, indexOf, substring gibi en temel işlemlerde bile Unicode kütüphaneleri kullanmanın önemini vurguluyor
3 yorum
"♂️".lengthiçin Python 3.11'de 1 döndürüyor gibi görünüyor.Emoji yorumlarda bozuk görünüyor
Hacker News yorumları