Perl Unicode 烹饪书:Unicode 大小写

℞ 20: Unicode 大小写

Unicode 大小写与ASCII大小写有很大不同。Unicode的复杂性部分源于Unicode字符在大小写转换时可能会发生显著变化。例如,希腊语有两个小写西格玛字符,这取决于字母在单词中的位置是中位(σ)还是结尾(ς)。希腊语只有一个大写西格玛(Σ)。(一些希腊化时期的经典希腊文本使用一种新月形的西格玛变体,称为月牙形西格玛,或ϲ。)

Unicode 大小写对于大小写转换和执行大小写不敏感匹配都很重要

 uc("henry ⅷ")  # "HENRY Ⅷ"
 uc("tschüß")   # "TSCHÜSS"  notice ß => SS

 # both are true:
 "tschüß"  =~ /TSCHÜSS/i   # notice ß => SS
 "Σίσυφος" =~ /ΣΊΣΥΦΟΣ/i   # notice Σ,σ,ς sameness

上一节:℞ 19: 指定文件的编码

系列索引:标准序言

下一节:℞ 21: 大小写不敏感比较

标签

反馈

这篇文章有什么问题吗?请通过在 GitHub 上打开一个问题或拉取请求来帮助我们