Perl Unicode 烹饪书:按图形而不是按代码点提取(正则表达式)
℞ 30: 按图形而不是按代码点提取(正则表达式)
记住,Unicode 将“图形”定义为“用户认为的字符”。代码点是 Unicode 代码空间中的整数值。虽然 ASCII 将两者混淆,但有效的 Unicode 使用尊重用户可见字符及其表示之间的区别。
当您需要从字符串中提取图形而不是代码点时,请使用 \X
正则表达式元字符
# match and grab five first graphemes
my ($first_five) = $str =~ /^ ( \X{5} ) /x;
上一篇文章:℞ 29: 在正则表达式中匹配 Unicode 图形簇
系列索引:标准序言
标签
反馈
这篇文章有什么问题吗?请通过在 GitHub 上打开一个问题或拉取请求来帮助我们