Perl Unicode 烹饪书:按图形而不是按代码点提取(正则表达式)

℞ 30: 按图形而不是按代码点提取(正则表达式)

记住,Unicode 将“图形”定义为“用户认为的字符”。代码点是 Unicode 代码空间中的整数值。虽然 ASCII 将两者混淆,但有效的 Unicode 使用尊重用户可见字符及其表示之间的区别。

当您需要从字符串中提取图形而不是代码点时,请使用 \X 正则表达式元字符

 # match and grab five first graphemes
 my ($first_five) = $str =~ /^ ( \X{5} ) /x;

上一篇文章:℞ 29: 在正则表达式中匹配 Unicode 图形簇

系列索引:标准序言

下一篇文章:℞ 31: 按图形而不是按代码点提取(substr)

标签

反馈

这篇文章有什么问题吗?请通过在 GitHub 上打开一个问题或拉取请求来帮助我们