Perl Unicode 美食谱:通过字符集群而不是码点提取(substr)
℞ 31: 通过字符集群而不是码点提取(substr)
Unicode 标准附件 #29 讨论了字符集群之间的边界——用户可能感知到的“字符”。CPAN 模块 Unicode::GCString 允许您将 Unicode 字符串视为这些字符集群的序列。
虽然您可以使用 \X
在正则表达式中提取字符集群,但 Unicode::GCString
提供了 substr()
方法来提取一系列字符集群
# cpan -i Unicode::GCString
use Unicode::GCString;
my $gcs = Unicode::GCString->new($str);
my $first_five = $gcs->substr(0, 5);
该模块还提供了一个迭代器接口,用于在字符串内部访问字符集群。
上一节: ℞ 30: 通过字符集群而不是码点提取(regex)
系列索引: 标准前言
下一节: ℞ 32: 通过字符集群反转字符串
标签
反馈
这篇文章有问题吗?通过在 GitHub 上打开一个问题或拉取请求来帮助我们。