Perl Unicode 美食谱:通过字符集群而不是码点提取(substr)

℞ 31: 通过字符集群而不是码点提取(substr)

Unicode 标准附件 #29 讨论了字符集群之间的边界——用户可能感知到的“字符”。CPAN 模块 Unicode::GCString 允许您将 Unicode 字符串视为这些字符集群的序列。

虽然您可以使用 \X 在正则表达式中提取字符集群,但 Unicode::GCString 提供了 substr() 方法来提取一系列字符集群

 # cpan -i Unicode::GCString
 use Unicode::GCString;

 my $gcs        = Unicode::GCString->new($str);
 my $first_five = $gcs->substr(0, 5);

该模块还提供了一个迭代器接口,用于在字符串内部访问字符集群。

上一节: ℞ 30: 通过字符集群而不是码点提取(regex)

系列索引: 标准前言

下一节: ℞ 32: 通过字符集群反转字符串

标签

反馈

这篇文章有问题吗?通过在 GitHub 上打开一个问题或拉取请求来帮助我们。