Perl Unicode 美食大全:获取字符类别

℞ 23: 获取字符类别

Unicode 是一组字符以及应用于这些字符的规则和属性集。Unicode 字符数据库Unicode Character Database 收集了这些属性。核心模块 Unicode::UCD 提供了访问这些属性的方法。

这些通用属性将字符分组,例如大写或小写字母、标点符号、数学符号等。 (更多信息请参阅 Unicode::UCDgeneral_categories() 函数。)

charinfo() 函数返回一个包含有关Unicode字符大量信息的哈希引用。特别是,它的 category 值包含字符类别的简称。

要找到数值码点的通用类别

 use Unicode::UCD qw(charinfo);
 my $cat = charinfo(0x3A3)->{category};  # "Lu"

将此类别转换为更人性化的形式

 use Unicode::UCD qw( charinfo general_categories );
 my $categories = general_categories();
 my $cat        = charinfo(0x3A3)->{category};  # "Lu"
 my $full_cat   = $categories{ $cat }; # "UppercaseLetter"

上一节:℞ 22: 匹配 Unicode 换行序列

系列索引:标准序言

下一节:℞ 24: 在内置字符类别中禁用 Unicode 感知

标签

反馈

这篇文章有问题吗?请在 GitHub 上提交问题或拉取请求,帮助我们。