Perl Unicode 烹饪书:进一步资源
本系列通过示例向您展示了Unicode的几个特性,以及如何使用最新版本的Perl 5正确且容易地处理Unicode。到现在为止,你对Unicode的了解可能比许多程序员都多...
本系列通过示例向您展示了Unicode的几个特性,以及如何使用最新版本的Perl 5正确且容易地处理Unicode。到现在为止,你对Unicode的了解可能比许多程序员都多...
℞ 44:程序:Unicode 排序和打印演示 在过去的几周中,Unicode 烹饪书解释了Unicode是如何工作的,以及如何在程序中使用它。如果您已经浏览了这些食谱,现在您对Unicode的了解...
℞ 43:DBM 哈希中的 Unicode 文本,简单方法 一些Perl库要求您跳过障碍来处理Unicode数据。如果所有事情都像Perl的open祈使句一样简单就好了!对于DBM文件,以下是隐式...
℞ 42:DBM 哈希中的 Unicode 文本,繁琐的方法 虽然Perl 5长期以来一直非常小心地处理Perl世界内部的Unicode,但每次你离开Perl内部时,你都会跨越一个边界...
℞ 41:Unicode 行分隔 如果你曾经试图将大量文本放入比文本全宽窄的显示区域,你肯定已经处理过行分隔(或单词换行)的乐趣了。当你...
℞ 40:大小写和重音不敏感的本地比较 现在,你知道如何比较Unicode字符串,同时忽略大小写和重音差异。这种方法使用标准的Unicode排序算法。要执行类似的比较同时尊重特定地区的规则...
℞ 39:大小写和重音不敏感的比较 如你所见,许多Unicode字符串有多种可能的表示形式。比较两个Unicode字符串以检查它们是否相等,需要比仅仅比较它们的代码点更多。你必须考虑多种表示形式...
℞ 38:使 cmp 在文本上而不是在代码点上工作 即使有了Perl 5.12的“unicode_strings”功能,Perl的一些核心操作在默认情况下对Unicode字符串的处理并不像预期的那样。例如,cmp运算符如何知道...
℞ 37:Unicode 本地排序 正如你所看到的,Unicode感知排序尊重Unicode字符属性。你不能按代码点排序并期望得到准确的结果,即使你坚持使用纯ASCII。这个世界是复杂的...
℞ 36:大小写和重音不敏感的Unicode排序 Unicode排序算法定义了几个排序强度级别,你可以使用这些级别指定某些字符属性对于排序顺序是相关还是无关紧要。简单地说,你可以使用排序...
℞ 35:Unicode 排序排序——即使是纯ASCII——似乎很简单,至少如果你知道字母歌。但是,如果你仅仅按代码点排序,即使是这么简单的事情也会变得复杂。数字会出现在字母中间。你会得到……
℞ 34:打印时 Unicode 列宽Perl的printf、sprintf和format认为所有代码点都占用1个打印列,但实际上很多代码点占用0个或2个。如果你使用这些内置函数来对齐文本,你可能发现……
℞ 33:Grapheme 中的字符串长度如果你对Unicode一无所知,请记住这一点:字符不是字节,也不是grapheme,更不是代码点。一个用户可见的符号(grapheme)可能由多个代码点组成。多个代码点的组合……
℞ 32:按 Grapheme 反转字符串由于字节和字符在Unicode中不是同构的——而且你作为用户可见的字符(grapheme)不一定是Unicode字符串中的单个代码点——每个字符串操作都必须意识到……
℞ 31:通过 Grapheme 而不是 Codepoint 提取(substr)Unicode标准附件#29讨论了grapheme cluster之间的边界——用户可能视为“字符”的内容。CPAN模块Unicode::GCString允许你将Unicode字符串视为一个序列……
℞ 30:通过 Grapheme 而不是 Codepoint 提取(regex)请记住,Unicode将grapheme定义为“用户视为字符的内容”。代码点是在Unicode代码空间中的整数值。虽然ASCII将这两个概念混淆了,……
℞ 29:在 Regex 中匹配 Unicode Grapheme Cluster 在ASCII时代,我们谈论字符和字节。我们在它们之间看到了很少的差异。在Unicode世界中,字符远不止7位数据。更好……
℞ 28:转换非ASCII Unicode 数字Unicode数字涵盖了比ASCII字符0-9更多的内容。除非你使用了/a或/aa,否则\d匹配的不仅仅是ASCII数字。这很好!不幸的是,Perl的隐式字符串到数字转换并不……
℞ 27:Unicode 规范化建议一提醒你,在应用程序的边界处始终分解和重组Unicode数据。Unicode::Normalize为你做了更多。它支持多个Unicode规范化形式。规范化,当然,会处理Unicode数据……
℞ 26:自定义字符属性在Regex中匹配Unicode属性解释了每个Unicode字符都有一个或多个属性,由Unicode联盟指定。你可以扩展这些规则来定义你自己的属性,以便Perl可以使用……