Perl Unicode 烹饪书:在正则表达式中匹配 Unicode 属性
℞ 25:使用 \p{} 元字符序列在正则表达式中匹配 Unicode 属性。每个 Unicode 代码点都有一个或多个属性,表示适用于该代码点的规则。Perl 的正则表达式引擎知道这些属性;使用 \p{} 元字符序列来...
℞ 25:使用 \p{} 元字符序列在正则表达式中匹配 Unicode 属性。每个 Unicode 代码点都有一个或多个属性,表示适用于该代码点的规则。Perl 的正则表达式引擎知道这些属性;使用 \p{} 元字符序列来...
℞ 24:在内置字符类中禁用 Unicode 感知 许多正则表达式教程忽略了内置字符类包括的不仅仅是 ASCII 字符的事实。特别是,“单词字符” (\w)、“单词边界” (\b)、“空白” (\s) 和“数字” (\d)...
℞ 23:获取字符类别 Unicode 是一组字符以及应用于这些字符的规则和属性列表。Unicode 字符数据库收集了这些属性。核心模块 Unicode::UCD 提供了对这些属性的访问。这些通用...
℞ 22:在正则表达式中匹配 Unicode 换行序列 Unicode 定义了一些字符提供垂直空白,如回车或换行字符。Unicode 还将几个字符归类为换行序列。Unicode 换行序列匹配...
℞ 21:Unicode 不区分大小写的比较 Unicode 不仅仅是一个扩展的字符集。Unicode 是一组关于字符行为的规则和一组关于每个字符的属性集。比较字符串以查找等效性通常需要将它们规范化到...
℞ 20:Unicode 大小写 Unicode 大小写与 ASCII 大小写非常不同。Unicode 的复杂性之一在于 Unicode 字符在从大写转换为小写以及反过来时可能会发生剧烈变化。例如,希腊语...
℞ 19:以指定编码打开文件虽然为 IO 设置默认的 Unicode 编码是合理的,但有时默认编码是不正确的。在这种情况下,您可以在模式选项中手动指定文件句柄的编码以打开...
℞ 18:使所有 I/O 和参数默认为 utf8 Perl 中 Unicode 处理的核心规则是“始终在程序边缘进行编码和解码”。如果您已配置好所有设置,以便所有传入和传出数据...
℞ 17:使文件 I/O 默认为 utf8 如果您曾经不幸看到过 Unicode 警告“在打印时出现宽字符”,您可能已经意识到某个地方忘记在文件句柄上设置适当的 Unicode 兼容编码...
℞ 16: 将 STD{IN,OUT,ERR} 声明为本地编码。始终在程序边缘将编码转换为和从您想要的编码转换。这包括标准文件句柄 STDIN、STDOUT 和 STDERR。虽然在现代操作系统中最常见,...
℞ 15: 将 STD{IN,OUT,ERR} 声明为 UTF-8。始终在程序边缘将编码转换为和从您想要的编码转换。这包括标准文件句柄 STDIN、STDOUT 和 STDERR。根据 perldoc perlrun 中的文档,PERL_UNICODE 环境变量或...
℞ 14: 将程序参数解码为本地编码。虽然在现代操作系统中最常见,您的命令行参数编码为 UTF-8,但 @ARGV 可能使用其他编码。如果您已配置系统使用...
℞ 13: 将程序参数解码为 utf8。虽然标准 Perl Unicode 预言使得 Perl 的文件句柄默认使用 UTF-8 编码,但文件句柄并不是数据源和汇的唯一来源。您的程序的可通过 @ARGV 访问的命令行参数可能...
℞ 12: 显式编码/解码。虽然标准 Perl Unicode 预言使得 Perl 的文件句柄默认使用 UTF-8 编码,但文件句柄并不是数据源和汇的唯一来源。在罕见的情况下,如数据库读取,您可能会被提供编码...
℞ 11: CJK 码点名称 CJK 指的是中文、日文和韩文。在 Unicode 的上下文中,它通常指的是现代中文和日文书写系统中使用的汉字。正如您所期望的,象形语言...
℞ 10: 自定义命名字符 如其他几个食谱所示,charnames 预言提供了相当大的能力来通过名称使用和操作 Unicode 字符。它的 :alias 选项允许您为现有字符提供自己的词法作用域昵称,...
℞ 9: Unicode 命名序列 Unicode 包含了名为字符序列的功能,它将多个 Unicode 字符组合在一个单一名称之后。charnames 预言允许在文字中(双引号字符串和正则表达式)使用这些命名序列,...
℞ 8: Unicode 命名字符 使用 \N{charname} 表示法通过该名称获取字符以用于插值文字(双引号字符串和正则表达式)。在 v5.16 中,有隐式 use charnames qw(:full :short); 但在 v5.16 之前,您...
℞ 7: 通过名称获取字符编号 Unicode 允许您通过编号或名称引用字符。计算机不在乎,但人类在乎。当您有一个字符名称时,您可以使用...
℞ 6: 通过编号获取字符名称 Unicode 允许您通过编号或名称引用字符。计算机不在乎,但人类在乎。当您有一个字符编号时,您可以使用...