Perl Unicode 烹饪书:在正则表达式中匹配 Unicode 属性
℞ 25: 在正则表达式中使用 \p{} 元字符序列匹配 Unicode 属性 每个Unicode码点都有一个或多个属性,表示应用于该码点的规则。Perl的正则表达式引擎知道这些属性;使用 \p{} 元字符序列来...
℞ 25: 在正则表达式中使用 \p{} 元字符序列匹配 Unicode 属性 每个Unicode码点都有一个或多个属性,表示应用于该码点的规则。Perl的正则表达式引擎知道这些属性;使用 \p{} 元字符序列来...
℞ 24: 在内置字符类中禁用 Unicode 识别功能 许多正则表达式教程忽略了内置字符类包括远不止 ASCII 字符的事实。特别是,“单词字符”(\w)、“单词边界”(\b)、“空白”(\s)和“数字”(\d)...
℞ 23: 获取字符类别 Unicode 是一组字符以及应用于这些字符的一组规则和属性。Unicode 字符数据库收集这些属性。核心模块 Unicode::UCD 提供对这些属性的访问。这些通用...
℞ 22: 在正则表达式中匹配 Unicode 换行序列 Unicode 将几个字符定义为提供垂直空白,如回车或换行符。Unicode 还将几个字符归类到换行序列之下。Unicode 换行符匹配...
℞ 21: Unicode 不区分大小写的比较 Unicode 不仅仅是一个扩展的字符集。Unicode 是一组关于字符行为的规则以及关于每个字符的属性集合。比较字符串以...
℞ 20: Unicode 大小写 Unicode 大小写与 ASCII 大小写非常不同。Unicode 的复杂性部分源于 Unicode 字符在从大写转换为小写再转换回大写时可能会发生巨大的变化。例如,...
℞ 19: 以指定编码打开文件虽然为 IO 设置默认的 Unicode 编码是合理的,但有时默认编码并不正确。在这种情况下,在打开模式选项中手动指定文件句柄的编码以...
℞ 18: 将所有 I/O 和参数默认为 utf8 Perl 中 Unicode 处理的核心规则是“始终在程序的边缘进行编码和解码”。如果您已配置一切以便所有传入和传出的数据...
℞ 17: 将文件 I/O 默认为 utf8 如果您曾经不幸看到 Unicode 警告“print 中的宽字符”,您可能已经意识到某处忘记在文件句柄上设置了适当的 Unicode...
℞ 16: 将 STD{IN,OUT,ERR} 声明为本地编码。始终在程序的边缘将编码转换为和从所需编码转换。这包括标准文件句柄 STDIN、STDOUT 和 STDERR。虽然对于现代系统来说可能很常见...
℞ 15: 将 STD{IN,OUT,ERR} 声明为 UTF-8。始终在程序的边缘将编码转换为和从所需编码转换。这包括标准文件句柄 STDIN、STDOUT 和 STDERR。如 perldoc perlrun 文档中所述,PERL_UNICODE 环境变量或...
℞ 14: 将程序参数解码为本地编码。虽然在现代操作系统中,您的命令行参数通常编码为 UTF-8,但 @ARGV 可能使用其他编码。如果您已经使用...
℞ 13: 将程序参数解码为 utf8。尽管标准的 Perl Unicode 预言使得 Perl 的文件句柄默认使用 UTF-8 编码,但文件句柄并不是数据的唯一来源和目的地。您的程序命令行参数,通过 @ARGV 可用,可能...
℞ 12: 显式编码/解码。尽管标准的 Perl Unicode 预言使得 Perl 的文件句柄默认使用 UTF-8 编码,但文件句柄并不是数据的唯一来源和目的地。在罕见情况下,例如数据库读取,您可能会遇到...
℞ 11: CJK 码点的名称 CJK 指的是中文、日文和韩文。在 Unicode 的上下文中,它通常指的是现代中文和日文书写系统中使用的汉字。正如您可以预料的那样,象形语言...
℞ 10: 自定义命名字符 如其他几个食谱所示,charnames 预言提供了相当多的力量来使用和操作通过名称的 Unicode 字符。它的 :alias 选项允许您为现有的字符给出自己的词法作用域昵称,...
℞ 9: Unicode 命名序列 Unicode 包含了命名字符序列的功能,它将多个 Unicode 字符结合在一个单一名称后面。charnames 预言允许在文字(双引号字符串和正则表达式)中使用这些命名序列,就像它允许使用...
℞ 8: Unicode 命名字符 使用 \N{charname} 符号来通过该名称获取字符,用于插值文字(双引号字符串和正则表达式)。在 v5.16 中,有隐式 use charnames qw(:full :short); 但在 v5.16 之前,您...
℞ 7: 通过名称获取字符编号 Unicode 允许您通过编号或名称来引用字符。计算机不在乎,但人类在乎。当您有一个字符名称时,您可以使用...
℞ 6:通过Unicode编号获取字符名称 Unicode允许您通过编号或名称引用字符。计算机不在乎,但人类在乎。当您有字符编号时,可以使用……将其转换为名称。