Perl Unicode 羹:匹配 Unicode 换行符序列
℞ 22: 在正则表达式中匹配 Unicode 换行符序列 Unicode 将几个字符定义为提供垂直空白,如回车或换行符。Unicode 还将几个字符归入换行符序列的范畴。一个 Unicode 换行符匹配...
℞ 22: 在正则表达式中匹配 Unicode 换行符序列 Unicode 将几个字符定义为提供垂直空白,如回车或换行符。Unicode 还将几个字符归入换行符序列的范畴。一个 Unicode 换行符匹配...
℞ 21: Unicode 不区分大小写的比较 Unicode 不仅仅是一个扩展的字符集。Unicode 是关于字符如何行为的规则集合以及每个字符的属性集合。为了比较字符串的等价性,通常需要将它们归一化到...
℞ 20: Unicode 大小写 Unicode 大小写与 ASCII 大小写非常不同。Unicode 的复杂性部分源于 Unicode 字符在从大写转换为小写以及反过来时可能会发生剧烈变化。例如,希腊语...
℞ 19: 以特定编码打开文件虽然为 IO 设置默认的 Unicode 编码是合理的,但有时默认编码并不正确。在这种情况下,请在 open 的模式选项中手动指定文件句柄的编码,以...
℞ 18: 使所有 I/O 和参数默认为 utf8 Perl 中处理 Unicode 的核心规则是“始终在程序的边缘进行编码和解码”。如果您已配置一切,使所有传入和传出的数据...
℞ 17: 使文件 I/O 默认为 utf8 如果您曾经不幸看到 Unicode 警告“打印中的宽字符”,您可能已经意识到某个地方忘记在文件句柄上设置适当的 Unicode 兼容编码...
℞ 16: 声明 STD{IN,OUT,ERR} 使用区域编码始终在程序的边缘将数据转换为和从所需的编码转换。这包括标准文件句柄 STDIN、STDOUT 和 STDERR。虽然对于现代操作系统...
℞ 15: 声明 STD{IN,OUT,ERR} 为 UTF-8 始终在程序的边缘将数据转换为和从所需的编码转换。这包括标准文件句柄 STDIN、STDOUT 和 STDERR。如 perldoc perlrun 文档所述,PERL_UNICODE 环境变量或...
℞ 14: 将程序参数解码为区域编码虽然在现代操作系统中,您的命令行参数通常以 UTF-8 编码,但 @ARGV 可能使用其他编码。如果您已配置系统使用...
℞ 13: 将程序参数解码为utf8 虽然 Perl 的标准 Unicode 预言使得 Perl 的文件句柄默认使用 UTF-8 编码,但文件句柄并非数据源和汇的唯一来源。您的程序命令行参数,通过 @ARGV 可用,可能...
℞ 12: 显式编码/解码 虽然 Perl 的标准 Unicode 预言使得 Perl 的文件句柄默认使用 UTF-8 编码,但文件句柄并非数据源和汇的唯一来源。在罕见情况下,如数据库读取,您可能会遇到已编码...
℞ 11: CJK 码点名称 CJK 指的是中文、日文和韩文。在 Unicode 的背景下,它通常指的是现代中文和日文书写系统中使用的汉字。正如您所料,象形语言...
℞ 10: 自定义命名字符 如其他几个菜谱所示,charnames 预言提供了相当大的力量来使用和操作 Unicode 字符。它的 :alias 选项允许您为现有字符提供自己的词法作用域昵称,...
℞ 9: Unicode 命名序列 Unicode 包含了命名字符序列的功能,它将多个 Unicode 字符组合在单个名称之后。charnames 预言允许在字面量中使用这些命名序列,正如它允许使用...
℞ 8: Unicode 命名字符 使用 \N{charname} 表示法通过名称获取字符,以便在插值字面量(双引号字符串和正则表达式)中使用。在 v5.16 中,有隐式使用 charnames qw(:full :short); 但在 v5.16 之前,...
℞ 7: 通过名称获取字符编号 Unicode 允许您通过数字或名称引用字符。计算机不在乎,但人类在乎。当您有一个字符名称时,您可以使用...
℞ 6: 通过编号获取字符名称 Unicode 允许您通过数字或名称引用字符。计算机不在乎,但人类在乎。当您有一个字符编号时,您可以使用...
℞ 5: 通过字符编号获取 Unicode 字面量 在插值字面量中,无论是双引号字符串还是正则表达式,您都可以使用 \x{HHHHHH} 转义序列指定一个字符的编号。字符串: "\x{3a3}" 正则表达式: /\x{3a3}/ 字符串: "\x{1d45b}" 正则表达式: /\x{1d45b}/ # even...
℞ 4: 字符及其编号 您需要将码点转换为字符或将字符转换为码点吗?ord 和 chr 函数在所有码点上透明工作,而不仅仅是 ASCII—实际上,不是...
℞ 3: 声明 UTF-8 作为标识符和字面量的源 Without the all-critical use utf8 声明,在字面量和标识符中放置 UTF-8 不会正常工作。如果您使用了标准的 Perl Unicode 预言,这已经发生了。如果您做了...