au3 正则参考 -46-匹配 Unicode

3月302016

au3 正则参考 -46-匹配 Unicode

作者：绿色风发布：2016-3-30 11:25 Wednesday 分类：工具●教程阅读：4263次评论：0条

<!DOCTYPE html> RegExp

Unicode 类别属性(UCP)支持

AutoIt 使用 PCRE 引擎(Perl 兼容的正则表达式), 是最全面的开源引擎. 这个引擎包括 Unicode 类别属性(UCP)支持, 它允许大多数人类语言的细致处理. 然而, 为了维持与以前版本的兼容性, 并保持在其最佳的匹配速度, 默认不启用 UCP 支持. 您可以通过在表达式前添加选项 (UCP) 启用它. 启用时, UCP 设置将更改正则表达式元素的匹配扩展.

默认正则表达式模式与输入文本匹配时, 正则表达式引擎会采用规范行为. 但是可以指示正则表达式引擎通过指定 (UCP) 选项使用 UCP 匹配行为.

注意: (UCP) 与\p{} 同属 Unicode 类别属性支持, 但使用方法是不一样的!

下面示例规范行为和 UCP 匹配行为对同一输入字符串的不同品牌结果, 定义规范匹配和 UCP 匹配的 2 个表达式, 该表达式与后跟空白字符的单词匹配. 输入由两个字符串组成的输入, 其中一个字符串使用拉丁字符集, 另一个则使用西里尔字符集:

字符串: целый мир , the whole world

规范匹配表达式: \b(\w+\s)+

匹配结果(标志 4): 仅匹配由拉丁字符组成的语句.
[0]=> [0]the whole world

UCP 匹配表达式: (UCP)\b(\w+\s)+

匹配结果(标志 4)
[0]=> [0]целый мир
[1]=> [0]the whole world
同时匹配西里尔字符和拉丁字符组成的语句.

本文固定链接: http://jianyiit.com/post-207.html