3月302016
au3 正则参考 -46-匹配 Unicode
<!DOCTYPE html>
Unicode 类别属性(UCP)支持
AutoIt 使用 PCRE 引擎(Perl 兼容的正则表达式), 是最全面的开源引擎. 这个引擎包括 Unicode 类别属性(UCP)支持, 它允许大多数人类语言的细致处理. 然而, 为了维持与以前版本的兼容性, 并保持在其最佳的匹配速度, 默认不启用 UCP 支持. 您可以通过在表达式前添加选项 (UCP) 启用它. 启用时, UCP 设置将更改正则表达式元素的匹配扩展.
默认正则表达式模式与输入文本匹配时, 正则表达式引擎会采用规范行为. 但是可以指示正则表达式引擎通过指定 (UCP) 选项使用 UCP 匹配行为.
注意: (UCP) 与\p{} 同属 Unicode 类别属性支持, 但使用方法是不一样的!
下面示例规范行为和 UCP 匹配行为对同一输入字符串的不同品牌结果, 定义规范匹配和 UCP 匹配的 2 个表达式, 该表达式与后跟空白字符的单词匹配. 输入由两个字符串组成的输入, 其中一个字符串使用拉丁字符集, 另一个则使用西里尔字符集:
字符串: целый мир , the whole world
规范匹配表达式: \b(\w+\s)+
匹配结果(标志 4): 仅匹配由拉丁字符组成的语句.
[0]=> [0]the whole world
UCP 匹配表达式: (UCP)\b(\w+\s)+
匹配结果(标志 4)
[0]=> [0]целый мир
[1]=> [0]the whole world
同时匹配西里尔字符和拉丁字符组成的语句.
扫描二维码,在手机上阅读
发表评论
木有头像就木JJ啦!还木有头像吗?点这里申请属于你的个性Gravatar头像吧!