登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

miaozk2006

点滴积累与收藏:关于技术,关于生活

 
 
 

日志

 
 

正则表达式  

2011-11-28 18:26:34|  分类: 软件-Li |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

随着对U N I X和L I N U X熟悉程度的不断加深,需要经常接触到正则表达式这个领域。使用
s h e l l时,从一个文件中抽取多于一个字符串将会很麻烦。例如,在一个文本中抽取一个词,
它的头两个字符是大写的,后面紧跟四个数字。如果不使用某种正则表达式,在s h e l l中将不
能实现这个操作。
当从一个文件或命令输出中抽取或过滤文本时,可以使用正则表达式( R E),正则表达式
是一些特殊或不很特殊的字符串模式的集合。
为了抽取或获得信息,我们给出抽取操作应遵守的一些规则。这些规则由一些特殊字符
或进行模式匹配操作时使用的元字符组成。也可以使用规则字符作为模式中的一部分进行搜
寻。例如,A将查询A,x将查找字母x。
系统自带的所有大的文本过滤工具在某种模式下都支持正则表达式的使用,并且还包括
一些扩展的元字符集。这里只涉及其中之一,即以字符出现情况进行匹配的表达式,原因是
一些系统将这类模式划分为一组形成基本元字符的集合。这是一个好想法,本书也采用这种
方式。
基本元字符集及其含义
^ 只只匹配行首
$ 只只匹配行尾
* 只一个单字符后紧跟*,匹配0个或多个此单字符
[ ] 只匹配[ ]内字符。可以是一个单字符,也可以是字符序列。可以使用-
表示[ ]内字符序列范围,如用[ 1 - 5 ]代替[ 1 2 3 4 5 ]
\ 只用来屏蔽一个元字符的特殊含义。因为有时在s h e l l中一些元字符有
特殊含义。\可以使其失去应有意义
. 只匹配任意单字符
p a t t e r n \ { n \ } 只用来匹配前面p a t t e r n出现次数。n为次数
p a t t e r n \ { n,\ } m 只含义同上,但次数最少为n
p a t t e r n \ { n,m \ } 只含义同上,但p a t t e r n出现次数在n与m之间
1 使用句点匹配单字符
句点“.”可以匹配任意单字符。例如,如果要匹配一个字符串,以b e g开头,中间夹一个
任意字符,那么可以表示为b e g . n,“.”可以匹配字符串头,也可以是中间任意字符。
在ls -l命令中,可以匹配一定权限:
. . . x . . x . . x
此格式匹配用户本身,用户组及其他组成员的执行权限。
假定正在过滤一个文本文件,对于一个有1 0个字符的脚本集,要求前4个字符之后为X C,
匹配操作如下:
. . . .X C. . . .
以上例子解释为前4个字符任意,5,6字符为X C,后4个字符也任意,按下例运行:
注意,“.”允许匹配A S C I I集中任意字符,或为字母,或为数字。
3 在行尾以$匹配字符串或字符
可以说$与^正相反,它在行尾匹配字符串或字符, $符号放在匹配单词后。假定要匹配以
单词t r o u b l e结尾的所有行,操作为:
t r o u b l e $
类似的,使用1 d $返回每行以1 d结尾的所有字符串。
如果要匹配所有空行,执行以下操作:
^ $
具体分析为匹配行首,又匹配行尾,中间没有任何模式,因此为空行。
如果只返回包含一个字符的行,操作如下:
^ . $
不像空白行,在行首与行尾之间有一个模式,代表任意单字符。
如果在行尾匹配单词j e t 0 1,操作如下:
j e t 0 1 $
4 使用*匹配字符串中的单字符或其重复序列
使用此特殊字符匹配任意字符或字符串的重复多次表达式。例如:
c o m p u * t
5 使用\屏蔽一个特殊字符的含义
有时需要查找一些字符或字符串,而它们包含了系统指定为特殊字符的一个字符。什么
是特殊字符?一般意义上讲,下列字符可以认为是特殊字符:
假定要匹配包含字符“ .”的各行而“,”代表匹配任意单字符的特殊字符,因此需要屏蔽
其含义。操作如下:
\ .
上述模式不认为反斜杠后面的字符是特殊字符,而是一个普通字符,即句点。
假定要匹配包含^的各行,将反斜杠放在它前面就可以屏蔽其特殊含义。如下:
\ ^
如果要在正则表达式中匹配以* . p a s结尾的所有文件,可做如下操作:
\ * \ . p a s
即可屏蔽字符*的特定含义。
6 使用[]匹配一个范围或集合
使用[ ]匹配特定字符串或字符串集,可以用逗号将括弧内要匹配的不同字符串分开,但并
不强制要求这样做(一些系统提倡在复杂的表达式中使用逗号),这样做可以增加模式的可读
性。
使用“ -”表示一个字符串范围,表明字符串范围从“ -”左边字符开始,到“ -”右边字
符结束。
如果熟知一个字符串匹配操作,应经常使用[ ]模式。
假定要匹配任意一个数字,可以使用:
[ 0 1 2 3 4 5 6 7 8 9 ]
然而,通过使用“-”符号可以简化操作:
[ 0 - 9 ]
或任意小写字母
[ a - z ]
要匹配任意字母,则使用:
[ A - Z a - z ]
表明从A - Z、a - z的字母范围。
如要匹配任意字母或数字,模式如下:
[ A - Z a - z 0 - 9 ]
在字符序列结合使用中,可以用[ ]指出字符范围。假定要匹配一单词,以s开头,中间有
一任意字母,以t结尾,那么操作如下:
s[a-z A-Z]t
如仅匹配小写字母,可使用:
s [ a - z ] t
如要匹配C o m p u t e r或c o m p u t e r两个单词,可做如下操作:
[ C c ] o m p u t e r
为抽取诸如S c o u t、s h o u t、b o u g h t等单词,使用下列表达式:
[ou] .*t
匹配以字母o或u开头,后跟任意一个字符任意次,并以t结尾的任意字母。
也许要匹配所有包含s y s t e m后跟句点的所有单词,这里S可大写或小写。使用如下操作:
[ S,s ] y s t e m \ .
[ ]在指定模式匹配的范围或限制方面很有用。结合使用*与[ ]更是有益,例如[ A - Z a - Z ] *将
匹配所有单词。
[ A - Z a - z ] *
注意^符号的使用,当直接用在第一个括号里,意指否定或不匹配括号里内容。
[^a-zA-Z]
匹配任一非字母型字符,而
[ ^ 0 - 9 ]
匹配任一非数字型字符。
7 使用\{\}匹配模式结果出现的次数
使用*可匹配所有匹配结果任意次,但如果只要指定次数,就应使用\ { \ },此模式有三种
形式,即:
pattern\{n\} 匹配模式出现n次。
pattern\{n,\} 匹配模式出现最少n次。
pattern\{n,m} 匹配模式出现n到m次之间,n , m为0 - 2 5 5中任意整数。
请看第一个例子,匹配字母A出现两次,并以B结尾,操作如下:
A \ { 2 \ } B
匹配值为A A B
匹配A至少4次,使用:
A \ { 4 , \ } B
可以得结果A A A A B或A A A A A A A B,但不能为A A A B。
如给出出现次数范围,例如A出现2次到4次之间:
A \ { 2 , 4 \ } B
则结果为A A B、A A A B、A A A A B,而不是A B或A A A A A B等。


参考:http://www.cnblogs.com/guiliangfeng/archive/2009/04/13/1434696.html

 

  



 


 Linux部分精彩推荐

Linux系统初学者的常见问题解决集结

Linux挂载U

linux 下的挂载

redhatubuntu系统下挂载ntfs文件系统的方法(转载)

疯狂挂载:Linux连接常用外部设备的方法

ubuntu 重装系统备份数据   ubuntu安装kde桌面

ubuntu全局配置文件

ubuntu安装rpm的方法

ubuntu设置全攻略

Linux 常用C函数说明-文件权限控制篇

rpm deb命令集合

rc.local自启动学习

init.drc.d详解 Linux运行时详解

linuxtar gz bz2 tgz z等众多压缩文件的解压方法

tar命令用法详述

使用tar进行磁带备份的命令汇总

LINUX:解压问题tar: Child returned status 1

Linux系统服务自启动设置_Tomcat

Linux操作系统下SSH默认22端口修改方法

Linux启动级别:init 0,1,2,3,4,5,6

linux服务开机启动和运行级别

linux服务自动启动功能

新手学堂:Linux操作系统的启动步骤说明

xinit启动X Window System过程初探

构建小型Linux跟文件系统镜像(Ext2 Ext3

linux内核源码目录结构

简述 Linux 文件系统的目录结构

Linux目录结构及解释

Linux 内核源代码的结构

linux文件系统的目录结构

linux 端口 操作

Linux操作系统下软件的安装与卸载

vim 实用的经验

网络管理:超级详细Tcpdump 的用法

Linux系统下网卡网络配置基础

vsFTPd自架Linux网络安装服务器,以及Redhat局域网安装的解决办法

网络管理:超级详细Tcpdump 的用法

[]tcpdump 教程 用法 使用

Linuxtelnet配置

linux 任务计划 cron

YUM 库的安装

Linux环境变量的设置和查看方法

Linux命令速查手册

关于linux系统中命令的使用详解

简单而常用的shell 命令

rpm常用命令集合

[常用命令]diff

vi指令大全

LINUX/UNIX vi全屏幕编辑器

Linux操作系统Ifconfig命令详细解析

linux top命令详解

chmod命令使用详解

Linux主要shell命令详解

linux ps命令使用详解

Linux下设置和修改IP

Linuxfind用法整理

Fedora 中的 Yum 命令详解

rpm常用命令集合

Linux cat 命令用法

chmod命令详细用法

linux redhat命令大全

Linux操作系统下/etc/hosts文件

LINUX PATH环境变量

如何安装无签名认证的rpm

LINUX关于休眠、待机和睡眠的问题

initrd.img处理

Linux字符集的修改方法

Awk学习笔记

shell取得文件行数6

正则表达式

shell中单引号、双引号、反引号、反斜杠的使用

Linux开机过程(转)

LINUX中注销其他已登陆帐户

学习 Linux LVM

shell 中的参数替换

mkswap 把一个分区格式化成为swap交换区

rsh的配置

修复GRUB

Linux自动注销登录的帐户

linux下的/dev/shm/  以及与swap目录的区别

Redhat Linux配置远程桌面

Linux截图工具import使用说明

LinuxUNIX下磁带机的管理和使用

Linux 磁带机备份完全攻略

gnome桌面环境 kde桌面环境的区别

linux i18n修改,中文版英文版体现

linux命令-locale字符显示

linux命令-locale字符显示

RedHat 8.0软件包组--桌面类

让英文版的LINUX 支持中文显示

Linux  shell内核使用

RedHat Enterprise Linux Oracle 9i的安装配置与调优

Linux下安装mysql后无法启动的解决方法

百度最全的LINUXRedhat学习教程下载帖大全

Redhat linux 安装 gcc编译器,Gcc源码包,rpm包安装方法!

RHCE题库

Redhat Enterprise Linux 6 正式版已经发布!

VMWare虚拟机安装RedHat Linux全过程

  评论这张
 
阅读(748)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018