[已解决]使用正则从网页中提取文字
本帖最后由 magus 于 2011-11-25 09:46 编辑<ul class="wb_news_list"> <li><a href="http://weibo.com/1780168271/xyNdp9L6l">旺夫的6种肉类</a></li> <li><a href="http://v.tao123.com/dianying/">吸血鬼上演血色情欲</a></li> <li><a href="http://www.tao123.com/shenghuo/meinv/?top1">全裸美女</a> <a href="http://www.tao123.com/shenghuo/meinv/?top">透视装</a></li> </ul> </div>
我是Au3新手,对正则几乎一窍不通,请问如何从这一段网页中提取出这四个汉字标题? 回复 1# magus
是这样吗?
完美...{:face (43):} 回复 3# magus
#include <Array.au3>
$sText = '<ul class="wb_news_list"> <li><a href="http://weibo.com/1780168271/xyNdp9L6l">旺夫的6种肉类</a></li> <li><a href="http://v.tao123.com/dianying/">吸血鬼上演血色情欲</a></li> <li><a href="http://www.tao123.com/shenghuo/meinv/?top1">全裸美女</a> <a href="http://www.tao123.com/shenghuo/meinv/?top">透视装</a></li> </ul> </div>'
$aRe = StringRegExp($sText, '(?<=">)([^<]+)</a>', 3)
_ArrayDisplay($aRe) 学习了,2楼用的是什么工具 回复 5# y1751
论坛里面有这个工具下载,自己搜一下“正则”...配合AU3挺好用的!.. 只提取四个汉字标题.
(?<=>)\W{4}(?=<) 本帖最后由 131738 于 2011-11-25 17:18 编辑
回复magus
水木子 发表于 2011-11-25 09:49 http://www.autoitx.com/images/common/back.gif
准备收入 StringRegExp 示例脚本,描述为 “正则提取网页文字”,当然少不了作者和链接, 呵呵。。。
页:
[1]