magus 发表于 2011-11-25 09:23:20

[已解决]使用正则从网页中提取文字

本帖最后由 magus 于 2011-11-25 09:46 编辑

<ul class="wb_news_list"> <li><a href="http://weibo.com/1780168271/xyNdp9L6l">旺夫的6种肉类</a></li> <li><a href="http://v.tao123.com/dianying/">吸血鬼上演血色情欲</a></li> <li><a href="http://www.tao123.com/shenghuo/meinv/?top1">全裸美女</a>&nbsp;<a href="http://www.tao123.com/shenghuo/meinv/?top">透视装</a></li> </ul> </div>

我是Au3新手,对正则几乎一窍不通,请问如何从这一段网页中提取出这四个汉字标题?

水木子 发表于 2011-11-25 09:39:46

回复 1# magus
是这样吗?

magus 发表于 2011-11-25 09:46:00

完美...{:face (43):}

水木子 发表于 2011-11-25 09:49:46

回复 3# magus
#include <Array.au3>
$sText = '<ul class="wb_news_list"> <li><a href="http://weibo.com/1780168271/xyNdp9L6l">旺夫的6种肉类</a></li> <li><a href="http://v.tao123.com/dianying/">吸血鬼上演血色情欲</a></li> <li><a href="http://www.tao123.com/shenghuo/meinv/?top1">全裸美女</a>&nbsp;<a href="http://www.tao123.com/shenghuo/meinv/?top">透视装</a></li> </ul> </div>'

$aRe = StringRegExp($sText, '(?<=">)([^<]+)</a>', 3)
_ArrayDisplay($aRe)

y1751 发表于 2011-11-25 10:16:07

学习了,2楼用的是什么工具

bdancerlc 发表于 2011-11-25 10:31:57

回复 5# y1751


    论坛里面有这个工具下载,自己搜一下“正则”...配合AU3挺好用的!..

lixiaolong 发表于 2011-11-25 15:24:17

只提取四个汉字标题.
(?<=>)\W{4}(?=<)

131738 发表于 2011-11-25 17:04:44

本帖最后由 131738 于 2011-11-25 17:18 编辑

回复magus
水木子 发表于 2011-11-25 09:49 http://www.autoitx.com/images/common/back.gif

准备收入 StringRegExp 示例脚本,描述为 “正则提取网页文字”,当然少不了作者和链接, 呵呵。。。
页: [1]
查看完整版本: [已解决]使用正则从网页中提取文字