tsys 发表于 2011-11-16 16:42:00

求教正则提取网页文字 [已解决]

本帖最后由 tsys 于 2011-11-16 19:40 编辑

链接是 :
<a href="http://health.sohu.com/" target="_blank">搜狐健康</a>
<a href="http://www.zhenai.com/901685.html" target="_blank">珍爱婚恋网</a>
...........
想要提取:搜狐健康珍爱婚恋网 这类文字,望赐教

afan 发表于 2011-11-16 16:52:17

#include <Array.au3>
Local $Str = _
                '<a href="http://health.sohu.com/" target="_blank">搜狐健康</a>' & @CRLF & _
                '<a href="http://www.zhenai.com/901685.html" target="_blank">珍爱婚恋网</a>' & @CRLF
;MsgBox(0, '原字符串', $Str)
Local $Test = StringRegExp($str, '(?<=>)[^<\v]+', 3)
;If Not @Error Then MsgBox(0, '匹配数量: ' & UBound($Test), '其中元素为: ' & $Test)
_ArrayDisplay($Test, UBound($Test))

lixiaolong 发表于 2011-11-16 17:00:57

我觉得楼主应该会啊。。。

tsys 发表于 2011-11-16 17:27:25

回复 1# tsys

A版你好,以下是我要提取文字的网站
http://123.sogou.com/

如果整页提取的话,会出现部分问题,取到不相干内容。能否帮忙重新优化下表达式,只是表达式就好,代码我自己可以搞定,谢谢

tsys 发表于 2011-11-16 17:30:25

本帖最后由 tsys 于 2011-11-16 17:31 编辑

回复 3# lixiaolong

不错,我曾经确实成功提取过,不过不好意思,那也是百度告诉我的,看见正则就头痛,但是还需要它。

afan 发表于 2011-11-16 17:32:11

回复tsys

A版你好,以下是我要提取文字的网站


如果整页提取的话,会出现部分问题,取到不相干内 ...
tsys 发表于 2011-11-16 17:27 http://www.autoitx.com/images/common/back.gif

什么是不相干内容呢?

tsys 发表于 2011-11-16 17:35:46

回复 6# afan

afan 发表于 2011-11-16 17:38:23

回复 7# tsys (?<=>)[^<\v"{}]+(?=<)&nbsp; 之类的是需要转码的,不在此考虑

tsys 发表于 2011-11-16 17:41:19

回复 8# afan

多谢A版,本人知识浅薄,还请谅解,其余问题,我自己想办法处理

lixiaolong 发表于 2011-11-16 18:59:28

回复 5# tsys

哦,我也在学正则,正则真是头痛。。。加油啊!

xms77 发表于 2011-11-16 19:19:21

#include <Array.au3>
Local $Str = _
                '<a href="http://health.sohu.com/" target="_blank">搜狐健康</a>' & @CRLF & _
                '<a href="http://www.zhenai.com/901685.html" target="_blank">珍爱婚恋网</a>' & @CRLF
;MsgBox(0, '原字符串', $Str)
Local $Test = StringRegExp($str, '<a.+>(.+)</a>', 3)
;If Not @Error Then MsgBox(0, '匹配数量: ' & UBound($Test), '其中元素为: ' & $Test)
_ArrayDisplay($Test, UBound($Test))

xms77 发表于 2011-11-16 19:21:41

回复 2# afan
afan大大的正则表达式还是没有看懂,我的正则表达式是不是在停留在初级阶段啊?$Test = StringRegExp($str, '<a.+>(.+)</a>', 3)

hzxymkb 发表于 2011-11-17 00:15:57

回复 12# xms77


    你的正则很厉害,能否教我?

newuser 发表于 2011-11-17 09:28:24

回复 10# lixiaolong
正则确实很难,我只学了一端时间就OVER了,哎....

xms77 发表于 2011-11-17 11:34:42

回复 13# hzxymkb
版主大人在开我的玩笑了,我才学了个皮毛,Afan大大的表达式都看不懂,哎,谜一样的正则啊!
页: [1] 2
查看完整版本: 求教正则提取网页文字 [已解决]