求教正则提取网页文字 [已解决]
本帖最后由 tsys 于 2011-11-16 19:40 编辑链接是 :
<a href="http://health.sohu.com/" target="_blank">搜狐健康</a>
<a href="http://www.zhenai.com/901685.html" target="_blank">珍爱婚恋网</a>
...........
想要提取:搜狐健康珍爱婚恋网 这类文字,望赐教 #include <Array.au3>
Local $Str = _
'<a href="http://health.sohu.com/" target="_blank">搜狐健康</a>' & @CRLF & _
'<a href="http://www.zhenai.com/901685.html" target="_blank">珍爱婚恋网</a>' & @CRLF
;MsgBox(0, '原字符串', $Str)
Local $Test = StringRegExp($str, '(?<=>)[^<\v]+', 3)
;If Not @Error Then MsgBox(0, '匹配数量: ' & UBound($Test), '其中元素为: ' & $Test)
_ArrayDisplay($Test, UBound($Test)) 我觉得楼主应该会啊。。。 回复 1# tsys
A版你好,以下是我要提取文字的网站
http://123.sogou.com/
如果整页提取的话,会出现部分问题,取到不相干内容。能否帮忙重新优化下表达式,只是表达式就好,代码我自己可以搞定,谢谢 本帖最后由 tsys 于 2011-11-16 17:31 编辑
回复 3# lixiaolong
不错,我曾经确实成功提取过,不过不好意思,那也是百度告诉我的,看见正则就头痛,但是还需要它。 回复tsys
A版你好,以下是我要提取文字的网站
如果整页提取的话,会出现部分问题,取到不相干内 ...
tsys 发表于 2011-11-16 17:27 http://www.autoitx.com/images/common/back.gif
什么是不相干内容呢? 回复 6# afan 回复 7# tsys (?<=>)[^<\v"{}]+(?=<) 之类的是需要转码的,不在此考虑 回复 8# afan
多谢A版,本人知识浅薄,还请谅解,其余问题,我自己想办法处理 回复 5# tsys
哦,我也在学正则,正则真是头痛。。。加油啊! #include <Array.au3>
Local $Str = _
'<a href="http://health.sohu.com/" target="_blank">搜狐健康</a>' & @CRLF & _
'<a href="http://www.zhenai.com/901685.html" target="_blank">珍爱婚恋网</a>' & @CRLF
;MsgBox(0, '原字符串', $Str)
Local $Test = StringRegExp($str, '<a.+>(.+)</a>', 3)
;If Not @Error Then MsgBox(0, '匹配数量: ' & UBound($Test), '其中元素为: ' & $Test)
_ArrayDisplay($Test, UBound($Test)) 回复 2# afan
afan大大的正则表达式还是没有看懂,我的正则表达式是不是在停留在初级阶段啊?$Test = StringRegExp($str, '<a.+>(.+)</a>', 3)
回复 12# xms77
你的正则很厉害,能否教我? 回复 10# lixiaolong
正则确实很难,我只学了一端时间就OVER了,哎.... 回复 13# hzxymkb
版主大人在开我的玩笑了,我才学了个皮毛,Afan大大的表达式都看不懂,哎,谜一样的正则啊!
页:
[1]
2