haodd 发表于 2011-3-15 13:02:50

如何提取网页指定部分的文字内容

如图
提取
http://top.baidu.com/ 上的关键字


kxing 发表于 2011-3-15 19:46:02

用正则!!!

chenlu_ling 发表于 2011-3-15 19:50:24

先看HTML源代码吧看是哪个标签里面 再去取值

easied 发表于 2011-3-15 20:41:06

本帖最后由 easied 于 2011-3-16 06:54 编辑

inetget获取html代码.
然后使用正则和字符串函数取得具体数据.
#include <Array.au3>
InetGet("http://top.baidu.com/buzz.php?p=top10", @TempDir & "\2.html", 1)
$sString = FileRead(@TempDir & "\2.html")
$sRegExp = 'target="_blank">\S*</a></td>'
$asResult = StringRegExp($sString, $sRegExp, 3)
For $i = 0 To UBound($asResult) - 1 Step 1
        $asResult[$i] = StringMid($asResult[$i], StringInStr($asResult[$i], '>')+1, StringInStr($asResult[$i], '<') - StringInStr($asResult[$i], '>') - 1)
Next
_ArrayDisplay($asResult)
上面函数正则还是有些问题,碰到有空格的就不能匹配了.
另外,似乎可以把stringmid的部分也直接在正则那一行里面匹配了,请高手指点...

uxuuexqy 发表于 2011-3-15 21:50:34

好贴,下次对网页准备好好研究下

easied 发表于 2011-3-16 00:40:41

本帖最后由 easied 于 2011-3-16 06:54 编辑

inetget获取html代码.
然后使用正则和字符串函数取得具体数据.上面函数正则还是有些问题,碰到有空格的就不 ...
easied 发表于 2011-3-15 20:41 http://www.autoitx.com/images/common/back.gif
#include <Array.au3>
InetGet("http://top.baidu.com/buzz.php?p=top10", @TempDir & "\2.html", 1)
$sString = FileRead(@TempDir & "\2.html")
$sRegExp = 'target="_blank">[^<]+</a></td>'
$asResult = StringRegExp($sString, $sRegExp, 3)
For $i = 0 To UBound($asResult) - 1 Step 1
        $asResult[$i] = StringMid($asResult[$i], StringInStr($asResult[$i], '>')+1, StringInStr($asResult[$i], '<') - StringInStr($asResult[$i], '>') - 1)
Next
_ArrayDisplay($asResult)
带空格的匹配自己搞定了.等待高手把字符串操作的也整合到正则计算中...

hkc5599 发表于 2011-3-17 11:17:18

good.thanks!!!!!
页: [1]
查看完整版本: 如何提取网页指定部分的文字内容