如何提取网页指定部分的文字内容
如图提取
http://top.baidu.com/ 上的关键字
用正则!!! 先看HTML源代码吧看是哪个标签里面 再去取值 本帖最后由 easied 于 2011-3-16 06:54 编辑
inetget获取html代码.
然后使用正则和字符串函数取得具体数据.
#include <Array.au3>
InetGet("http://top.baidu.com/buzz.php?p=top10", @TempDir & "\2.html", 1)
$sString = FileRead(@TempDir & "\2.html")
$sRegExp = 'target="_blank">\S*</a></td>'
$asResult = StringRegExp($sString, $sRegExp, 3)
For $i = 0 To UBound($asResult) - 1 Step 1
$asResult[$i] = StringMid($asResult[$i], StringInStr($asResult[$i], '>')+1, StringInStr($asResult[$i], '<') - StringInStr($asResult[$i], '>') - 1)
Next
_ArrayDisplay($asResult)
上面函数正则还是有些问题,碰到有空格的就不能匹配了.
另外,似乎可以把stringmid的部分也直接在正则那一行里面匹配了,请高手指点... 好贴,下次对网页准备好好研究下 本帖最后由 easied 于 2011-3-16 06:54 编辑
inetget获取html代码.
然后使用正则和字符串函数取得具体数据.上面函数正则还是有些问题,碰到有空格的就不 ...
easied 发表于 2011-3-15 20:41 http://www.autoitx.com/images/common/back.gif
#include <Array.au3>
InetGet("http://top.baidu.com/buzz.php?p=top10", @TempDir & "\2.html", 1)
$sString = FileRead(@TempDir & "\2.html")
$sRegExp = 'target="_blank">[^<]+</a></td>'
$asResult = StringRegExp($sString, $sRegExp, 3)
For $i = 0 To UBound($asResult) - 1 Step 1
$asResult[$i] = StringMid($asResult[$i], StringInStr($asResult[$i], '>')+1, StringInStr($asResult[$i], '<') - StringInStr($asResult[$i], '>') - 1)
Next
_ArrayDisplay($asResult)
带空格的匹配自己搞定了.等待高手把字符串操作的也整合到正则计算中... good.thanks!!!!!
页:
[1]