找回密码
 加入
搜索
查看: 1873|回复: 4

[AU3基础] 提取网页很奇异的问题,就在那一页出错,看不出是什么原因。

[复制链接]
发表于 2011-5-30 14:41:19 | 显示全部楼层 |阅读模式


#include <Array.au3>
#include <INet.au3>
;$s ='<p class="lxsj_ln">类型:<span><a href="http://list.juchang.com/jcl/1-60-0-0-0-4-4-0-1-12.html" target="_blank" title=''恐怖片''>恐怖片</a></span><span'
$s=_INetGetSource('http://list.juchang.com/jcl/1-0-1001-0-0-4-4-0-14-12.html');


                
                ;$file = FileOpen(@ScriptDir &'\aa.html',2)
                ;FileWrite($file, $s)
                ;FileClose($file)

;$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<span><a[^>]*>(.*?)</a></span>',3)
$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<',3)
_ArrayDisplay($ss,1)

$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<',3) 这样可以出12条记录,
$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<s',3)
加多一个s就出错了。。最后一条不能提取出来。???????????????

$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<span><a[^>]*>(.*?)</a></span>',3)
用这个在其它页是没问题的,,就在这一页里出错。
http://list.juchang.com/jcl/1-0-1001-0-0-4-4-0-14-12.htm
发表于 2011-5-30 19:28:57 | 显示全部楼层
测试无错
顺便再问一下'(?i)'是表示什么?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?加入

×
发表于 2011-5-30 22:30:16 | 显示全部楼层
路过,顶下!
 楼主| 发表于 2011-5-31 07:41:16 | 显示全部楼层
(?i)表示不区分大小写,
我的真的只能抓到十一条,最后一条没法抓取。!!
发表于 2011-5-31 08:20:58 | 显示全部楼层
Not Found

The requested URL /jcl/1-0-1001-0-0-4-4-0-14-12.htm was not found on this server.


.......
您需要登录后才可以回帖 登录 | 加入

本版积分规则

QQ|手机版|小黑屋|AUTOIT CN ( 鲁ICP备19019924号-1 )谷歌 百度

GMT+8, 2024-9-21 05:43 , Processed in 0.080349 second(s), 25 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表