onepc 发表于 2011-5-30 14:41:19

提取网页很奇异的问题,就在那一页出错,看不出是什么原因。



#include <Array.au3>
#include <INet.au3>
;$s ='<p class="lxsj_ln">类型:<span><a href="http://list.juchang.com/jcl/1-60-0-0-0-4-4-0-1-12.html" target="_blank" title=''恐怖片''>恐怖片</a></span><span'
$s=_INetGetSource('http://list.juchang.com/jcl/1-0-1001-0-0-4-4-0-14-12.html');


               
                ;$file = FileOpen(@ScriptDir &'\aa.html',2)
                ;FileWrite($file, $s)
                ;FileClose($file)

;$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<span><a[^>]*>(.*?)</a></span>',3)
$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<',3)
_ArrayDisplay($ss,1)

$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<',3) 这样可以出12条记录,
$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<s',3)
加多一个s就出错了。。最后一条不能提取出来。???????????????

$ss=StringRegExp($s,'(?i)<p class="lxsj_ln">类型:<span><a[^>]*>(.*?)</a></span>',3)
用这个在其它页是没问题的,,就在这一页里出错。
http://list.juchang.com/jcl/1-0-1001-0-0-4-4-0-14-12.htm

easefull 发表于 2011-5-30 19:28:57

测试无错
顺便再问一下'(?i)'是表示什么?

dyd 发表于 2011-5-30 22:30:16

路过,顶下!

onepc 发表于 2011-5-31 07:41:16

(?i)表示不区分大小写,
我的真的只能抓到十一条,最后一条没法抓取。!!

Ziya 发表于 2011-5-31 08:20:58

Not Found

The requested URL /jcl/1-0-1001-0-0-4-4-0-14-12.htm was not found on this server.

.......
页: [1]
查看完整版本: 提取网页很奇异的问题,就在那一页出错,看不出是什么原因。