网页内容抓取 求一正则(已解决)
本帖最后由 shano 于 2010-11-13 01:18 编辑$Source = _INetGetSource("http://switchboard.intelius.com/results.php?ReportType=34&qn=Mcconnell&qi=20&qk=10")
抓出格式为一条记录为
Box 1735
Wise
VA
24293
(276) 328-3522
一页共10条信息
----------------------------------------------------------------------------------------------------------------------------------
源码如下
<td class="result" colspan="2">
<table class="resultTable">
<tr>
<td class="nameAndAddress">
<div><a class="resultName" href="/results.php?ReportType=34&MoreInfoResult=1&RecID=0&qi=20&qk=10&qn=Mcconnell">A Mcconnell</a></div>
<div class="listingInfo">
<div>Box 1735<br> Wise, VA 24293</div>
<div class="phone">(276) 328-3522</div></div>
<div><a class="leftUrl" href="/vcard.php?city=Wise&state=VA&address=Box+1735&zip=24293&fname=A&lname=Mcconnell&phone=2763283522&email=">Add to Address Book</a
-----------------------------------------------------------------------
最佳答案<div>([^<]+)<br>\s*(\w+)[,\s]+(\w+)\s(\w+)</div>\v\s*<div class="phone">([^<]+) 本帖最后由 binghc 于 2010-11-12 23:56 编辑
啊~可能我不是非常懂网页,不明白楼主的意思
刚才研究了下,有点明白了。。。。。 贴出源码了 本帖最后由 binghc 于 2010-11-13 00:58 编辑
<div>([^<]+)<br>\s*([^,]+)[,\s]+(\w+)\s(\w+)</div>\v\s*<div class="phone">([^<]+)
这可是楼主想要的答案?
哈哈没错
LS的徘徊在牛A和牛C之间。。。。。 哈哈没错
LS的徘徊在牛A和牛C之间。。。。。
shano 发表于 2010-11-13 00:31 http://www.autoitx.com/images/common/back.gif
什么意思哈? 问题来了
$Source = _INetGetSource("http://switchboard.intelius.com/results.php?ReportType=34&qn=Mcconnell&qi=20&qk=10")
$sR = StringRegExp($Source, '<div>([^<]+)<br>\s*(\w+)[,\s]+(\w+)\s(\w+)</div>\r\s*<div class="phone">([^<]+)',3)
_ArrayDisplay($sR, UBound($sR))
这样为何匹配不到? 问题出在那个换行符上,你把\r后面的表达式删除试试看! 把\r换成\v,就没问题了 经曲吗。牛A与牛C的牛B 哈哈哈。。。。 不错的东东。。。 什么意思哈?
binghc 发表于 2010-11-13 00:42 http://www.autoitx.com/images/common/back.gif
{:face (303):}
A 和C中间隔了一个B字呀,,那就是牛B了 这个/r与/v找了好久。。。。
页:
[1]