bihex 发表于 2015-3-21 21:41:28

[多谢两位已解决]请教一个奇怪的正则提取网页内容的问题

本帖最后由 bihex 于 2015-3-21 23:25 编辑

我想提取淘宝页面中的标题下面的介绍内容如这个http://item.taobao.com/item.htm?id=37068329846

活动啦,限时--拍下14.9元一件包邮!-----【29元两件包邮!!买三件42元就包邮!!!56元四件包邮!!】包邮申通、汇通快递,不到地区可以留言发邮政快递!春季新款妈妈裤,亏本疯抢中!~~

网页源码是<h3 class="tb-main-title" data-title="中老年人春天外穿打底裤薄款秋女妈妈加肥加大码高腰印花小脚长裤">
   中老年人春天外穿打底裤薄款秋女妈妈加肥加大码高腰印花小脚长裤
   </h3>
   <p class="tb-subtitle">
活动啦,限时--拍下14.9元一件包邮!-----【29元两件包邮!!买三件42元就包邮!!!56元四件包邮!!】包邮申通、汇通快递,不到地区可以留言发邮政快递!春季新款妈妈裤,亏本疯抢中!~~
</p>
   <div id="J_TEditItem" class="tb-editor-menu"></div>
</div>我的提取规则如下,总是提取不成功不知道为何
$url1 = 'http://item.taobao.com/item.htm?id=37068329846'

$oIE1 = _IECreate($url1)
$a = _IEDocReadHTML($oIE1)

$data = StringRegExp($a, '(?si) <p class="tb-subtitle">(.*?)</p>', 3)

MsgBox(4096, "匹配的元数据", $data & @CRLF)

afan 发表于 2015-3-21 22:55:09

试试$data = StringRegExp($a, '(?i)subtitle>(.*?)</p>', 1)

zldfsz 发表于 2015-3-21 23:01:17

没问题啊
#include <Inet.au3>
$url1 = 'http://item.taobao.com/item.htm?id=37068329846'
$data = StringRegExp(_INetGetSource($url1), '(?si) <p class="tb-subtitle">(.*?)</p>', 3)
MsgBox(4096, "匹配的元数据", $data & @CRLF)

bihex 发表于 2015-3-21 23:23:44

没问题啊
zldfsz 发表于 2015-3-21 23:01 http://www.autoitx.com/images/common/back.gif

换成你的代码可以,不知道问题的原因是什么,有的代码可以,

bihex 发表于 2015-3-21 23:25:14

试试
afan 发表于 2015-3-21 22:55 http://www.autoitx.com/images/common/back.gif


    这个也可以@!,多谢!

nchxzy 发表于 2015-4-6 12:04:28

这个也可以
页: [1]
查看完整版本: [多谢两位已解决]请教一个奇怪的正则提取网页内容的问题