bihex 发表于 2015-1-1 15:42:45

〔感谢半芯竹,已解决〕请问这个页面中的地址和标题怎么获得,谢谢

本帖最后由 bihex 于 2015-1-1 21:56 编辑

请问这个页面中怎么获得http://item.taobao.com/item.htm?id=41698718109和图片地址http://img04.taobaocdn.com/imgextra/i4/803616514/TB2MI3ObpXXXXXWXpXXXXXXXXXX_!!803616514.jpg和标题【包邮】强力去污玻璃清洁剂
自己搞半天也干不出

对码如下:
<li>
      <div class="main-good buy">
            <a href="http://item.taobao.com/item.htm?id=41698718109" target="_blank" class="good-pic">
               
                <img src="http://img04.taobaocdn.com/imgextra/i4/803616514/TB2MI3ObpXXXXXWXpXXXXXXXXXX_!!803616514.jpg">
               
            </a>
             <span class="new-icon">新品</span>
            
            
            <h3 class="good-title">【包邮】强力去污玻璃清洁剂</a></h3>
            <h4 class="good-price">
                <span class="price-current"><em>¥</em>8.5</span>
                                                <span class="des-other">
                                                        <strong></strong>
                                                        <span class="price-old"><em>¥</em>18</span>
                                                        <span class="discount">(<em>4.7</em>折)</span>
                                                </span>
                <div class="btn-new buy">
                  <a target="_blank" href="http://item.taobao.com/item.htm?id=41698718109">
                        <strong>去天猫抢购</strong>
                  </a>
                </div>
            </h4>
            <h5 class="des-state">
                <span class="state-time fl">开始:1月1日10时00分</span>
            </h5>
      </div>
    </li>

bihex 发表于 2015-1-1 18:38:17

回复 1# bihex


    $sImg = StringRegExp($str, '.*(http://im.+?jpg).*class="title">(.+?)</.*(http://.+?)".*', 3)
用这个无法获得内容

半芯竹 发表于 2015-1-1 20:10:40

本帖最后由 半芯竹 于 2015-1-1 20:16 编辑

+://[^\s]*(\.jpg|\d{11})|([^\x00-\xff]+){13}

bihex 发表于 2015-1-1 21:56:07

太厉害了,

weeks5 发表于 2015-1-2 08:30:38

学习了。。。。。。。。

半芯竹 发表于 2015-1-3 17:43:46

本帖最后由 半芯竹 于 2015-1-3 18:09 编辑

\w+://[^\s]*(\d+|\.jpg)|[^\x00-\xff]{13}
如果只需要提取一个:“http://item.taobao.com/item.htm?id=41698718109“
\w+://[^\s]*(\d+(?=">)|\.jpg)|[^\x00-\xff]{13}
添加一个正则预搜索。

bihex 发表于 2015-1-6 13:25:30

能够把3个放在一个数组里面吗
页: [1]
查看完整版本: 〔感谢半芯竹,已解决〕请问这个页面中的地址和标题怎么获得,谢谢