sex123 发表于 2012-12-26 00:41:20

如何不用正则取得一个网页文本地址的URL呢

http://www.sciencedirect.com/science/article/pii/B9780122841514500002
左上角的PDF(xxx K)字样,想取得这个PDF所代表的URL,打开网页后,有什么办法不用正则来取得Url吗?因为url总会变化,过一些时间,正则就不起作用了,文件大小也在变,只有PDF三个字不变。有什么好办法吗?

kevinch 发表于 2012-12-26 08:38:03

本帖最后由 kevinch 于 2012-12-26 08:42 编辑

#include <ie.au3>

$oie=_IECreate("http://www.sciencedirect.com/science/article/pii/B9780122841514500002",1,1,1,0)
_IELoadWait($oie)
$links=_IELinkGetCollection($oie)
For $link In $links
        If StringLower($link.title)="download pdf" Then
                MsgBox(0,"",$link.href)
                ExitLoop
        EndIf
Next这个试下

sex123 发表于 2012-12-26 10:02:45

如果多个url的title都是download pdf 那么最后的$link.href是不是网页最后一个取得符合条件的地址?而我想得到第一个地址,因为这个pdf是在左上角是网页的第一个出现的pdf,有的网页后面会有很多这种pdf可以下载。

kevinch 发表于 2012-12-26 11:08:30

如果多个url的title都是download pdf 那么最后的$link.href是不是网页最后一个取得符合条件的地址?而我想得 ...
sex123 发表于 2012-12-26 10:02 http://www.autoitx.com/images/common/back.gif
除了title还有很多可以判断的,举出例子看下

sex123 发表于 2012-12-26 11:27:20

http://www.pnas.org/content/106/13/5153.full
这个想找到右侧中间的Full Text (PDF)地址,也就是http://www.pnas.org/content/106/13/5153.full.pdf+html
应该怎么找呢?

kevinch 发表于 2012-12-26 11:44:30

回复 6# sex123
网址打不开呢?
页: [1]
查看完整版本: 如何不用正则取得一个网页文本地址的URL呢