chamlien 发表于 2014-10-30 16:23:50

源码获取不到的网页如何查找指定字符串?

对于post和get,或者_IEDocReadHTML都只能返回部分网页源码,有些动态数据是不能获取,以下思路是:

在打开的网页页面查找指定字符串,类似于CTRL+F一样查找,如何实现呢?

haijie1223 发表于 2014-10-30 17:25:32

给出网页吧~说说哪些是获取不到的?

chamlien 发表于 2014-10-30 18:30:51

回复 2# haijie1223

外网打不开,Google play 里面的

chamlien 发表于 2014-10-31 22:09:22

回复 2# haijie1223


地址如下:

https://play.google.com/apps/publish/?dev_acc=12435886029200203094#AppListPlace

不过外网带不开,除非是有google developer环境,希望能打得开的AU3帮忙测试一下

shqf 发表于 2014-11-1 08:17:35

如是浏览器,本地能看到的网页文本内容,就说明本地获取到了,其一般遵循的也是http协议,post和get,或者_IEDocReadHTML应该都 能获取到的。注意一下网页中是否有框架吧。

haijie1223 发表于 2014-11-1 15:12:14

#Include <WinHTTP.au3>
Global $sHtml
$hOpen = _WinHttpOpen()
$hConnect = _WinHttpConnect($hOpen, "accounts.google.com")
$hRequest = _WinHttpOpenRequest($hConnect, "GET", "/ServiceLogin?service=androiddeveloper&passive=1209600&continue=https://play.google.com/apps/publish/?dev_acc%3D12435886029200203094&followup=https://play.google.com/apps/publish/?dev_acc%3D12435886029200203094")
_WinHttpSendRequest($hRequest)
_WinHttpReceiveResponse($hRequest)
If _WinHttpQueryDataAvailable($hRequest) Then
        While 1
                $sHtml &=_WinHttpReadData($hRequest,1)&@CRLF
                If @error Then ExitLoop
        Wend
EndIf
_WinHttpCloseHandle($hRequest)
_WinHttpCloseHandle($hConnect)
_WinHttpCloseHandle($hOpen)
ConsoleWrite($sHtml & @CRLF)

haijie1223 发表于 2014-11-1 15:24:24

源码太长,文字发布上来,附件懒得搞~自己试试吧

chamlien 发表于 2014-11-1 19:42:39

回复 5# shqf

用post和get抓包的时候,网页直接不会完全显示,而是提示要重新刷新,所以网页应该用了保护之类的

chamlien 发表于 2014-11-1 19:46:53

回复 6# haijie1223

看得出来你好像在某产品下工作?这个GET是不是要用IE登录账号进去才可以用?

这个地址本来是要登录才可以用的,现在没有测试环境,周一试试看看能不能获取得到全部源码

haijie1223 发表于 2014-11-2 08:22:09

回复 9# chamlien


    什么叫某产品下工作?就是用你给的地址操作的~没有帐号~直接就是获取没有登陆界面的源码啊

chamlien 发表于 2014-11-2 11:13:30

回复 10# haijie1223

这样的?我本地都打不开的

haijie1223 发表于 2014-11-2 14:24:37

回复 11# chamlien


    谷歌当然是要vpn了~

chamlien 发表于 2014-11-3 11:34:35

回复 12# haijie1223

测试了,返回的是登录界面的源码,不是我想要的界面源码

chamlien 发表于 2014-11-3 18:51:53

回复 2# haijie1223

我把网页保存了下来,我想操作的是匹配每组Reply to this review上一行的文字,然后点击Reply to this review,但是网页获取的源码是获取不到Reply to this review所有组数的文字,网页源码和本地网页见附件,麻烦有时间帮忙解答一下。

haijie1223 发表于 2014-11-3 21:56:20

回复 14# chamlien


    没有用户名和密码,怎么进入,可不就是登陆界面的源码?
页: [1] 2
查看完整版本: 源码获取不到的网页如何查找指定字符串?