xzdx 发表于 2008-10-2 22:09:12

获取http://www.baidu.com/home.html的源代码

我想问一下,怎样获得一个网站的某页面的源代码
比如或者http://www.baidu.com/home.html这个页面的源代码

[ 本帖最后由 xzdx 于 2008-10-2 23:35 编辑 ]

rolaka 发表于 2008-10-2 22:37:36

不知道去看看...帮助文档么?

InetGet ( "URL", "文件名" [, 是否重载 [, 是否后台]] )

xzdx 发表于 2008-10-2 23:34:53

看了,文档太大了,半天没找到


另外找到了个新方法
$oHTTP = ObjCreate("winhttp.winhttprequest.5.1")
$oHTTP.Open("GET","http://www.baidu.com/home.html")
$oHTTP.Send()
$HTMLSource = $oHTTP.Responsetext
MsgBox(0, "test:", $HTMLSource)

liongodmien 发表于 2008-10-2 23:45:21

原帖由 xzdx 于 2008-10-2 23:34 发表 http://www.autoitx.com/images/common/back.gif
看了,文档太大了,半天没找到


另外找到了个新方法
$oHTTP = ObjCreate("winhttp.winhttprequest.5.1")
$oHTTP.Open("GET","http://www.baidu.com/home.html")
$oHTTP.Send()
$HTMLSource = $oHTTP.Responset ...

这方法获取的网页源码,对于中文会显示乱码!

[ 本帖最后由 liongodmien 于 2008-10-2 23:53 编辑 ]

liongodmien 发表于 2008-10-3 00:02:04

用:

#include <ie.au3>
$oHTTP = _IECreate("http://www.baidu.com/home.html", 0, 0, 1, 0)
$HTMLSource = _IEDocReadHTML($oHTTP)
MsgBox(0, "test:", $HTMLSource)


中文英文都可以正常识别!

wind234 发表于 2008-10-3 18:00:45

回复 4# liongodmien 的帖子

_INetGetSource乱码的解决方法

#include <INet.au3>
$source = _INetGetSource('http://so.mdbchina.com/query/%E8%8B%B9%E6%9E%9C')
$source = BinaryToString($source , 4);无这句出来后是乱码,是因为网页内编码的问题
MsgBox(4096,0, $source )

liongodmien 发表于 2008-10-5 20:54:08

原帖由 wind234 于 2008-10-3 18:00 发表 http://www.autoitx.com/images/common/back.gif
_INetGetSource乱码的解决方法

#include
$source = _INetGetSource('http://so.mdbchina.com/query/%E8%8B%B9%E6%9E%9C')
$source = BinaryToString($source , 4);无这句出来后是乱码,是因为网页内编码的问题
...
_INetGetSource 我目前还没遇到过出现乱码的......
只是:
$oHTTP = ObjCreate("winhttp.winhttprequest.5.1")
$oHTTP.Open("GET","http://www.baidu.com/home.html")
$oHTTP.Send()
$HTMLSource = $oHTTP.Responsetext
MsgBox(0, "test:", $HTMLSource)
会有乱码

ceoguang 发表于 2008-10-6 04:25:56

学习了,谢谢........
收藏之

kafkasmaze 发表于 2009-8-20 21:58:50

_INetGetSource转换过来也有问题怎么办啊?里面有些问号啊……

adasir 发表于 2010-5-29 11:09:36

不错,学习五楼勒

dajun 发表于 2010-5-29 12:44:30

五楼正解!

likecao 发表于 2011-1-6 07:47:46

学习了,有用

夜猫猫 发表于 2011-3-11 03:16:08

网页编码使用编码gb2312(也句是中文编码)的基本都乱码
即<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
使用utf-8(通用)不会乱码
即<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
测试站点:
gb2312:http://www.nongli.com/item4/index.asp
utf-8:http://ww2.txwy.com/

tzyhb 发表于 2015-3-21 00:37:27

获取到的都是一部分

gwgelin 发表于 2015-4-13 11:27:51

很不错的问题刚好解决我的烦恼
页: [1]
查看完整版本: 获取http://www.baidu.com/home.html的源代码