找回密码
 加入
搜索
查看: 5630|回复: 14

获取http://www.baidu.com/home.html的源代码

  [复制链接]
发表于 2008-10-2 22:09:12 | 显示全部楼层 |阅读模式
我想问一下,怎样获得一个网站的某页面的源代码
比如或者http://www.baidu.com/home.html这个页面的源代码

[ 本帖最后由 xzdx 于 2008-10-2 23:35 编辑 ]
发表于 2008-10-2 22:37:36 | 显示全部楼层
不知道去看看...帮助文档么?

InetGet ( "URL", "文件名" [, 是否重载 [, 是否后台]] )
 楼主| 发表于 2008-10-2 23:34:53 | 显示全部楼层
看了,文档太大了,半天没找到


另外找到了个新方法
$oHTTP = ObjCreate("winhttp.winhttprequest.5.1")
$oHTTP.Open("GET","http://www.baidu.com/home.html")
$oHTTP.Send()
$HTMLSource = $oHTTP.Responsetext
MsgBox(0, "test:", $HTMLSource)
发表于 2008-10-2 23:45:21 | 显示全部楼层
原帖由 xzdx 于 2008-10-2 23:34 发表
看了,文档太大了,半天没找到


另外找到了个新方法
$oHTTP = ObjCreate("winhttp.winhttprequest.5.1")
$oHTTP.Open("GET","http://www.baidu.com/home.html")
$oHTTP.Send()
$HTMLSource = $oHTTP.Responset ...


这方法获取的网页源码,对于中文会显示乱码!

[ 本帖最后由 liongodmien 于 2008-10-2 23:53 编辑 ]
发表于 2008-10-3 00:02:04 | 显示全部楼层
用:

#include <ie.au3>
 $oHTTP = _IECreate("http://www.baidu.com/home.html", 0, 0, 1, 0)
$HTMLSource = _IEDocReadHTML($oHTTP)
MsgBox(0, "test:", $HTMLSource)


中文英文都可以正常识别!
发表于 2008-10-3 18:00:45 | 显示全部楼层

回复 4# liongodmien 的帖子

_INetGetSource乱码的解决方法

#include <INet.au3>
$source = _INetGetSource('http://so.mdbchina.com/query/%E8%8B%B9%E6%9E%9C')
$source = BinaryToString($source , 4);无这句出来后是乱码,是因为网页内编码的问题
MsgBox(4096,0, $source )
发表于 2008-10-5 20:54:08 | 显示全部楼层
原帖由 wind234 于 2008-10-3 18:00 发表
_INetGetSource乱码的解决方法

#include
$source = _INetGetSource('http://so.mdbchina.com/query/%E8%8B%B9%E6%9E%9C')
$source = BinaryToString($source , 4);无这句出来后是乱码,是因为网页内编码的问题
...

_INetGetSource 我目前还没遇到过出现乱码的......
只是:
$oHTTP = ObjCreate("winhttp.winhttprequest.5.1")
$oHTTP.Open("GET","http://www.baidu.com/home.html")
$oHTTP.Send()
$HTMLSource = $oHTTP.Responsetext
MsgBox(0, "test:", $HTMLSource)
会有乱码
发表于 2008-10-6 04:25:56 | 显示全部楼层
学习了,谢谢........
收藏之
发表于 2009-8-20 21:58:50 | 显示全部楼层
_INetGetSource转换过来也有问题怎么办啊?里面有些问号啊……
发表于 2010-5-29 11:09:36 | 显示全部楼层
不错,学习五楼勒
发表于 2010-5-29 12:44:30 | 显示全部楼层
五楼正解!
发表于 2011-1-6 07:47:46 | 显示全部楼层
学习了,有用
发表于 2011-3-11 03:16:08 | 显示全部楼层
网页编码使用编码gb2312(也句是中文编码)的基本都乱码
即<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
使用utf-8(通用)不会乱码
即<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
测试站点:
gb2312:http://www.nongli.com/item4/index.asp
utf-8:http://ww2.txwy.com/
发表于 2015-3-21 00:37:27 | 显示全部楼层
获取到的都是一部分
发表于 2015-4-13 11:27:51 | 显示全部楼层
很不错的问题刚好解决我的烦恼
您需要登录后才可以回帖 登录 | 加入

本版积分规则

QQ|手机版|小黑屋|AUTOIT CN ( 鲁ICP备19019924号-1 )谷歌 百度

GMT+8, 2024-9-28 16:14 , Processed in 0.092302 second(s), 20 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表