找回密码
 加入
搜索
查看: 4236|回复: 4

对于隐藏了源代码的网页,如何提取其文字内容?如QQ空间的日志

[复制链接]
发表于 2008-5-5 11:25:26 | 显示全部楼层 |阅读模式
一、问题的来源:
在从网页转txt的过程中,如果是在网页,有很多网页的源代码都给隐藏了,如QQ空间的日志,看源代码只能看到几E文几段,根本找不着与日志相关的任何文字信息。

二、已经掌握的方法:
在没有隐藏源代码的网页上已经知道的方法是:
-----------------htm转txt-------------------------
#include <IE.au3>
$b='http://blog.163.com/yingtekeji/blog/static/5518929720082318175731/'
$a='E:\我的文档\au3\练习\aaa.htm'
$oIE = _IECreate ($b, 0, 0, 1)
$sText = _IEBodyReadText ($oIE)

$sText=StringRegExpReplace($sText,".*\s.*----------以下是配置脚本内容----------","")
$sText=StringRegExpReplace($sText,"----------以上是配置脚本内容----------(\s.*)*","")
FileWrite("E:\我的文档\au3\练习\e.txt",$sText)
;MsgBox(0,"",$sText)
_IEQuit($oIE)
ShellExecute("E:\我的文档\au3\练习\e.txt")


三、现在的问题:
那么如何用au3做到后台提取这样隐藏了源代码的网页上的文字内容呢?
发表于 2008-5-5 12:35:31 | 显示全部楼层
qq空间试了 搞不定
发表于 2008-5-5 18:19:53 | 显示全部楼层
哈哈,直接都看不到
 楼主| 发表于 2008-5-9 09:47:34 | 显示全部楼层
如果没解(没有解决了)
就不用结贴了吧
发表于 2009-3-29 23:20:55 | 显示全部楼层
qq空间记得是全js 好像 统统都是靠js后期写入body...
您需要登录后才可以回帖 登录 | 加入

本版积分规则

QQ|手机版|小黑屋|AUTOIT CN ( 鲁ICP备19019924号-1 )谷歌 百度

GMT+8, 2024-11-15 03:50 , Processed in 0.074791 second(s), 23 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表