星驰周 发表于 2008-5-5 11:25:26

对于隐藏了源代码的网页,如何提取其文字内容?如QQ空间的日志

一、问题的来源:
在从网页转txt的过程中,如果是在网页,有很多网页的源代码都给隐藏了,如QQ空间的日志,看源代码只能看到几E文几段,根本找不着与日志相关的任何文字信息。

二、已经掌握的方法:
在没有隐藏源代码的网页上已经知道的方法是:
-----------------htm转txt-------------------------
#include <IE.au3>
$b='http://blog.163.com/yingtekeji/blog/static/5518929720082318175731/'
$a='E:\我的文档\au3\练习\aaa.htm'
$oIE = _IECreate ($b, 0, 0, 1)
$sText = _IEBodyReadText ($oIE)

$sText=StringRegExpReplace($sText,".*\s.*----------以下是配置脚本内容----------","")
$sText=StringRegExpReplace($sText,"----------以上是配置脚本内容----------(\s.*)*","")
FileWrite("E:\我的文档\au3\练习\e.txt",$sText)
;MsgBox(0,"",$sText)
_IEQuit($oIE)
ShellExecute("E:\我的文档\au3\练习\e.txt")


三、现在的问题:
那么如何用au3做到后台提取这样隐藏了源代码的网页上的文字内容呢?

gooker 发表于 2008-5-5 12:35:31

qq空间试了 搞不定

rho123 发表于 2008-5-5 18:19:53

哈哈,直接都看不到

星驰周 发表于 2008-5-9 09:47:34

如果没解(没有解决了)
就不用结贴了吧

rolaka 发表于 2009-3-29 23:20:55

qq空间记得是全js 好像 统统都是靠js后期写入body...
页: [1]
查看完整版本: 对于隐藏了源代码的网页,如何提取其文字内容?如QQ空间的日志