对于隐藏了源代码的网页,如何提取其文字内容?如QQ空间的日志
一、问题的来源:在从网页转txt的过程中,如果是在网页,有很多网页的源代码都给隐藏了,如QQ空间的日志,看源代码只能看到几E文几段,根本找不着与日志相关的任何文字信息。
二、已经掌握的方法:
在没有隐藏源代码的网页上已经知道的方法是:
-----------------htm转txt-------------------------
#include <IE.au3>
$b='http://blog.163.com/yingtekeji/blog/static/5518929720082318175731/'
$a='E:\我的文档\au3\练习\aaa.htm'
$oIE = _IECreate ($b, 0, 0, 1)
$sText = _IEBodyReadText ($oIE)
$sText=StringRegExpReplace($sText,".*\s.*----------以下是配置脚本内容----------","")
$sText=StringRegExpReplace($sText,"----------以上是配置脚本内容----------(\s.*)*","")
FileWrite("E:\我的文档\au3\练习\e.txt",$sText)
;MsgBox(0,"",$sText)
_IEQuit($oIE)
ShellExecute("E:\我的文档\au3\练习\e.txt")
三、现在的问题:
那么如何用au3做到后台提取这样隐藏了源代码的网页上的文字内容呢? qq空间试了 搞不定 哈哈,直接都看不到 如果没解(没有解决了)
就不用结贴了吧 qq空间记得是全js 好像 统统都是靠js后期写入body...
页:
[1]