|
一、问题的来源:
在从网页转txt的过程中,如果是在网页,有很多网页的源代码都给隐藏了,如QQ空间的日志,看源代码只能看到几E文几段,根本找不着与日志相关的任何文字信息。
二、已经掌握的方法:
在没有隐藏源代码的网页上已经知道的方法是:
-----------------htm转txt-------------------------
#include <IE.au3>
$b='http://blog.163.com/yingtekeji/blog/static/5518929720082318175731/'
$a='E:\我的文档\au3\练习\aaa.htm'
$oIE = _IECreate ($b, 0, 0, 1)
$sText = _IEBodyReadText ($oIE)
$sText=StringRegExpReplace($sText,".*\s.*----------以下是配置脚本内容----------","")
$sText=StringRegExpReplace($sText,"----------以上是配置脚本内容----------(\s.*)*","")
FileWrite("E:\我的文档\au3\练习\e.txt",$sText)
;MsgBox(0,"",$sText)
_IEQuit($oIE)
ShellExecute("E:\我的文档\au3\练习\e.txt")
三、现在的问题:
那么如何用au3做到后台提取这样隐藏了源代码的网页上的文字内容呢? |
|