yigao 发表于 2013-5-27 21:31:01

请教一下这样的网页想提取其中内容如何分析

请教一下这样的网页想提取其中内容如何分析
这是一个职业考试练习题库,我想提取所有的考题,自己做一个离线的题库。网页中的考题和选项好像都是图片,名为picture.jpg和picture.gif,即便是提取这个图片也没关系,但我看过源代码没有相关内容。
再次请教一下如何提取这些考题、选项及相关解答内容。

网页如下:
http://exam.jzrc.net/app/Pratice.aspx?&E_Id=1001&S_Id=5332&EO_Id=545&CommonId=991201

想看到内容可能需要注册一个会员。我截张图供参考。

user3000 发表于 2013-5-27 22:32:10

自从用QQ号乱登非腾讯官网而被盗号后, 我一见用这类的网址(使用Q号登录)都是怕怕了.

sniperone 发表于 2013-5-28 09:42:34

帮LZ顶一个~我也想知道怎么做

yigao 发表于 2013-5-28 10:30:49

这个网址完全可以不用QQ登录啊,而且注册步骤非常简单。这只是一个职业注册考试相关的网址,绝对安全

qq1244521 发表于 2013-5-29 03:30:23

你是要自动答题呢还是要他的考试题目 首先网页提取看是文本还是图片 图片可以分析位置可文件名字 还有字体颜色如第几题 题目的开头字与结尾字对比 文本就更简单了 直接文本对比 就更精确了

yigao 发表于 2013-5-29 13:21:07

楼上的回复有些看不懂。我就是想要那些考题及答案,然后做个自己的题库,这样就可以线下做题了。现在的主要问题是网页中的问题,选项及答案都是图片,

yigao 发表于 2013-5-29 13:23:02

有些不知道如何提取需要的内容

lxwlxwayy 发表于 2013-5-29 14:48:49

不懂,帮顶{:face (114):}

wiley_wang 发表于 2013-5-29 14:59:46

试试直接保存网页或者读取网页的代码内容再保存呢

flyeblue 发表于 2013-5-30 14:13:50

本帖最后由 flyeblue 于 2013-5-30 14:16 编辑

先登录,然后依据下面的链接直接读取网页,
http://exam.jzrc.net/app/CScript/publicexamajax.axd?op=ResponseSubject&PageIndex=第几题&ST_ID=单选或者多选&E_Id=试题编号
第几题是数字,单选多选那个,1代表单选,2代表多选,试题编号就是类似http://exam.jzrc.net/app/TrueExamList.aspx?IsTrueExam=2&E_Id=1001链接的网页里的1448 <a href="javascript:StartExam(1448,'qzone',1)" title="我要考试" alt="我要考试">&nbsp;参与考试</a>
获取的网页的源码类似下面这样<div><span class="SubjectMainNum"><b>第3题</b></span><span id='span_sid' style='display:none'>138164</span></div><div><div class="Subject_Title_1" style="margin-bottom:0px;">标高基准点一般埋设在()的位置。(1分)</div><div class="Subject_Title" style="margin-top:0px;"><img src=http://exam.jzrc.net/Picture2.aspx?t=138164&QString=138164&nColorType=1 /></div><div class="SelectAnswerDiv"><div class="SelectAnswerDiv_Left">【选择答案】 &nbsp;&nbsp;<input type="radio"name="radio_138164" value="1" onclick='AddSubject(this,1,138164)' />&nbsp;A&nbsp;&nbsp;<input type="radio"name="radio_138164" value="2" onclick='AddSubject(this,1,138164)' />&nbsp;B&nbsp;&nbsp;<input type="radio"name="radio_138164" value="3" onclick='AddSubject(this,1,138164)' />&nbsp;C&nbsp;&nbsp;<input type="radio"name="radio_138164" value="4" onclick='AddSubject(this,1,138164)' />&nbsp;D&nbsp;&nbsp;<a href="javascript:PageUp(1)" class="M_Type2"><img src="http://exam.jzrc.net/Baiducenter/Images/plan_09.gif" border="0"align="absmiddle"/></a>&nbsp;<a href="javascript:PageNext(1)" class="M_Type2"><img src="http://exam.jzrc.net/baiducenter/Images/PageNext.gif" align="absmiddle" border="0"/></a></div><div class="SelectAnswerDiv_Right"><a href="javascript:GetResult(1,138164)"><img src="http://exam.jzrc.net/User/Images/Icon1_9.gif" align="absmiddle" title='查看答案' alt='查看答案' border="0" /> 答案 </a></div><div style="clear:both"></div></div></div>里面的题目很明显哦,然后选项是图片示例中的<img src=http://exam.jzrc.net/Picture2.aspx?t=138164&QString=138164&nColorType=1 />

直接不能在浏览器的源代码里看到需要的内容的话,推荐firefox+httpfox

fccfx8 发表于 2013-5-30 16:21:30

哎!大神研究的东西都太难了!

yigao 发表于 2013-5-30 23:17:09

回复 10# flyeblue

这个回答很有借鉴意义,感谢啊。我再认真捉摸一下,有问题再请教。

yigao 发表于 2013-6-6 10:52:51

先登录,然后依据下面的链接直接读取网页,

第几题是数字,单选多选那个,1代表单选,2代表多选,试题编 ...
flyeblue 发表于 2013-5-30 14:13 http://www.autoitx.com/images/common/back.gif

我用firefox+httpfox和IE+httpwatch都看过了,显示的图片信息都是乱码,没有像你截图出来的那个第3题有纯文字的效果,是我哪里做的有误还是别的原因?如果能把那些题目、选项都能以文字的方式抓下来是最理想的结果,退而求其次的是把图片抓下来也可以。请看看截图,帮我分析一下症结在哪,谢谢!

页: [1]
查看完整版本: 请教一下这样的网页想提取其中内容如何分析