找回密码
 加入
搜索
查看: 7163|回复: 12

[IE类操作] 请教一下这样的网页想提取其中内容如何分析

 火.. [复制链接]
发表于 2013-5-27 21:31:01 | 显示全部楼层 |阅读模式
请教一下这样的网页想提取其中内容如何分析
这是一个职业考试练习题库,我想提取所有的考题,自己做一个离线的题库。网页中的考题和选项好像都是图片,名为picture.jpg和picture.gif,即便是提取这个图片也没关系,但我看过源代码没有相关内容。
再次请教一下如何提取这些考题、选项及相关解答内容。

网页如下:
http://exam.jzrc.net/app/Pratice ... amp;CommonId=991201

想看到内容可能需要注册一个会员。我截张图供参考。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?加入

×
发表于 2013-5-27 22:32:10 | 显示全部楼层
自从用QQ号乱登非腾讯官网而被盗号后, 我一见用这类的网址(使用Q号登录)都是怕怕了.
发表于 2013-5-28 09:42:34 | 显示全部楼层
帮LZ顶一个~我也想知道怎么做
 楼主| 发表于 2013-5-28 10:30:49 | 显示全部楼层
这个网址完全可以不用QQ登录啊,而且注册步骤非常简单。这只是一个职业注册考试相关的网址,绝对安全
发表于 2013-5-29 03:30:23 | 显示全部楼层
你是要自动答题呢还是要他的考试题目 首先网页提取看是文本还是图片 图片可以分析位置可文件名字 还有字体颜色如第几题 题目的开头字与结尾字对比 文本就更简单了 直接文本对比 就更精确了
 楼主| 发表于 2013-5-29 13:21:07 | 显示全部楼层
楼上的回复有些看不懂。我就是想要那些考题及答案,然后做个自己的题库,这样就可以线下做题了。现在的主要问题是网页中的问题,选项及答案都是图片,
 楼主| 发表于 2013-5-29 13:23:02 | 显示全部楼层
有些不知道如何提取需要的内容
发表于 2013-5-29 14:48:49 | 显示全部楼层
不懂,帮顶
发表于 2013-5-29 14:59:46 | 显示全部楼层
试试直接保存网页或者读取网页的代码内容再保存呢
发表于 2013-5-30 14:13:50 | 显示全部楼层
本帖最后由 flyeblue 于 2013-5-30 14:16 编辑

先登录,然后依据下面的链接直接读取网页,
http://exam.jzrc.net/app/CScript/publicexamajax.axd?op=ResponseSubject&PageIndex=第几题&ST_ID=单选或者多选&E_Id=试题编号

第几题是数字,单选多选那个,1代表单选,2代表多选,试题编号就是类似
http://exam.jzrc.net/app/TrueExamList.aspx?IsTrueExam=2&E_Id=1001
链接的网页里的1448
<a href="javascript:StartExam(1448,'qzone',1)" title="我要考试" alt="我要考试">&nbsp;参与考试</a>

获取的网页的源码类似下面这样
<div><span class="SubjectMainNum"><b>第3题</b></span><span id='span_sid' style='display:none'>138164</span></div><div><div class="Subject_Title_1" style="margin-bottom:0px;">标高基准点一般埋设在()的位置。(1分)</div><div class="Subject_Title" style="margin-top:0px;"><img src=http://exam.jzrc.net/Picture2.aspx?t=138164&QString=138164&nColorType=1 /></div><div class="SelectAnswerDiv"><div class="SelectAnswerDiv_Left">【选择答案】   <input type="radio"  name="radio_138164" value="1" onclick='AddSubject(this,1,138164)' /> A  <input type="radio"  name="radio_138164" value="2" onclick='AddSubject(this,1,138164)' /> B  <input type="radio"  name="radio_138164" value="3" onclick='AddSubject(this,1,138164)' /> C  <input type="radio"  name="radio_138164" value="4" onclick='AddSubject(this,1,138164)' /> D  <a href="javascript:PageUp(1)" class="M_Type2"><img src="http://exam.jzrc.net/Baiducenter/Images/plan_09.gif" border="0"  align="absmiddle"/></a> <a href="javascript:PageNext(1)" class="M_Type2"><img src="http://exam.jzrc.net/baiducenter/Images/PageNext.gif" align="absmiddle" border="0"/></a></div><div class="SelectAnswerDiv_Right"><a href="javascript:GetResult(1,138164)"><img src="http://exam.jzrc.net/User/Images/Icon1_9.gif" align="absmiddle" title='查看答案' alt='查看答案' border="0" /> 答案 </a></div><div style="clear:both"></div></div></div>
里面的题目很明显哦,然后选项是图片示例中的
<img src=http://exam.jzrc.net/Picture2.aspx?t=138164&QString=138164&nColorType=1 />


直接不能在浏览器的源代码里看到需要的内容的话,推荐firefox+httpfox
发表于 2013-5-30 16:21:30 | 显示全部楼层
哎!大神研究的东西都太难了!
 楼主| 发表于 2013-5-30 23:17:09 | 显示全部楼层
回复 10# flyeblue

这个回答很有借鉴意义,感谢啊。我再认真捉摸一下,有问题再请教。
 楼主| 发表于 2013-6-6 10:52:51 | 显示全部楼层
先登录,然后依据下面的链接直接读取网页,

第几题是数字,单选多选那个,1代表单选,2代表多选,试题编 ...
flyeblue 发表于 2013-5-30 14:13


我用firefox+httpfox和IE+httpwatch都看过了,显示的图片信息都是乱码,没有像你截图出来的那个第3题有纯文字的效果,是我哪里做的有误还是别的原因?如果能把那些题目、选项都能以文字的方式抓下来是最理想的结果,退而求其次的是把图片抓下来也可以。请看看截图,帮我分析一下症结在哪,谢谢!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?加入

×
您需要登录后才可以回帖 登录 | 加入

本版积分规则

QQ|手机版|小黑屋|AUTOIT CN ( 鲁ICP备19019924号-1 )谷歌 百度

GMT+8, 2024-11-16 08:30 , Processed in 0.081922 second(s), 25 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表