请教一下这样的网页想提取其中内容如何分析
请教一下这样的网页想提取其中内容如何分析这是一个职业考试练习题库,我想提取所有的考题,自己做一个离线的题库。网页中的考题和选项好像都是图片,名为picture.jpg和picture.gif,即便是提取这个图片也没关系,但我看过源代码没有相关内容。
再次请教一下如何提取这些考题、选项及相关解答内容。
网页如下:
http://exam.jzrc.net/app/Pratice.aspx?&E_Id=1001&S_Id=5332&EO_Id=545&CommonId=991201
想看到内容可能需要注册一个会员。我截张图供参考。
自从用QQ号乱登非腾讯官网而被盗号后, 我一见用这类的网址(使用Q号登录)都是怕怕了. 帮LZ顶一个~我也想知道怎么做 这个网址完全可以不用QQ登录啊,而且注册步骤非常简单。这只是一个职业注册考试相关的网址,绝对安全 你是要自动答题呢还是要他的考试题目 首先网页提取看是文本还是图片 图片可以分析位置可文件名字 还有字体颜色如第几题 题目的开头字与结尾字对比 文本就更简单了 直接文本对比 就更精确了 楼上的回复有些看不懂。我就是想要那些考题及答案,然后做个自己的题库,这样就可以线下做题了。现在的主要问题是网页中的问题,选项及答案都是图片, 有些不知道如何提取需要的内容 不懂,帮顶{:face (114):} 试试直接保存网页或者读取网页的代码内容再保存呢 本帖最后由 flyeblue 于 2013-5-30 14:16 编辑
先登录,然后依据下面的链接直接读取网页,
http://exam.jzrc.net/app/CScript/publicexamajax.axd?op=ResponseSubject&PageIndex=第几题&ST_ID=单选或者多选&E_Id=试题编号
第几题是数字,单选多选那个,1代表单选,2代表多选,试题编号就是类似http://exam.jzrc.net/app/TrueExamList.aspx?IsTrueExam=2&E_Id=1001链接的网页里的1448 <a href="javascript:StartExam(1448,'qzone',1)" title="我要考试" alt="我要考试"> 参与考试</a>
获取的网页的源码类似下面这样<div><span class="SubjectMainNum"><b>第3题</b></span><span id='span_sid' style='display:none'>138164</span></div><div><div class="Subject_Title_1" style="margin-bottom:0px;">标高基准点一般埋设在()的位置。(1分)</div><div class="Subject_Title" style="margin-top:0px;"><img src=http://exam.jzrc.net/Picture2.aspx?t=138164&QString=138164&nColorType=1 /></div><div class="SelectAnswerDiv"><div class="SelectAnswerDiv_Left">【选择答案】 <input type="radio"name="radio_138164" value="1" onclick='AddSubject(this,1,138164)' /> A <input type="radio"name="radio_138164" value="2" onclick='AddSubject(this,1,138164)' /> B <input type="radio"name="radio_138164" value="3" onclick='AddSubject(this,1,138164)' /> C <input type="radio"name="radio_138164" value="4" onclick='AddSubject(this,1,138164)' /> D <a href="javascript:PageUp(1)" class="M_Type2"><img src="http://exam.jzrc.net/Baiducenter/Images/plan_09.gif" border="0"align="absmiddle"/></a> <a href="javascript:PageNext(1)" class="M_Type2"><img src="http://exam.jzrc.net/baiducenter/Images/PageNext.gif" align="absmiddle" border="0"/></a></div><div class="SelectAnswerDiv_Right"><a href="javascript:GetResult(1,138164)"><img src="http://exam.jzrc.net/User/Images/Icon1_9.gif" align="absmiddle" title='查看答案' alt='查看答案' border="0" /> 答案 </a></div><div style="clear:both"></div></div></div>里面的题目很明显哦,然后选项是图片示例中的<img src=http://exam.jzrc.net/Picture2.aspx?t=138164&QString=138164&nColorType=1 />
直接不能在浏览器的源代码里看到需要的内容的话,推荐firefox+httpfox 哎!大神研究的东西都太难了! 回复 10# flyeblue
这个回答很有借鉴意义,感谢啊。我再认真捉摸一下,有问题再请教。 先登录,然后依据下面的链接直接读取网页,
第几题是数字,单选多选那个,1代表单选,2代表多选,试题编 ...
flyeblue 发表于 2013-5-30 14:13 http://www.autoitx.com/images/common/back.gif
我用firefox+httpfox和IE+httpwatch都看过了,显示的图片信息都是乱码,没有像你截图出来的那个第3题有纯文字的效果,是我哪里做的有误还是别的原因?如果能把那些题目、选项都能以文字的方式抓下来是最理想的结果,退而求其次的是把图片抓下来也可以。请看看截图,帮我分析一下症结在哪,谢谢!
页:
[1]