请教如何判断网页中是否出现新信息(或新闻)的思路和方法。
最近在研究一个关于如何抓取网页信息并分析的问题,遇到了一些问题。如何判断一个网页中的部分栏目中信息发生变化,并将发生变化的信息显示出来。
目前已经可以抓取到整个网站的信息,但是根据超文本源代码中无法直接辨识出哪条信息是否最新。
暂时没有思考好把什么作为判断最新的条件和依据,除了判断消息的发布时间,但效果不太理想。一旦发布者把时间弄错,则无解。。。。
有没有更好的方法实现特定from或者table中的数据发生变化作为稳定的判断条件?或依据?
求解,谢谢! 多数网站,发布信息,最后发布的信息总是显示在“前排”。 你的意思是正则表达式就取第一条??
但如果当天发布的新消息有好几条怎么办?考虑过取当天作为条件。。。。但总觉得是不是不太理想
页:
[1]