plutosherry 发表于 2014-3-18 16:13:40

请教如何判断网页中是否出现新信息(或新闻)的思路和方法。

最近在研究一个关于如何抓取网页信息并分析的问题,遇到了一些问题。
如何判断一个网页中的部分栏目中信息发生变化,并将发生变化的信息显示出来。
目前已经可以抓取到整个网站的信息,但是根据超文本源代码中无法直接辨识出哪条信息是否最新。
暂时没有思考好把什么作为判断最新的条件和依据,除了判断消息的发布时间,但效果不太理想。一旦发布者把时间弄错,则无解。。。。
有没有更好的方法实现特定from或者table中的数据发生变化作为稳定的判断条件?或依据?
求解,谢谢!

user3000 发表于 2014-3-18 17:50:04

多数网站,发布信息,最后发布的信息总是显示在“前排”。

plutosherry 发表于 2014-3-19 12:53:21

你的意思是正则表达式就取第一条??
但如果当天发布的新消息有好几条怎么办?考虑过取当天作为条件。。。。但总觉得是不是不太理想
页: [1]
查看完整版本: 请教如何判断网页中是否出现新信息(或新闻)的思路和方法。