作者:Kid(小K)
地址:http://Blog.KidX.Cn
 
先说小偷。。

虽然现在小偷程序已经很少了。。
 
据说是因为收录不好。。
 
我以前搞过一个落伍的小偷。每天来600IP。
 
不知道算不算收录不好。。
 
不懂小偷程序的人,觉得小偷很神奇。。
 
居然能够某站同步更新。
 
帖子,积分,版块。。。。
 
人家是什么样,你就是什么样,还去掉了人家广告。
 
太神奇了。。
 
肯定是入侵了人家数据库。然后数据库同步更新。。
 
其实不是这样。。
 
小偷程序原理其实很简单,只是简单的东西到了某些人手中就变得不简单。。
 
用通俗的话说,就是直接读取你指定页面的HTML源码。

<html><body><table><tr><td>这些就属于源码</td></tr></table></body></html>

然后通过处理这些HTML源码,达到你想要的效果。。

一些广告代码也只不过是一些js调用。。

在源码中是<script src="../ad.js"></script>。

然后通过祛除这些代码达到祛除广告效果。。

还有的连界面都换了。其实也是只截取HTML源码中某一段。

然后把截取到的填充到自己写好的模板中。。

就会变成自己样子的东西了。。

关于点击后跳转的都不变。

把<a href="article.asp?id=117" 中的 article.asp?id=117 换成你的小偷地址。

<a href="index.asp?article_id=117"

因为小偷主文件都是单独文件,所以要像上面这样写。。

然后程序中判断地址,然后执行不同操作。。

本文只是介绍小偷原理,不讲解任何实现原理。

所谓的生成HTML

上面小偷,偷取页面后。放到你指定的HTML模板后。

然后你根据这些代码利用FSO生成HTML文件。

所以基本上截取后生成HTML就很简单了。

再说采集。

采集的前身是小偷。

基本跟小偷一样,只不过他把小偷截取到的数据规范化了。。

按照他想要的格式存储进数据库。

而且要采集的地址要先列出。

其实,我在小偷中加入一个处理。。

你访问我这个截取的页面,我就判断有没有生成或者存入数据库。。

如果没有。就处理。。

这样可以,一边访问一边生成。再复杂的链接地址也照样生。。

一种思路,希望对各位有用。。

OK。讲完了,希望对各位不了解的人有用。