作者:Kid(小K)
地址:http://Blog.KidX.Cn
先说小偷。。
虽然现在小偷程序已经很少了。。
据说是因为收录不好。。
我以前搞过一个落伍的小偷。每天来600IP。
不知道算不算收录不好。。
不懂小偷程序的人,觉得小偷很神奇。。
居然能够某站同步更新。
帖子,积分,版块。。。。
人家是什么样,你就是什么样,还去掉了人家广告。
太神奇了。。
肯定是入侵了人家数据库。然后数据库同步更新。。
其实不是这样。。
小偷程序原理其实很简单,只是简单的东西到了某些人手中就变得不简单。。
用通俗的话说,就是直接读取你指定页面的HTML源码。
<html><body><table><tr><td>这些就属于源码</td></tr></table></body></html>
然后通过处理这些HTML源码,达到你想要的效果。。
一些广告代码也只不过是一些js调用。。
在源码中是<script src="../ad.js"></script>。
然后通过祛除这些代码达到祛除广告效果。。
还有的连界面都换了。其实也是只截取HTML源码中某一段。
然后把截取到的填充到自己写好的模板中。。
就会变成自己样子的东西了。。
关于点击后跳转的都不变。
把<a href="article.asp?id=117" 中的 article.asp?id=117 换成你的小偷地址。
<a href="index.asp?article_id=117"
因为小偷主文件都是单独文件,所以要像上面这样写。。
然后程序中判断地址,然后执行不同操作。。
本文只是介绍小偷原理,不讲解任何实现原理。
所谓的生成HTML
上面小偷,偷取页面后。放到你指定的HTML模板后。
然后你根据这些代码利用FSO生成HTML文件。
所以基本上截取后生成HTML就很简单了。
再说采集。
采集的前身是小偷。
基本跟小偷一样,只不过他把小偷截取到的数据规范化了。。
按照他想要的格式存储进数据库。
而且要采集的地址要先列出。
其实,我在小偷中加入一个处理。。
你访问我这个截取的页面,我就判断有没有生成或者存入数据库。。
如果没有。就处理。。
这样可以,一边访问一边生成。再复杂的链接地址也照样生。。
一种思路,希望对各位有用。。
OK。讲完了,希望对各位不了解的人有用。