25

25

25

23
  • 又一年

    thumbnail

    又一年春晚谢幕,今年的春晚更加索然无味。 看春晚,对我的意义来说,只不过是全家难得一起坐下来看次电视,而且都毫无异议的可以看同一个台。这样的话,内容好差就显得不那么重要。 当然,凭心而论,以上言论的前半部分只是对春晚质量的无奈,毕竟春晚也已经三十岁了,这个年龄也是比较蛋疼的——事业有成,力不从心,强烈无助感。谢谢都在折磨着这个年龄段的人或事。

    Reading More >>


22

22
  • 有一种网站防采集办法

    thumbnail

    目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策: 一、判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问 弊端: 1、此方法只适用于动态页面,如:asp\jsp\php等…静态页面无法判断某个IP一定时间访问本站页面的次数 2、此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件 采集对策:只能放慢采集速度,或者不采 建议:做个搜索引擎蜘蛛的IP库,只允许搜索引擎蜘蛛快速浏览站内内容。搜索引擎蜘蛛的IP库的收集,也不太容易,一个搜索引擎蜘蛛,也不一定只有一个固定的IP地址。 评论:此方法对防采集比较有效,但却会影响搜索引擎对其收录。

    Reading More >>


22
  • 防采集程序 共享

    thumbnail

    防采集程序 下午无聊写着完,写完后自己仔细看了看防止采集还是有一定的效果的,哈哈,要的拿去用吧! < % Dim AppealNum,AppealCount AppealNum=10 '同一IP60秒内请求限制10次 AppealCount=Request.Cookies("AppealCount") If AppealCount="" Then response.Cookies("AppealCount")=1 AppealCount=1 response.cookies("AppealCount").expires=dateadd("s",60,now()) Else response.Cookies("AppealCount")=AppealCount+1 response.cookies("AppealCount").expires=dateadd("s",60,now()) End If if int(AppealCount)>int(AppealNum) then response.write “歇一会儿吧!整天采集你烦不烦啊!” response.end End If %>

    Reading More >>


22
  • 网页防采集策略之空格的作用

    thumbnail

    防采集这几天上网,竟然也现我的整站被人家全部采集去了。晕倒,几年的资料就这样便宜人家。 还好,人家是个懒虫,栏目都不分,鬼才会去看。 这样才想起怎样防止采集的方法。 注意,只是讨论可行性,还没有提供解决方案。 采集与搜索引擎的机器人不同。采集需要对网页进行分析,以找到规则,分别对标题和内容进行读取并记录到数据库中。 如果我们能够把网页做成没有规则,采集也就无从入手了。 说到规则,我就想趣了空格。 空格这东西,在HTM的中,并不产生作用,也就是说,一个空格的位置,你多加几个也是没关系的。象 你可以写成< table>, ,< table >。都可以,所以,如果在网页里面,特别是采集程序重点分析的位置,我们利用程序,在这些位置加些空格,采集也就难以下手了,就算采到了,也就几篇而已,影响不大。 我准备这样做,象原来在模板中的 ,我会改成< {$space1$}table{$space2$}>,在这里,{$space1$}和{$space2$}是自定义标签(也可以融合到程序中),然后在程序中使用随机数来决定这两个标签用多少个空格来代替。 呵呵,人家现在想用 来做为特征采集是完全做不到的了。但对于我的网页,显示上一点影响也没有,对于搜索引擎的机器人也一点影响没有。

    Reading More >>


22

22
  • 火车头创始人谈网站采集与防采集

    thumbnail

    一、谈火车头采集器的由来 火车头:我们的这个采集器最早是从05年底开始有这个想法的,当时也是和大家一样,个人站长,添加管理维护网站很辛苦,一篇篇修改复制发布最开始也是接触dede 然后发现他有个外部的c#采集器。不知道有多少人也记得,我的思路基本是从这个dedespider学来的,原来真的不懂什么,到后来学会php和.net,所以只要大家有兴趣,技术上的问题都可以克服,讲到现在的采集,其实采集只能替代站长部分手工的操作。我们不建议大规模得制造垃圾站(全盘得采集复制别人的站点),所以我们现在的软件的功能越做越多,但新用户缺越来越不会用了。

    Reading More >>