会员登陆
登录加载中...
超级搜索
栏  目  
类  别  
关键词  
 站内搜索   网络搜索
  
 当前位置:文章首页>>网页编程>>ASP实例>>十条防止网站采集建议
推荐给你的朋友阅读:

十条防止网站采集建议

来源:Ajax中国 发表日期: 2011-04-28 19:42:51

    笔者自己是写采集器的,所以对网站防采集有一些心得体会。因为是在上班时间,各种方法只是简单的提及。

    很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。

    相同点:

a. 两者都需要直接抓取到网页源码才能有效工作;
b. 两者单位时间内会多次大量抓取被访问的网站内容;
c. 宏观上来讲两者IP都会变动;
d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。

    不同点:

搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法句法分析等一系列的复杂处理。

而采集器一般是通过html标签特点来抓取需要的数据,在制作采集规则时需要填写目标内容的开始标志何结束标志,这样就定位了所需要的内容;或者采用对特定网页制作特定的正则表达式,来筛选出需要的内容。无论是利用开始结束标志还是正则表达式,都会涉及到html标签(网页结构分析)。

    然后再来提出一些防采集方法

    1、限制IP地址单位时间的访问次数

    分析:没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。

    弊端:一刀切,这同样会阻止搜索引擎对网站的收录

    适用网站:不太依靠搜索引擎的网站

    采集器会怎么做:减少单位时间的访问次数,减低采集效率

    2、屏蔽ip

    分析:通过后台计数器,记录来访者ip和访问频率,人为分析来访记录,屏蔽可疑Ip。

    弊端:似乎没什么弊端,就是站长忙了点

    适用网站:所有网站,且站长能够知道哪些是google或者百度的机器人

    采集器会怎么做:打游击战呗!利用ip代理采集一次换一次,不过会降低采集器的效率和网速(用代理嘛)。

    3、利用js加密网页内容

    Note:这个方法我没接触过,只是从别处看来

    分析:不用分析了,搜索引擎爬虫和采集器通杀

    适用网站:极度讨厌搜索引擎和采集器的网站

    采集器会这么做:你那么牛,都豁出去了,他就不来采你了

    4、网页里隐藏网站版权或者一些随机垃圾文字,这些文字风格写在css文件中

    分析:虽然不能防止采集,但是会让采集后的内容充满了你网站的版权说明或者一些垃圾文字,因为一般采集器不会同时采集你的css文件,那些文字没了风格,就显示出来了。

    适用网站:所有网站

    采集器会怎么做:对于版权文字,好办,替换掉。对于随机的垃圾文字,没办法,勤快点了。

1 2 下一页

0
0
[作者:匿名 关键词:采集 录入:raincity 责编:raincity 阅读次数:3877]

相关文章 相关新闻 相关软件 相关教程 公共评论 发表评论

  • ·暂无相关内容
  • ·暂无相关内容
    评论载入中...
    您的称呼  验 证 码   
    您的评论 [ 最多字数:  已用字数:剩余字数:]

     
COPYRIGHT 2003-2010 创意飞腾科技有限公司(The Feitec LTD.) ALL RIGHTS RESERVED .
官方咨询官方咨询4376161 官方咨询526743959 技术支持:FeitecCMS5366464
页面加载时间:109.38ms Powered By:FeitecCMS V4.0(Build1101)
[蜀ICP备05000881]