Category Archives: 学习资料


22
  • 火车头创始人谈网站采集与防采集

    thumbnail

    一、谈火车头采集器的由来 火车头:我们的这个采集器最早是从05年底开始有这个想法的,当时也是和大家一样,个人站长,添加管理维护网站很辛苦,一篇篇修改复制发布最开始也是接触dede 然后发现他有个外部的c#采集器。不知道有多少人也记得,我的思路基本是从这个dedespider学来的,原来真的不懂什么,到后来学会php和.net,所以只要大家有兴趣,技术上的问题都可以克服,讲到现在的采集,其实采集只能替代站长部分手工的操作。我们不建议大规模得制造垃圾站(全盘得采集复制别人的站点),所以我们现在的软件的功能越做越多,但新用户缺越来越不会用了。

    Reading More >>


22
  • 网站防采集策略杂谈?

    thumbnail

    很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。   相同点:   a. 两者都需要直接抓取到网页源码才能有效工作,   b. 两者单位时间内会多次大量抓取被访问的网站内容;   c. 宏观上来讲两者IP都会变动;   d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。   不同点:   搜索引擎爬虫先忽略整个网页源码脚本和样式以及html标签代码,然后对剩下的文字部分进行切词语法句法分析等一系列的复杂处理。而采集器一般是通过 html标签特点来抓取需要的数据,在制作采集规则时需要填写目标内容的开始标志何结束标志,这样就定位了所需要的内容;或者采用对特定网页制作特定的正则表达式,来筛选出需要的内容。无论是利用开始结束标志还是正则表达式,都会涉及到html标签(网页结构分析)。

    Reading More >>


22

22
  • linux iptables如何封IP段

    thumbnail

    124.115.*.*这个ip段非常恶心,建议在服务器上都封锁   # iptables -F   # iptables -P INPUT ACCEPT   # iptables -P OUTPUT ACCEPT   # iptables -P FORWARD ACCEPT   # iptables -A FORWARD -s 124.115.0.0/24 -j DROP   # iptables -I FORWARD -d 202.96.170.164 -j DROP   补充::   封单个IP的命令是:   iptables -I INPUT -s 211.1.0.0 -j DROP   封IP段的命令是:   iptables -I INPUT -s 211.1.0.0/16 -j DROP   iptables -I INPUT -s 211.2.0.0/16 -j DROP   iptables -I INPUT -s 211.3.0.0/16 -j DROP   封整个段的命令是:   iptables -I INPUT -s 211.0.0.0/8 -j DROP   封几个段的命令是:   iptables -I INPUT -s 61.37.80.0/24 [...]

    Reading More >>


22
  • 十个最酷的Linux单行命令

    thumbnail

    1.sudo !!   以 root 帐户执行上一条命令。   2.python -m SimpleHTTPServer   利用 Python 搭建一个简单的 Web 服务器,可通过 http://$HOSTNAME:8000 访问。   3.:w !sudo tee %   在 Vim 中无需权限保存编辑的文件。   4.cd –   更改到上一次访问的目录。   5.^foo^bar   将上一条命令中的 foo 替换为 bar,并执行。   6.cp filename{,.bak}   快速备份或复制文件。   7.mtr google.com   traceroute + ping。   8.!whatever:p   搜索命令历史,但不执行。   9.$ssh-copy-id user@host   将 ssh keys 复制到 user@host 以启用无密码 SSH 登录。   10.ffmpeg -f x11grab -s wxga -r 25 -i :0.0 -sameq   /tmp/out.mpg   把 Linux 桌面录制为视频。

    Reading More >>


22
  • Linux iptables防攻击使用

    thumbnail

    iptables 使用   虚拟主机服务商在运营过程中可能会受到黑客攻击,常见的攻击方式有SYN,DDOS等。通过更换IP,查找被攻击的站点可能避开攻击,但是中断服务的时间比较长。比较彻底的解决方法是添置硬件防火墙。不过,硬件防火墙价格比较昂贵。可以考虑利用Linux系统本身提供的防火墙功能来防御。

    Reading More >>


22

22

22

22
  • Linux控制面板:wdcp

    thumbnail

    wdcp (WDlinux Control Panel) 是一套用PHP开发的Linux服务器管理系统,旨在易于使用和管理Linux服务器,可以在线通过网页管理服务器和虚拟主机.简单,方便,易操作.只有Linux版本,没有windows版本,让你方便地使用和管理Linux服务器,让不懂Linux的人也可以用Linux做服务器.目前只支持CentOS/RedHat版本,其它Linux版本尚未测试,欢迎测试!

    Reading More >>