这几日总有用户反映公会的网站特别慢甚至打不开,因为忙于系统调整的事情一直没有仔细看看,昨晚在机房干活完了就仔细的上去看了看。不看则以一看吓一跳,用郭德纲的话说,你无耻的样子很有我当年的神韵,我备注一句,SOSO你好垃圾,当然也要附带你的东家腾讯了。虽然我一直对腾讯没啥好感,但成天泡着QQ对它也没啥厌恶,不过这次俺真的有点气愤了。
打开服务器的日志归档文件,这段时间的web日志增长很大,打开一看,绝大部分如下内容:
2008-06-12 14:59:10 W3SVC60018203 xx.xx.xx.xx GET /dkp5/summary.php s=73708d35d269a110b2731e263f364cf3 80 – 124.115.0.26 Sosospider+(+http://help.soso.com/webspider.htm) 200 0 64
2008-06-12 14:59:10 W3SVC60018203 xx.xx.xx.xx GET /dkp5/stats.php s=b21cdb5d36477e1845b21b172511ece2 80 – 124.115.0.157 Sosospider+(+http://help.soso.com/webspider.htm) 200 0 64
2008-06-12 14:59:10 W3SVC60018203 xx.xx.xx.xx GET /dkp5/stats.php s=16c0fd3179afb294bf2abf9ddbabd94f 80 – 124.115.0.24 Sosospider+(+http://help.soso.com/webspider.htm) 200 0 64
2008-06-12 14:59:10 W3SVC60018203 xx.xx.xx.xx GET /dkp5/listitems.php s=12e5266abba3e31504b878ae0eb0efa5 80 – 124.115.0.28 Sosospider+(+http://help.soso.com/webspider.htm) 200 0 64
2008-06-12 14:59:10 W3SVC60018203 xx.xx.xx.xx GET /dkp5/listitems.php s=9958f935f6a562d02bf2f5b25622ffca 80 – 124.115.0.22 Sosospider+(+http://help.soso.com/webspider.htm) 200 0 64
2008-06-12 14:59:10 W3SVC60018203 xx.xx.xx.xx GET /dkp5/listitems.php s=7e77ffb1178ff59c16765c85fb1908e7 80 – 124.115.0.16 Sosospider+(+http://help.soso.com/webspider.htm) 200 0 64
初步判断的说,这是Sosospider+的蜘蛛机器人在抓取网页,来源是soso.com(腾讯旗下网站),IP地址集中在两个C类中,124.115.0.0/124.115.4.0。虽然spider是所有搜索引擎都在干的事儿,但是分析下日志以及带来的后果,就会发现soso忒不地道。
1、抓取频率。注意日志时间,同时在2008-06-12 14:59:10这一秒内,而且这只是四分之一,同一秒内的频率达到了20+次;
2、抓取时间。一般的spider都是在晚上月黑风高时,但是soso却光天化日招摇过市,明目张胆网站最忙的时候来抓;
3、抓取效率。看看它抓取的URL,其实listitems.php只是一个物品列表页面,后面所谓的S=xxx的参数是sessionid,所有listitems.php的内容都是一样的,当然stats.php也的都是同一个会员列表页面,但是soso却识别为不同的文件,在里面相互的URL之间反复来回的抓取,难道只是通过URL来判断的,真的够强。。。
由于这个DKP系统数据库读写比较频繁,被庞大的soso这样来回频繁的折腾当然受不了。就算是做社会调查的弟弟妹妹也要先问声大哥你愿意不,不分青红皂白网站就这样被soso强暴了,这样的spider和网络攻击何异。不知道腾讯一个月之前把珊瑚虫送上广州法院的审判庭时,有没有想过自己也干了不少黑活儿。
好了,其实就运维而言这是件极小之事,把这两个C类IP地址封之则可,顿时立竿见影,但是通过对这件小事的分析却能知道许多细节所在。
由此也衍生出来了一个想法,就是搜索引擎的这些spider在偷偷摸摸的抓取各个网站信息的时候,在没有充分告知情况下,有没有考虑到网站信息的版权问题?搜索引擎和信息的版权问题有空需要多了解下了。