对于网站优化来说,搜索引擎日志分析是必不可少的一块,无论你是收录上百的小型网站,还是收录上百万的大中型网站,SEO要想做得好,都必需进行科学的日志分析,日志是发生在网站服务器上的所有事件的记录,包括用户访问记录,搜索引擎抓取记录,对于一些大型网站来说,每天的日志都有好几个G大小的,我们可以使用linux命令去进行分离的,在大型网站日志文件往往是机密文件,一般人是看不到的,因为从日志里边可以分析访客趋势、地区趋势等,我们做SEO的不需要那么多数据,我们只要分析搜索引擎的抓取记录这一块就可以了,所以再大的数据量,如果经过处理后,也就不会特别大了,况且现在的硬盘这么便宜,存储日志文件还是可以考虑的。那么我们主要分析日志的什么数据呢?
1、每个搜索引擎的总体抓取量(以及趋势)
在日志文件中,明确的记录了每个搜索引擎的抓取量,例如百度、谷歌、搜狗等搜索引擎的抓取记录,我们都可以进行记录,使用DOS命令或者Linux命令都可以去实现的,搜索引擎的收录是由抓取量以及文章质量来决定的,当文章质量不变的情况下,蜘蛛抓取量越大,那么收录的就会越多,我们在进行日志分析 时候,一定要清楚的知道蜘蛛每天的抓取量到底是一个什么情况,而且每天都要记录,也许绝对值说明不了什么,我们可以去看它的趋势,当某一天抓取量的趋势在下降时,我们就要去找原因了。
2、记录搜索引擎蜘蛛的不重复抓取量
上一步我们把蜘蛛的抓取量数据给分析出来了,然后我们要进行去重,也就是搜索引擎的唯一不重复抓取量,其实对于收录来说,许多页面只要抓取一次就可以了,可是在实际操作的过程当中,许多页面都是被重复抓取的,谷歌的技术比较先进一些,重复抓取率也许会低一些,可是百度等搜索引擎,重复抓取率却非常高,你通过日志分析就可以看出来了,一天如果抓取量上百万,可能好几万次都是抓取首页的,所以许多数据你一定要去分析的,当你分析了后,你才会知道问题的严重性。
3、每个目录、每个搜索引擎的抓取量
上边两步把总体抓取量、不重复抓取量记录下来了,然后我们要分析出每个搜索引擎对每一个目录的抓取情况是怎么样的,这样利于进行分块优化,例如当你网站流量上升时,你可以知道是哪个目录的流量上升了,然后再往下推,看看是哪个目录的抓取量上升了,哪个目录的抓取量下降了,为什么下降,都可以进行分析的,然后在网站中进行适当的链接结构调整,例如使用nofollow标签等。