• 首页
  • 站长新闻
  • 经验心得
  • 新手教程
  • 营销策划
  • 搜索&SEO
  • 创业
  • 互联网
  • 电子商务
  • 专题
  • 世界新闻
  • 当前位置: 云商网主页 > 新手教程 > 文章详细内容

    页面不收录诊断分析

    2016-12-28 - 新手教程 - 阅读: -作者:admin -加小编V信:hxw700   我要投稿

    1、错误的封禁

      在百度的robots.txt的更新上,假如屡次点击“检测并更新”就会呈现经常能够更新,但是又经常无法更新的问题。如此一来:不应当被收录的东西,在robots.txt上制止的被收录了,又删除就很正常了。那么它的问题是什么呢?并非效劳器负载过度,而是由于防火墙错误的将局部Baiduspider列入了黑名单。

      上面这个例子是robots.txt方面的抓取错误,作为站长最少应该每周都检查更新一下robots.txt能否能够正常更新。之后我们再看下“页面抓取”方面的错误:

    2、服务器异常

      常规的效劳器就不说啦,大家都晓得的,北上广的普通都不错。不过有一些特殊效劳器,想必绝大多数的站长都不晓得吧?例如西部数码的“港台效劳器”就很有趣,真的是港台的吗?自身机房在国内,还算什么港台?为了逃避备案而用一个港台的IP,数据全部在国内。

    3、获取不到真实IP

      范围较大的网站,普通都会运用CDN加速,但是有些站点不只仅对“设备”运用了CDN加速,而且还对Spider运用了加速功用。最后的结果是什么呢?假如CDN节点不稳定,那么对网站spider来讲,这个问题将是致命的。

    4、频繁的50X类错误

    这样的链接其中一个共同的特性是:当翻开后,全部都是正常的,那么Spider为什么会报错提示呢?只是由于在爬虫发起抓取的那一刻,httpcode返回了5XX",你的站点能否频繁有这样的问题呢?有的话需求立刻布置技术,或者通报IDC效劳商做处理了!

    5、错误的抓取比例

    任何网站都做不到100%不出问题,但是万事有一个度:我们以为,这个比例不超越5%,对网站根本上是无影响的,且这样的错误不应当每天都呈现。最常见的抓取错误普通都是衔接超时:"抓取恳求衔接树立后,下载页面速渡过慢,招致超时,可能缘由效劳器过载,带宽缺乏"这种状况:

      A:尽量在不影响图片质量的状况下,对图片停止紧缩,上传的时分就停止了紧缩。

      B:减少如JS脚本文件类型的运用,或者停止兼并

      C:页面大小停止控制,特别是一些阅读量、抓取量较高的页面,不倡议超越2MB。

      D:增加网站的带宽,提升下载速度,或者改换效劳器。

    顶一下
    (0)
    0%
    踩一下
    (0)
    0%

    赞助链接

    赞助链接