加入收藏 | 设为首页 | 会员中心 | 我要投稿 核心网 (https://www.hxwgxz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

Googlebot 机器人所看到的你的网页代码

发布时间:2018-08-22 22:12:28 所属栏目:站长百科 来源:站长网
导读:而在这个 Labs 功能下面还有一个查看恶意软件的细节功能,自动侦测。 Fetch as Googlebot 在这个功能下,你可以查看任何你自己站点页面代码,通过 Google 机器人的视角,好好的审视自己的站点。操作过程很简单,只要点击 Labs 打开功能,点击 Fetch 按钮查

而在这个 Labs 功能下面还有一个查看恶意软件的细节功能,自动侦测。

Fetch as Googlebot

在这个功能下,你可以查看任何你自己站点页面代码,通过 Google 机器人的视角,好好的审视自己的站点。操作过程很简单,只要点击 Labs 打开功能,点击 Fetch 按钮查看,等待 Google 机器人的处理,几秒钟后,再刷新一下就可以看到结果了。

fetch as google 模仿 Googlebot 机器人查看你网页的代码

有朋友奇怪了,这和我们平时看网页的源代码有什么不同呢? 为什么要麻烦蜘蛛再来一次,而且必须在网站管理员工具中查看

首先你可以看到 Http 的头信息,这个信息可以通过 Live HTTP Headers 等工具查看到,但是直接查看源代码是看不到的,见上图中最顶部,相当于有个小探针,帮你查看更多的服务器信息和其他相关信息。

其次你可以比较蜘蛛看到的信息和人看到的信息有什么不同。这个工具用的是和 Google 抓取网页的那个 Googlebot 及其人一样的IP,一样的方式,一样的 user-agent,如果你在不知情的情况下被人进行了代码修改,在蜘蛛下和人为下看到的代码不一样(英文叫 clocking),就可以靠这个工具来检查了。

还有你可以用这个工具测试一些变化,比如重定向。

在这个工具中你还能发现一些额外的东西,比如 javascript 能被 googlebot 抓取

我没有 flash 站,有的朋友也可以看看 flash 在 Googlebot 中是什么样子的。

目前测试发现 Google 机器人只能抓取前 100000 字节的内容,有人就会觉得网页文件最好不要超过这个大小,还有人说做链接不要放在底部。其实这个没关系,这个只是工具的作用,跟真实的 Googlebot 机器人还是有一定差距,你看看新浪的首页,肯定不止 100KB。

小知识:什么是 Cloaking?

通常是说在 Web 服务器上使用一定的手段,对搜索引擎中的巡回机器人显示出与普通阅览者不同内容的网页。

现象 1:为了提高在搜索引擎中的名次,不自然地大量向网页中输入关键字,使其不展现给普通用户,单是选择性地发给搜索引擎的一种手法。

现象 2:黑链,今年就流行黑客了。当然,普通黑客的所谓黑链,人可以直接在源代码里看出来,但若有高手用了cloaking,那就不得了。 (据传搜索引擎会对 cloaking 的网站进行严惩)

小知识:如何测试我的重定向?

用这个工具测试的话,就不用再去等待 Google 重新收录你的网站,比如我们给 www.semwatch.org 做了重定向,自动跳到 semwatch.org,你就可以通过这个工具了检测是否顺利了。

(编辑:核心网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读