书城计算机网络SEO智慧
49068300000025

第25章 附录B Google(谷歌)建站指导

为了给读者提供方便,本书将Google(谷歌)给予网站管理员(站主)的网站优化指导作为附录。这个建站指导在Google上的地址是:www.google.cn/webmastersB1.网站管理员指南遵循这些指南将有助于Google查找、索引并对网站进行排名。即使选择不采纳这些建议,我们也强烈建议您对“质量指南”多加留意,其中简要说明了一些可能造成网站从Google索引中彻底删除的违禁行为。网站被删除之后,Google.com或Google所有合作伙伴网站的搜索结果中都不会再显示该网站。

B2.网站准备就绪后

将其他相关网站链接到您的网站上。

将其提交给Google,网址为:http://www.google.com/addurl.html。

将Sitemap作为Google Sitemaps(测试版)项目的一部分进行提交。Google Sitemaps使用Sitemap了解您的网站的结构,并提高我们对您的网页的利用率。

确保应了解您的网页的所有网站都知道您的网站已处于在线状态。

将您的网站提交给相关的目录,例如,Open Directory Project和Yahoo!以及其他特定行业的专业网站。

B3.设计与内容指南

网站应具有清晰的层次结构和文本链接。每个网页应至少可以通过一个静态文本链接打开。

为用户提供一个网站地图,列出指向网站重要位置的链接。如果网站地图上的链接超过或大约为100个,则需要将网站地图拆分为多个网页。

网站应具有实用性且信息丰富,网页文字应清晰、准确地表述要传达的内容。

要考虑到用户会使用哪些字词来查找您的网页,确保网站上确实包含了这些文字。

尽量使用文字而不是图像来显示重要的名称、内容或链接,因为Google抓取工具无法识别图像中所含的文字。

确保TITLE和ALT标记具有说明性且表达精准无误。

检查链接是否损坏,并确保HTML格式正确。

如果采用动态网页(即网址中包含字符),请注意并非每一个搜索引擎Spider都能像抓取静态网页一样抓取动态网页。动态网页有助于缩短参数长度并减少参数数目。

将给定网页上的链接限制在合理的数量内(少于100)。

B4.技术指南

由于大部分搜索引擎Spider查看网站的方式与Lynx一样,所以可使用Lynx一类文本浏览器来检查您的网站。如果因为应用了JavaScript、Cookie、工作阶段ID、框架、DHTML或Flash等复杂技术,而导致在文本浏览器中无法看到网站的所有网页,则搜索引擎Spider在抓取您的网站时可能会遇到麻烦。

允许搜索漫游器抓取您的网站,同时不采用工作阶段ID或参数跟踪其在网站上的浏览路径。这些技术对跟踪单个用户的行为非常有用,但漫游器的访问模式却完全不同。如果采用这些技术,则可能会导致对网站的检索不完整,因为漫游器可能无法排除那些看上去不同,但实际却指向同一个网页的网址。

确保您的网络服务器支持If-Modified-Since HTTP标头。通过该功能,您的网络服务器可以告诉Google自上次抓取您的网站以来,内容是否已发生变化。该功能可以节省带宽和开销。

利用网络服务器上的robots.txt文件,该文件会告诉抓取工具可以抓取哪些目录。确保该文件是网站的最新版本,以免意外拦截Googlebot抓取工具。请访问http://www.robotstxt.org/wc/faq.html,了解如何在漫游器中浏览您的网站时对其进行指示。可以使用Google Sitemaps中的robots.txt分析工具测试robots.txt文件,以确保正确使用该文件。

如果贵公司购买了内容管理系统,请确保该系统能导出您的内容,以便搜索引擎Spider可以抓取您的网站。

请勿使用“id=”作为您网址的参数,因为我们不会在索引中包含这些网页。

B5.质量指南

质量指南涵盖了最常见的作弊形式或操纵行为,对于此处未列出的其他误导行为(例如,通过注册知名网站的错拼形式来欺骗用户),Google仍可予以拒绝。不要抱有侥幸心理,认为某种欺骗手段未在本页中列出,Google就会认可该手段。作为网站管理员,与其花费大量时间寻找漏洞加以利用,不如尽其所能维护基本原则,以便为用户带来更好的体验,从而使网站获得更高的排名。如果您认为其他网站正在滥用Google质量指南,请通过http://www.google.com/contact/spamreport.html举报该网站。Google希望能开发出灵活的自动解决方案来解决上述问题,因而尽量避免一一处理违禁行为。我们收到的垃圾邮件报告将用于创建灵活的算法以识别并阻止以后的垃圾邮件。

B6.质量指南——基本原则

设计网页时应该考虑的是用户,而不是搜索引擎。不要欺骗用户,或提交给搜索引擎一种内容,而显示给用户另一种内容。这种做法通常称为“隐藏”。

请不要为了提高搜索引擎排名而弄虚作假。一个简单分辨是非的方法是:您是否可以坦然地跟竞争对手网站解释您对网站所做的事情。另一个有用的测试即扪心自问:“这能否给我的用户带来帮助?如果不存在搜索引擎,我是否还会这样做?”

请不要参与旨在提高您的网站排名或PageRank的链接方案。尤其要避免链接到违禁的网站或“恶邻”,因为您自身的排名可能受到这些链接的负面影响。

请不要使用未授权的计算机程序提交网页、检查排名等。这些程序会耗用计算机资源并违反我们的服务条款。Google不建议使用WebPosition Gold?这类产品向Google发送自动查询或用程序编写的查询。

B7.质量指南——具体指南

请不要使用隐藏文本或隐藏链接。

请不要采用隐藏真实内容或欺骗性重定向手段。

请不要向Google发送自动查询。

请不要使用无关用语加载网页。

请不要创建包含大量重复内容的多个网页、子域或域。

请不要创建安装病毒(如特洛伊木马)或其他有害软件的网页。

请不要采用专门针对搜索引擎制作的“桥页”,也不要采用如联属计划这类原创内容很少或几乎没有原创内容的“俗套”(cookie cutter)方式。

如果您的网站参加联属计划,请确保您的网站可为其增添价值。请提供独特而相关的内容,使用户有理由首先访问您的网站。

如果网站不符合我们的质量指南,则可能会将其排除在索引之外。如果认为您的网站不符合这些指南,可进行修改使其满足要求,然后请求重新加入。

B8.如何将您的网站加入Google搜索结果包含在Google搜索结果中不需要付费,并且非常容易执行;不需要将网站提交到Google。Google是一个完全自动化的搜索引擎,它使用称为“Spider”的软件定期搜索网络并找到可添加到Google索引的网站。事实上,列入索引的绝大多数网站都不是人工提交的,而是Spider抓取网络时找到并自动添加进来的。

要判断您的网站目前是否包含在Google索引中,只需对您的网站网址执行搜索。例如,搜索[site:www.google.com】将返回结果:http://www.google.com/search?hl=zh_CN&q=site 3Awww.google.com+虽然Google可抓取超过几十亿个网页,但丢失几个网站也在所难免。造成Spider丢失网站的常见原因有:

此网站未通过多个链接牢靠连接到网络的其他网站。

在Google的最近一次抓取后此网站才启动。

网站的设计使Google很难有效抓取其内容。

执行抓取时网站暂时不可用。

公平、准确地展示互联网内容是我们的宗旨。为实现此目标,我们提供了建立便于抓取网站的指南。虽然我们无法保证Spider能找到某特定网站,但遵循以下指南应该可以增加网站在搜索结果中显示的机会。

您需要:

在网页上提供高品质的内容,尤其是主页。这是您要做的最重要的工作。如果您的网页包含有用的信息,其内容就可以吸引许多访问者,并使网站管理员乐于链接到您的网站。要创建具有实用性且信息丰富的网站,网页文字应清晰、准确地表述要传达的主题。想一想,用户会使用哪些字词来查找您的网页,然后尽量在网站上使用这些字词。

确保有网站链接到您的网站上。链接可帮助我们的抓取工具找到您的网站,并提高您的网站在搜索结果中的展示机率。返回搜索结果时,Google会将PageRank(对网页重要性的评测)与先进的文字匹配技术合并使用,以显示对每个搜索结果都兼具重要性与相关性的网页。Google会计算一个网页收到的投票数量,以确定其PageRank,其计算方法是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。自身“重要”的网页所投的票会更具分量,有助于提高其他网页的“重要性”。请注意,网站在搜索结果中的排名完全自动,我们不会人为地为网站指定关键字。

以合理的链接结构建立您的网站,每个网页应至少可以通过一个静态文本链接打开。

使用文本浏览器(如Lynx)检查您的网站。大部分Spider查看网站的方式与Lynx一样。如果因为应用了JavaScript、Cookie、会话ID、框架、DHTML或Macromedia Flash等技术,而造成在文本浏览器中无法看到整个网站,则Spider在抓取此网站时可能也会遇到麻烦。

考虑创建动态网页的静态复本。虽然Google索引中包括动态网页,但它们只占索引的一小部分。如果您怀疑动态生成的网页(例如,包含问号的网址)给我们的抓取工具带来了麻烦,可以为这些网页创建静态复本。如果要创建静态复本,不要忘记将动态网页添加到您的robots.txt文件,防止我们将其当成重复内容。

请考虑使用Google Sitemaps创建并提交关于网页的详细网站地图。Google Sitemaps是您向Google索引提交所有网址,并详细了解您的网页在Google可见度的一条捷径。通过Google Sitemaps,我们始终可以自动地得到您的当前网页及其更新的所有信息。请注意,提交Sitemaps并不能保证网站中的所有网页都能够被抓取或包含在搜索结果中。要了解有关Google Sitemaps的详情,请访问http://www.google.com/webmasters/sitemaps/about?hl=zh_CN。

需要避免的事项:

不要使用关键字列表填写网页、“遮蔽”网页或建立“仅供抓取”的网页。如果您的网站上包含您不希望访问者看到的网页、链接或文字,Google会认为这些内容具有欺诈性并可能忽略您的网站。

您不一定非要购买搜索优化服务,有些公司声明可以“保证”您的网站在Google搜索结果中享有高排名。合法的咨询公司可以改善网站的流量和内容,但其他公司会采用欺骗性手段来骗过搜索引擎,请务必小心。如果您的网域与这些欺诈性服务相关,我们可能禁止其加入我们的索引。要了解有关搜索引擎优化服务商的详情。

不要使用图片来显示重要名称、内容或链接,我们的抓取工具无法识别图形中所含的文字。如果网页上的重要内容和关键字不能以普通的HTML格式显示,请使用ALT标记。

不要为不同网址下的一个网页创建多个复本。许多网站提供纯文本或易于打印的网页,其内容与相应的图形丰富的网页不相上下。为了确保您首选的网页包括在我们的搜索结果中,请使用robots.txt文件拦截Spider抓取到的重复内容。有关使用robots.txt文件的详情,请访问关于拦截Googlebot的信息。