搜索引擎利用网站地图的建立蜘蛛在互联网上爬行建立标准的需要搜索引擎利用蜘蛛在互联网上爬行,定位网页并将它们收录到数据库中。这一过程需要大量资源,有时,你希望索引的网页被忽略,而无用的网页却被收录。在网络上搜寻变化与新网页,收录它们并进行相应归类的Google Googlebot蜘蛛就是一个典型的例子。网站地图为网站明确应索引哪些网页,以及网站中增加了哪些新内容提供了一种方法。基本上,它在搜索引擎与网站间提供一个通信通道。理论上,它通过减少搜索引擎蜘蛛的处理对象来缓解资源负担,但当前网站地图不能代替爬行过程。网站地图简介网站地图是一个XML文件,它包含一个网址URL表和相关的属性,详细说明应索引某个特定网站的哪些内容。网站地图必须为UTF-8编码。下面是网站地图文件需要的XML元素: <urlset> -- 网站地图文件以这个标签起始和结束,起始标签必须包括命名空间(xmlns)属性。 <url> -- 文件中的每一个网页包含在这个元素之中。 <loc> -- 文件中指定的网页的实际地址。它是<url>元素的一个子元素。文件中还有下列可选元素: <lastmod> -- <url>元素的一个子元素。它指定最近一次更新网页的时间。 <changefreq> -- <url>元素的一个子元素。它指定网页更新的频率(经常、每小时、每天、每周、每月、每年及从未更新)。 <priority> -- <url>元素的一个子元素。它指定网站内网页相对于其它网页的重要性,有效值为0.0-1.0,默认值为0.5。下面的网站地图样本说明如何在一个样本网页中应用这些元素。它为一个假定的网站指定主页,以及它的更新频率,上次更新的时间和网站中的优先权。<?xml version="1.0" encoding="UTF-8"?><urlsetxmlns="http://www.sitemaps.org/schemas/sitemap/0.9"><url><loc>http://www.test.com/</loc><lastmod>2006-11-20</lastmod><changefreq>daily</changefreq><priority>0.3</priority></url></urlset>网站地图文件的位置由你自己决定,但它的位置决定了可能包含中文件中的URL集。例如,如果上面的样本网站地图文件位于http://www.test.com/sitemap.xml,那么网站地图文件中可能包含任何以http://www.test.com/开头的URL。因此,我们建议将网站地图文件存放在网站的根目录下。网站地图文件的大小不得超过10MB。如果一个文件超出这个限制,就需要使用gzip进行压缩。建立一个网站地图既然网站地图以XML为基础,就可以方便的使用任何文本编辑器建立并编辑它们,不过也可以应用专门的工具。下面的列表提供了一些当前的工具: Node Map:一个生成并确认网站地图XML文件的工具。 Gsitemap:一个应用.NET framework建立的网站地图生成工具。 GSiteCrawler:一个生成网站地图文件的Windows工具。 phpSitemapNG:一个用PHP编写的免费网站地图生成器。 Google Sitemap Generator:一个可以用于生成网站地图文件的Python脚本。通告搜索引擎建立一个网站地图文件后,应该将它提交给一个搜索引擎。每个搜索都拥有自己的网站地图提交界面。Google的Webmaster工具集中包含了一个网站地图提交页面。在使用之前你必须注册一个账户。雅虎也有一个免费的网站地图提交页面,但在使用之前同样必须注册一个账户。其它搜索引擎也会仿效Google、雅虎和MSN,提供相似的功能。其它工具搜索引擎收录网页的爬行过程缓慢而且需要大量资源。网站地图为网站指定应收录哪些内容而进行搜索提供了一种方法。它们建立像XML一样的简单文本格式文件,但有许多工具可以帮助你建立网站地图文件。现在,它们只是对当前的处理过程进行补充。以上就是搜索引擎利用网站地图的建立蜘蛛在互联网上爬行,希望大家喜欢,请继续关注塔岸网。
图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!
免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
搜索引擎利用网站地图的建立蜘蛛在互联网上爬行
作者:admin
2023-06-02 09:00:54
0
相关内容 查看全部
-
如何删除Excel表
2025-01-31 10:19 -
如何使用 Excel
2025-01-24 11:04 -
如何使用 Excel
2025-01-23 10:17 -
如何使用Excel的
2025-01-21 11:22 -
如何使用Excel中
2025-01-16 10:27 -
如何通过Excel将
2025-01-15 08:22 -
如何隐藏Excel中
2025-01-13 15:35 -
如何用Excel 2007
2025-01-10 08:28 -
如何用EXCEL创建
2025-01-09 15:30 -
如何用Excel计算
2025-01-01 14:00