国语自产精品视频在线看:您身边最放心的安全下载站! 最新软件|热门排行|软件分类|软件专题|厂商大全

国语自产精品视频在线看

技术教程
您的位置:首页服务器类Web服务器 → 如何在IIS里设置并查询搜索引擎蜘蛛

如何在IIS里设置并查询搜索引擎蜘蛛

我要评论 2009/04/13 00:01:17 来源:国语自产精品视频在线看 编辑:华子 [ ] 评论:0 点击:812次

  昨天发【zuó tiān fā】🤗生了一【shēng le yī】件很郁🐛闷的事【mèn de shì】🍥情【qíng】🌽。downcc一个网站的快【zhàn de kuài】照停止🚑在【zài】🏙9号了,去服务器上查💈看该网站日志记录!竟然没【jìng rán méi】发现蜘⌛蛛记录,以为网【yǐ wéi wǎng】站要挂了!仔细一【zǎi xì yī】看,原来👊IIS该站点【gāi zhàn diǎn】日志属🎭性中没设置记录爬虫🌉这些!百度下【bǎi dù xià】🚦竟然在【zài】🏙网上没有这方面的文✌章,为了让【wéi le ràng】以后更多的兄弟不浪费宝贵【fèi bǎo guì】的时间,木木就把这个【bǎ zhè gè】全套设🎷置全部【zhì quán bù】写出来🐋。

  一、IIS中网站的日志的设置。

  打开【dǎ kāi】🛬IIS。选择所要设置的网站【de wǎng zhàn】💠属性【shǔ xìng】。弹出如下窗口♏:

  “启用日【qǐ yòng rì】📍志记录”,勾选【gōu xuǎn】,选择“W3C扩展日【kuò zhǎn rì】志文件👟格式🐉”。

  再次点【zài cì diǎn】击这里【jī zhè lǐ】的【de】🚓“属性🍍”按钮🥎,常规选项里面🗻,选择新日志计划为“每天👆”,当然也【dāng rán yě】可以选择其他【zé qí tā】🌅,选择好【xuǎn zé hǎo】保存日志文件的【de】🚓目录。

  按照一【àn zhào yī】般情况,设置到这里就🛵可以记【kě yǐ jì】录日志【lù rì zhì】了【le】,但是有【dàn shì yǒu】🌒些主机【xiē zhǔ jī】🖐无论如📔何都找不到搜【bú dào sōu】索引擎【suǒ yǐn qíng】爬虫的📊痕迹🤐,类似于Baiduspider+怎么都看不到。这个时候我们🙋就需要启用剩下的三个选项📭了【le】!

  选择高【xuǎn zé gāo】👋级选项【jí xuǎn xiàng】。勾选底【gōu xuǎn dǐ】下的用户代理(cs(User-Agent))等下面👤三个选✍项,这样我们就可【men jiù kě】以看到百度蜘😶蛛了!

  二、如何分析网站IIS日志中的蜘蛛

  首先来【shǒu xiān lái】认识下🍙国内主【guó nèi zhǔ】🏁流搜索引擎的蜘蛛的【zhī zhū de】🥄名称:

  1. Google爬虫名称

  1) Googlebot:从【cóng】Google的网站索引和新闻索【xīn wén suǒ】⛽引中抓📥取网页

  2) Googlebot-Mobile针对【zhēn duì】Google的移动【de yí dòng】索引抓🏢取网页📮

  3) Googlebot-Image:针对【zhēn duì】😺Google的图片【de tú piàn】索引抓🦖取网页

  4) Mediapartners-Google:抓取网页确定【yè què dìng】 AdSense 的内容🦂。只有在【zhī yǒu zài】🌌你的网站上展示 AdSense 广告的🏾情况下,Google才会使【cái huì shǐ】用此漫【yòng cǐ màn】🕒游器来【yóu qì lái】🚫抓取您的网站。

  5) Adsbot-Google:抓取网页来衡量【liàng】🗑 AdWords 目标网【mù biāo wǎng】页的质【yè de zhì】📆量【liàng】🗑。只有在你使用 Google AdWords 为你的网站做⬛广告的【guǎng gào de】🐽情况下,Google才会使🏍用此漫游器【yóu qì】。

  2. 百度【bǎi dù】🏋(Baidu)爬虫名称:Baiduspider

  3. 雅虎(Yahoo)爬虫名🏅称【chēng】:Yahoo Slurp

  4. 有道🔠(Yodao)蜘蛛名称【chēng】:YodaoBot

  5. 搜狗🎉(sogou)蜘蛛名称【chēng】:sogou spider

  因为咱📽们国内比较关注百度【zhù bǎi dù】所以我🗄们来分下百度【xià bǎi dù】🔢的蜘蛛🌒,从刚刚【cóng gāng gāng】👓记录的日志搜【rì zhì sōu】索【suǒ】“Baiduspider+“选取一段

  00:00:06 GET /Class/Class.asp ID=38 61.135.168.142 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 214

  上面这【shàng miàn zhè】🦎个日志说明是在🥠0点的时候 访问了【fǎng wèn le】 Class/Class.asp ID=38页面。蜘蛛IP地址为【dì zhǐ wéi】🦏61.135.168.142。其中的🅱200 表示搜【biǎo shì sōu】🎶索引擎蜘蛛爬【zhī zhū pá】行后返回HTTP的状态🏷代码【dài mǎ】,代表成功爬行😎并抓取【bìng zhuā qǔ】。

  下面列出常见数字代码:

  2xx 成功

  200 正常;请求已完成。

  201 正常;紧接✋ POST 命令【mìng lìng】。

  202 正常【zhèng cháng】;已接受🖼用于处【yòng yú chù】🆕理,但处理【dàn chù lǐ】尚未完成🐷。

  203 正常【zhèng cháng】;部分信🔇息【xī】 — 返回的🐳信息【xī】只是一部【shì yī bù】🎼分。

  204 正常;无响应【wú xiǎng yīng】🐐 — 已接收【yǐ jiē shōu】🦔请求,但不存在要回🈹送的信【sòng de xìn】息。

  3xx 重定向

  301 已移动 — 请求的【qǐng qiú de】数据具【shù jù jù】有新的⛸位置且更改是😊永久的【yǒng jiǔ de】🔀。

  302 已找到【yǐ zhǎo dào】👜 — 请求的【qǐng qiú de】数据临🍀时具有不同 URI。

  303 请参阅其它⏸ — 可在另【kě zài lìng】一🐾 URI 下找到【xià zhǎo dào】对请求的响应,且应使【qiě yīng shǐ】🥝用🎷 GET 方法检【fāng fǎ jiǎn】索此响应。

  304 未修改 — 未按预【wèi àn yù】🕖期修改💂文档【wén dàng】。

  305 使用代【shǐ yòng dài】🕓理【lǐ】 — 必须通过位置字段中【zì duàn zhōng】提供的😱代理【lǐ】来🧘访问请求的资源。

  306 未使用【wèi shǐ yòng】🍝 — 不再使用🍂;保留此🎞代码以【dài mǎ yǐ】便将来【biàn jiāng lái】使用🍂。

  4xx 客户机中出现的错误

  400 错误请🛬求【qiú】 — 请求【qiú】中📑有语法【yǒu yǔ fǎ】问题,或不能满足请【mǎn zú qǐng】😿求【qiú】。

  401 未授权🐥 — 未授权🐥客户机访问数【fǎng wèn shù】🏏据【jù】。

  402 需要付🎪款【kuǎn】 — 表示计【biǎo shì jì】费系统🖖已有效。

  403 禁止✉ — 即使有授权也【shòu quán yě】不需要【bú xū yào】访问🖤。

  404 找不到【zhǎo bú dào】🚂 — 服务器🍯找不到【zhǎo bú dào】🚂给定的资源;文档不🏥存在【cún zài】。

  407 代理认【dài lǐ rèn】证请求【zhèng qǐng qiú】🅿 — 客户机【kè hù jī】首先必🖼须使用🌡代理认【dài lǐ rèn】证自身。

  410 请求的网页不存在(永久);

  415 介质类【jiè zhì lèi】型不受支持🥠 — 服务器拒绝服务请求🤠,因为不【yīn wéi bú】支持🥠请求实【qǐng qiú shí】体的格式【shì】😆。

  5xx 服务器中出现的错误

  500 内部错【nèi bù cuò】㊗误 — 因为意外情况【wài qíng kuàng】,服务器🈚不能完⏱成请求【chéng qǐng qiú】。

  501 未执行 — 服务器【fú wù qì】不支持【bú zhī chí】请求的🚞工具♉。

  502 错误网关【guān】🧡 — 服务器🍶接收到【jiē shōu dào】来自上【lái zì shàng】游服务器🍶的无效响应。

  503 无法获【wú fǎ huò】🚱得服务【dé fú wù】 — 由于临🛎时过载或维护🎫,服务器无法处理请求【lǐ qǐng qiú】。

  了解蜘蛛的爬【zhū de pá】行痕迹【háng hén jì】,有助于我们分【wǒ men fèn】📒析自己的网站。木木才疏学浅🌄,就简单【jiù jiǎn dān】的总结📞下💵!

关键词:IIS,搜索引擎

阅读本文后您有什么感想? 已有 人给出评价!

  • 1 欢迎喜欢
  • 1 白痴
  • 1 拜托
  • 1 哇
  • 1 加油
  • 1 鄙视