标签云无法抓取&升级WordPress3.0到3.0.1

有了一点空,姐姐我又继续开始了折腾之路。今天登陆了一下Google的站长工具,发现网站上,错误不少。简说,有三个。

第一个是,大量的robots.txt限制,见图。


刚发现这个问题时,我以为是我写的Robots的问题,因为里面有一句Disallow: /wp-content/plugins,而在我的3D标签云插件就是Plgins里面。我的第一反应就是要不要写多一句Allow:/wp-content/plugins/wp-cumulus/或Allow:/tag/进去。但认真想想,这明显有一些不合理的,否认了全集,却要肯定全集里面的子集,有些自相矛盾,对于按程序做事的爬行蜘蛛来说肯定有点无理了。

Google了一下类似情况终于发现应该不是Robots的问题,这个问题,我参考了两个博客的说法,宋夏的博客说这个3D标签云不利于SEO,三侠五义直接说搜索引擎无法抓取这些tags。

李博侠提出了两个解决方案,一是提交Sitemap,里观已经包含了所有的tags了。要不就是首页同时让3D标签云和普通标签云共存,再不就无视这个抓取错误了。其实我已经提交了Sitemap的了,但看着几百个的无法抓取,总有些觉得不舒服。而我总觉得我的Sitemap是有问题的,因为提交了,一共也就收录了80多个页面。但具体问题会出在哪里,我又说不出。

接下来,就只要自我纠结着想想要怎么弄了。

第二个问题是比较严重的,因为重定向错误无法追踪网页。

我一看就头晕了,还不懂什么是重定向错误和无法追踪网页。只在不断地Google下大约知道了一个情况,因为我的是Apache服务器,更正这个重定向只是修改.htaccess就好了。只是我不明白为什么之前不会,怎么突然跳出重定向错误,而这些重定向错误全部发生在TAG上面。

最后发现了一个博客——疯人院道出了问题的关键,截取重要的一段话:

据我观察+猜测是Wordpress3.0把中文TAG的链接里面的转码统统转换为小写的了,且原来大写的转码都做了301重定向到小写。比如说你有一个TAG叫“上海”,那么原来版本WP中转码后它的固定链接就是“tag/%E4%B8%8A%E6%B5%B7/”,其中“%E4%B8%8A%E6%B5%B7”其实就是“上海”这两个汉字的转码,但是Wordpress3.0会把此固定链接转码为“tag/%e4%b8%8a%e6%b5%b7/”并且把“tag/%E4%B8%8A%E6%B5%B7/”重定向到“tag/%e4%b8%8a%e6%b5%b7/”,这样看上去没什么不妥。但是Google的爬虫不干了,爬虫们罢工了,爬虫不等301就会马上离开并且报这个页面是“重定向错误”……

这样的情况,后果好像很严重的:

至于为什么Google爬虫不去抓取301目标页面,我猜测可能因为爬虫认为“tag/%E4%B8%8A%E6%B5%B7/”和“tag/%e4%b8%8a%e6%b5%b7/”是一个页面,而你的网站在用小花招玩弄Google的爬虫,这样的结果会给一个网站带来灭顶之灾。轻则收录数明显减少,重则给你的域名降权,或者什么影响都没有Google今天心情好……

这样情况就清楚了,再去Google一下, wordpress3.0.1的确已经修复了这个语言Bug. 于是,就马上备份了一次博客,然后马上升级到3.0.1去了。从2.9.2到3.0再到3.0.1我发现已经无路可退了,只能一鼓脑地向前冲了!

如果你还在使用Wordpress3.0,那么尽快地升3.0.1吧!至于问题还会不会再发生,有待观察。

第三个是一个奇怪的错误,404找不页面。

有好几篇旧文章,只剩一个链接。刚建博时,用了一些小方法导进了一些以前的文章,理论上说,只要没出错,应该是全都要在的。难不成我手痒,不知什么时候把它删了?这个情况是比较小的,我一般不会因为我写得差而删去我的东西。那么这事情显得有些灵异了,不解之谜中……

加入对话

34条评论

  1. 第三个,应该是导入的时候出现了问题吧?不确定
    你的那个Tag真的有点问题,使用sitemap提交也不最好的解决办法,最好是直接使用文本格式的,不要使用JS

  2. 刚升级半天,还不清楚情况,不过居然把我新窗口打开链接这个设置给改了,郁闷了半天
    我博客也更新了,有空过去看看给点意见?

  3. @陈剑
    呵呵,你改的是WP-INCLUDES/COMMENT-TEMPLATE里面的内容吧?一更新就有可能替换的了。
    话说我刚刚折腾完新窗口打开链接这玩意儿,可以在模板的COMMENT里面加一个TARGET,或插一段JQUERY,这样就不担心更新给弄不见了! [洋葱头18]

  4. 小白啊。。。没搞清别乱说罗。会误导别人的。。。
    别人说3D标签云不利于SEO那是因为3d云的tag连接里面不是静态的是个动态链接。其实根本影响不大。

    我看了你一下robots.txt,你那个3d云就是被你robots限制的。
    从你截图看,你3d连接其中有/tagcloud.swf?r=这个部分。你robots.txt里面一句Disallow: /*?就把你那个3d的链接给限制了。。。
    根本不是你说的那个。而且说提交Sitemap就无视抓取错误那也纯粹是瞎说的。

    至于最后一个问题,我没看具体数据库我也不清楚,嘿嘿 [洋葱头22] [洋葱头22] [洋葱头22]

  5. @9fun
    [洋葱头16] [洋葱头16] 我身边到处隐藏着高手!!9FUN,有空要打救一下我·· [洋葱头09]
    我不算全乱说吧 [洋葱头12] ,因为我看了两个博客都这么说,而且那个3D标签云,算是FLASH动画模板,spider好像是抓取不到的。我刚开始的第一反应也是我的robots的问题,但又好像,不是他的问题,我以前没用那个3D云之前没出现这个问题啊,好像也是Disallow了wp-content的,另外,不是说提交Sitemap无视抓取错误啦,我是转达别人说的,他的意思是说,SITEMAP里面会包含TAG,所以提交SITEMAP后就可忽略这个问题了。
    还有一个问题,看数据库的话,要怎么看啊? [洋葱头12]
    最后,七夕快乐!呵呵 [洋葱头15]

  6. @杜小白
    FLASH动画模板一般是抓不到的。但是这个不一样。你自己查看你现在页面的源代码。其实是可以直接看到tag的连接的。如果你自己看,其实下面彩色的tag跟3d的tag连接地址是一样的且重复的。

    没用那个3D云之前Disallow了wp-content的肯定不会出现问题啊。因为不会有链接里面包括wp-content,你用了之后robots里面还是有Disallow: /wp-content/plugins和Disallow: /*?*,Disallow: /*?这两个。在有这个3个的时候,你3d的tag是肯定不会被收录的。你用3d,且去掉这个3个肯定没问题的。

    SITEMAP里面会包含TAG,所以提交SITEMAP就忽略。其实就是包含tag。你robots禁掉了照样也是没用的。

    你如果详细去阅读过robots.txt你会发现。其实/tem/跟/tem的含义都是不一样的。 [洋葱头16]

    看数据库。。。phpmyadmin,Navicat For MySQL都是可以滴。 [兔07]

  7. 哈哈,我的已经更换为简体中文了。话说现在我看到你边栏里动态,静态标签都有,其中的一个是不是有些画蛇添足了呢 [洋葱头18]

    对了,小白,我的小站换了新域名http://www.iharo.com,烦请您修改一下,希望继续友情。

  8. @9fun
    膜拜中…..9fun,你知道得好多好多。显得我好小白 [洋葱头20]
    另外,我也懂了那个多加一个/和不加的区别了。
    例如”Disallow: /help”对/help.html和/help/index.html都不允许搜索引擎访问,
    而”Disallow:/help/”则允许robot访问/help.html,而不能访问/help/index.html。
    我已经改成ROBOT.TXT了。 用了那个彩色标签云,发现也好喜欢··· [兔04]

  9. @卢松松
    [洋葱头12]你的博客已经为众大站长提供了很多帮助了。里面很多文章可看,但我还有很多没有来得及看·· [洋葱头09]
    话说真没想到第一次到你的博,第一次留言,就上了博文了!真的是第一次的。而且那时还不知道卢松松是博客界的大名人啊!那时好像只是无意中点进去的。每次看到你在我的博客踩踩就特高兴,哈哈哈哈···

留下评论

邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据