首页 > Wordpress > 标签云无法抓取&升级WordPress3.0到3.0.1

标签云无法抓取&升级WordPress3.0到3.0.1   

2010年8月14日

有了一点空,姐姐我又继续开始了折腾之路。今天登陆了一下Google的站长工具,发现网站上,错误不少。简说,有三个。

第一个是,大量的robots.txt限制,见图。


刚发现这个问题时,我以为是我写的Robots的问题,因为里面有一句Disallow: /wp-content/plugins,而在我的3D标签云插件就是Plgins里面。我的第一反应就是要不要写多一句Allow:/wp-content/plugins/wp-cumulus/或Allow:/tag/进去。但认真想想,这明显有一些不合理的,否认了全集,却要肯定全集里面的子集,有些自相矛盾,对于按程序做事的爬行蜘蛛来说肯定有点无理了。

Google了一下类似情况终于发现应该不是Robots的问题,这个问题,我参考了两个博客的说法,宋夏的博客说这个3D标签云不利于SEO,三侠五义直接说搜索引擎无法抓取这些tags。

李博侠提出了两个解决方案,一是提交Sitemap,里观已经包含了所有的tags了。要不就是首页同时让3D标签云和普通标签云共存,再不就无视这个抓取错误了。其实我已经提交了Sitemap的了,但看着几百个的无法抓取,总有些觉得不舒服。而我总觉得我的Sitemap是有问题的,因为提交了,一共也就收录了80多个页面。但具体问题会出在哪里,我又说不出。

接下来,就只要自我纠结着想想要怎么弄了。

第二个问题是比较严重的,因为重定向错误无法追踪网页。

我一看就头晕了,还不懂什么是重定向错误和无法追踪网页。只在不断地Google下大约知道了一个情况,因为我的是Apache服务器,更正这个重定向只是修改.htaccess就好了。只是我不明白为什么之前不会,怎么突然跳出重定向错误,而这些重定向错误全部发生在TAG上面。

最后发现了一个博客——疯人院道出了问题的关键,截取重要的一段话:

据我观察+猜测是Wordpress3.0把中文TAG的链接里面的转码统统转换为小写的了,且原来大写的转码都做了301重定向到小写。比如说你有一个TAG叫“上海”,那么原来版本WP中转码后它的固定链接就是“tag/%E4%B8%8A%E6%B5%B7/”,其中“%E4%B8%8A%E6%B5%B7”其实就是“上海”这两个汉字的转码,但是Wordpress3.0会把此固定链接转码为“tag/%e4%b8%8a%e6%b5%b7/”并且把“tag/%E4%B8%8A%E6%B5%B7/”重定向到“tag/%e4%b8%8a%e6%b5%b7/”,这样看上去没什么不妥。但是Google的爬虫不干了,爬虫们罢工了,爬虫不等301就会马上离开并且报这个页面是“重定向错误”……

这样的情况,后果好像很严重的:

至于为什么Google爬虫不去抓取301目标页面,我猜测可能因为爬虫认为“tag/%E4%B8%8A%E6%B5%B7/”和“tag/%e4%b8%8a%e6%b5%b7/”是一个页面,而你的网站在用小花招玩弄Google的爬虫,这样的结果会给一个网站带来灭顶之灾。轻则收录数明显减少,重则给你的域名降权,或者什么影响都没有Google今天心情好……

这样情况就清楚了,再去Google一下, wordpress3.0.1的确已经修复了这个语言Bug. 于是,就马上备份了一次博客,然后马上升级到3.0.1去了。从2.9.2到3.0再到3.0.1我发现已经无路可退了,只能一鼓脑地向前冲了!

如果你还在使用Wordpress3.0,那么尽快地升3.0.1吧!至于问题还会不会再发生,有待观察。

第三个是一个奇怪的错误,404找不页面。

有好几篇旧文章,只剩一个链接。刚建博时,用了一些小方法导进了一些以前的文章,理论上说,只要没出错,应该是全都要在的。难不成我手痒,不知什么时候把它删了?这个情况是比较小的,我一般不会因为我写得差而删去我的东西。那么这事情显得有些灵异了,不解之谜中……

anyShare分享到:
         

Wordpress ,

  1. 2010年8月14日21:00 | #1

    小白也写技术文的啊

  2. 2010年8月14日21:03 | #2

    @扯远了
    写啊,写一些心得!立志迈向GEEK女所经历的心得。旧文章里面还挺多的··不过好像没什人去看就是了·· [洋葱头02]

  3. 2010年8月14日21:57 | #3

    这个·· 第一次见技术文啊·· 我也升3.0.1了 还可以啊

  4. 2010年8月14日23:52 | #4

    第三个,应该是导入的时候出现了问题吧?不确定
    你的那个Tag真的有点问题,使用sitemap提交也不最好的解决办法,最好是直接使用文本格式的,不要使用JS

  5. 2010年8月15日07:55 | #5

    升级了就好啦·

  6. 2010年8月15日08:33 | #6

    @瘦腿不是秘密
    这里杂七杂八,什么都有,呵呵 [洋葱头01]
    的确升级就好了

  7. 2010年8月15日08:34 | #7

    @dudo
    [兔16] 这个3D标签云很喜欢啊···
    再加一个文本标签去·哈哈

  8. 2010年8月15日14:51 | #8

    我还是2.92,现在功能已经满足我的要求了,后台有个升级到3.01的,没点,怕升级挂了麻烦。。

  9. 2010年8月15日15:14 | #9

    Disallow: /wp-content/plugins
    Allow:/wp-content/plugins/wp-cumulus/或Allow:/tag
    可以的,不会有逻辑或语法错误

  10. 2010年8月15日15:31 | #10

    我暂时先不升级3.0.1

  11. 2010年8月15日18:07 | #11

    @Ray Chow
    问题解决了,是我的JS标签问题。我在右侧下面重新加了一个彩色标签云了!

  12. 2010年8月15日18:09 | #12

    @浩儿
    不升级的话,爬虫抓取中文TAG时会认为重定向错误。你可能没有中文TAGS吧··

  13. 2010年8月15日18:35 | #13

    莫非这下必须得升了?新皮在3.0下一直没调满意,还说等等再升的,怕升了之后又出问题。。

  14. 2010年8月15日23:01 | #14

    @奈维摩尔
    呵呵,反正我是硬着头皮必须得升级了

  15. 2010年8月15日23:33 | #15

    刚升级半天,还不清楚情况,不过居然把我新窗口打开链接这个设置给改了,郁闷了半天
    我博客也更新了,有空过去看看给点意见?

  16. 2010年8月16日00:00 | #16

    @陈剑
    呵呵,你改的是WP-INCLUDES/COMMENT-TEMPLATE里面的内容吧?一更新就有可能替换的了。
    话说我刚刚折腾完新窗口打开链接这玩意儿,可以在模板的COMMENT里面加一个TARGET,或插一段JQUERY,这样就不担心更新给弄不见了! [洋葱头18]

  17. 2010年8月16日00:51 | #17

    小白啊。。。没搞清别乱说罗。会误导别人的。。。
    别人说3D标签云不利于SEO那是因为3d云的tag连接里面不是静态的是个动态链接。其实根本影响不大。

    我看了你一下robots.txt,你那个3d云就是被你robots限制的。
    从你截图看,你3d连接其中有/tagcloud.swf?r=这个部分。你robots.txt里面一句Disallow: /*?就把你那个3d的链接给限制了。。。
    根本不是你说的那个。而且说提交Sitemap就无视抓取错误那也纯粹是瞎说的。

    至于最后一个问题,我没看具体数据库我也不清楚,嘿嘿 [洋葱头22] [洋葱头22] [洋葱头22]

  18. 2010年8月16日01:11 | #18

    @9fun
    [洋葱头16] [洋葱头16] 我身边到处隐藏着高手!!9FUN,有空要打救一下我·· [洋葱头09]
    我不算全乱说吧 [洋葱头12] ,因为我看了两个博客都这么说,而且那个3D标签云,算是FLASH动画模板,spider好像是抓取不到的。我刚开始的第一反应也是我的robots的问题,但又好像,不是他的问题,我以前没用那个3D云之前没出现这个问题啊,好像也是Disallow了wp-content的,另外,不是说提交Sitemap无视抓取错误啦,我是转达别人说的,他的意思是说,SITEMAP里面会包含TAG,所以提交SITEMAP后就可忽略这个问题了。
    还有一个问题,看数据库的话,要怎么看啊? [洋葱头12]
    最后,七夕快乐!呵呵 [洋葱头15]

  19. 2010年8月16日01:51 | #19

    @杜小白
    FLASH动画模板一般是抓不到的。但是这个不一样。你自己查看你现在页面的源代码。其实是可以直接看到tag的连接的。如果你自己看,其实下面彩色的tag跟3d的tag连接地址是一样的且重复的。

    没用那个3D云之前Disallow了wp-content的肯定不会出现问题啊。因为不会有链接里面包括wp-content,你用了之后robots里面还是有Disallow: /wp-content/plugins和Disallow: /*?*,Disallow: /*?这两个。在有这个3个的时候,你3d的tag是肯定不会被收录的。你用3d,且去掉这个3个肯定没问题的。

    SITEMAP里面会包含TAG,所以提交SITEMAP就忽略。其实就是包含tag。你robots禁掉了照样也是没用的。

    你如果详细去阅读过robots.txt你会发现。其实/tem/跟/tem的含义都是不一样的。 [洋葱头16]

    看数据库。。。phpmyadmin,Navicat For MySQL都是可以滴。 [兔07]

  20. 2010年8月16日14:35 | #20

    哈哈,我的已经更换为简体中文了。话说现在我看到你边栏里动态,静态标签都有,其中的一个是不是有些画蛇添足了呢 [洋葱头18]

    对了,小白,我的小站换了新域名http://www.iharo.com,烦请您修改一下,希望继续友情。

  21. 2010年8月16日15:06 | #21

    @9fun
    膜拜中…..9fun,你知道得好多好多。显得我好小白 [洋葱头20]
    另外,我也懂了那个多加一个/和不加的区别了。
    例如”Disallow: /help”对/help.html和/help/index.html都不允许搜索引擎访问,
    而”Disallow:/help/”则允许robot访问/help.html,而不能访问/help/index.html。
    我已经改成ROBOT.TXT了。 用了那个彩色标签云,发现也好喜欢··· [兔04]

  22. 2010年8月16日15:07 | #22

    @PARA
    现在问题已经解决了,发现也很喜欢那个彩色标签···还是要把它下架了··
    嗯,你的博客链接已经换好了! [洋葱头16]

  23. 2010年8月16日15:17 | #23

    这点我帮助你了你什么了

  24. 2010年8月16日15:46 | #24

    @卢松松
    [洋葱头12]你的博客已经为众大站长提供了很多帮助了。里面很多文章可看,但我还有很多没有来得及看·· [洋葱头09]
    话说真没想到第一次到你的博,第一次留言,就上了博文了!真的是第一次的。而且那时还不知道卢松松是博客界的大名人啊!那时好像只是无意中点进去的。每次看到你在我的博客踩踩就特高兴,哈哈哈哈···

  25. 2010年8月16日23:26 | #25

    小托来祝福了。 晚了点 。七夕快乐 嘿嘿 加油啊

    [洋葱头11]

  26. 2010年8月17日10:41 | #26

    建议将你ROBOTS.TXT中这一句去掉 Disallow: /feed
    因为GOOGLE新近增加了FEED的抓取 与SITEMAP效果等同

  27. 2010年8月17日10:56 | #27

    不升级,不升级,我就是不升级。

  28. 2010年8月17日15:56 | #28

    @小托
    谢谢,你也快乐! [洋葱头15]

  29. 2010年8月17日15:56 | #29

    @surda
    谢谢建议!呵呵,这就去改~ [洋葱头16]

  30. 2010年8月17日15:57 | #30

    @iamlukas
    小卢·· [洋葱头19]

  31. 2010年8月18日21:09 | #31

    学习了 菜鸟级站长

  32. 2010年8月24日21:25 | #32

    哈哈我以前用过标签云,现在不敢用了! [兔15]

  33. 2010年8月29日14:51 | #33

    我又来了,最近换了个主题,出现了之前你那样的错误Cannot modify header information [兔12]

  34. 2010年10月20日14:46 | #34

    [洋葱头19] 学些了 谢谢啊

  1. 目前还没有任何 trackbacks 和 pingbacks.
[洋葱头22] [洋葱头20] [洋葱头19] [洋葱头18] [洋葱头17] [洋葱头16] [洋葱头15] [洋葱头14] [洋葱头13] [洋葱头12] [洋葱头11] [洋葱头10] [洋葱头09] [洋葱头08] [洋葱头07] [洋葱头06] [洋葱头05] [洋葱头04] [洋葱头03] [洋葱头02] [洋葱头01] [兔21] [兔20] [兔17] [兔16] [兔15] [兔14] [兔13] [兔12] [兔11] [兔10] [兔09] [兔08] [兔07] [兔06] [兔05] [兔04] [兔03] [兔02] [兔01]