去年10月底,我把博客的主题由fluid改成了butterfly。在原先的主题中,我并未配置canonical选项,即所谓的规范网址——搜索引擎认定的链接范式;而新主题会根据hexo配置文件自动生成canonical。而我并未将pretty_urls中的trailing_indextrailing_html设置为false,导致规范网址带有index.html后缀。但不知何故,此规范网址也会自动重定向至没有index.html后缀的链接。这导致Google和Bing对网站的索引逐渐消失,而我几天后才发现并修正,已然于事无补。

之后,我的网站的反向链接逐渐增多,尤其是将本站提交至V2EXVXNA节点后,Google的索引逐渐恢复,但Bing的索引却迟迟未见起色。虽然在Bing Webmaster Tools的「搜索性能」中,显示索引页面数在不断增加,但使用site运算符搜索时,却显示没有结果。

搜索时显示「没有与此相关的结果」

在网上搜寻一番后,发现此种情况似乎不在少数。根据陶小桃zcTou等人的博客文章,这可能是站点进入了必应的黑名单之中,需要向官方反馈,提请人工审查。根据教程,我提交了「我的网站不在索引中」的问题。等待几天后,收到了如此回信:

After further review, it appears that your site did not meet the standards set by Bing the last time it was crawled.

其实我看到这个回复后有些失望。首先,必应官方只是说不符合质量标准,但又不具体指出,让我不知道从何做起。照理说,我的网站应该不是内容农场,先前也曾被必应收录过,质量上应该没有问题。其次,发件人为bingwb@microsoft.com,当我希望进一步了解原因时,却发现该邮箱无法回复。更令人气愤的是,收到这封邮件后,我的索引页面数逐渐下降,最终只剩下个位数;每天可提交的URL数也从100变成了10。我甚至开始怀疑,一开始只是索引问题,在我反馈后,他们又将我的网站添加到了黑名单中。之后我多次联系必应官方,但收到的多封回复为模板式的「未满足质量标准」。期间,我还找到了Simon Cox所写的一篇博文,步骤很详尽,但我遵循指示后,似乎仍然没有作用。但读者不妨也可以自查一番。

直到前几天,我突发奇想,反馈问题时选择了其他类别(错误的搜索结果—Issue with Favicon),发现负责的团队似乎有所变化,发信人变成了bwtsupport@microsoft.com。先前的工单编号都是以REQ开头,而这次则是以UCM开头。并且,他们的回复并非完全是模板,同时也可以直接回复邮件。他们提到,他们将问题上报至更高级别的团队后,确认我的网站违反了网站站长指南。当我询问他们违反了哪些具体规则时,他们回复称并不清楚,但提及编制索引是由Bingbot爬虫自动完成的,他们无法控制这一流程。然而,在收信后一两天,网站的URL可提交数又上升至了100。又过了几天,索引页面数也开始逐渐恢复,通过搜索引擎也能直接搜索到网站。

总之,搜索引擎的收录是个黑盒。虽然我不能完全确定两者之间的关联,不过我猜,在把问题提交给后一个团队时,他们虽然认为我的网站不够格,但也不至于进入黑名单,因此将我的网站从名单中移除。而我的网站有一定的反向链接,故爬虫很快就重新索引了。如果读者也受类似问题的困扰,不妨在向官方寻求支持时,尝试使用其他反馈类别,将问题提交给看起来就更负责的团队。