ads.txt、robots.txt、sitemap.xml 一次讲清:内容站上线前最容易忽略的 3 个文件
很多内容站上线时页面都能访问,但这三个小文件却常常被忽略,或者配了也不知道有没有生效。对于搜索抓取、广告验证和页面发现来说,它们虽然不起眼,但都是很实际的基础项。
ads.txt 解决的是广告授权声明
ads.txt 的关键不只是内容正确,还包括位置正确。它应该在根目录,并能直接通过域名访问到。很多人把文件传到了错误目录,或者被 Nginx fallback 吃掉,最后导致平台验证不到。
robots.txt 解决的是抓取边界
robots.txt 不应该承担隐藏页面的职责,它更多是在告诉爬虫哪些内容值得抓,哪些资源没必要抓。对于希望获取搜索流量的公开内容站来说,默认允许抓取通常比一味屏蔽更合理。
sitemap.xml 解决的是发现效率
内容越多,越应该把 sitemap 维护好。它不是收录保证,但它能让搜索系统更清楚你有哪些页面值得看。尤其当你使用静态生成时,自动或半自动输出 sitemap 是非常划算的做法。
作者说明
长期维护小型网站和服务器,关注真正能解决问题的技术教程、部署经验与排障方法。