” ——丹·巴特勒 “计算机最常见的陷阱是它们只做你告诉它们的事情——这听起来很明显,但它很好地提醒你,当你感到沮丧时,通常只能怪自己。哦——别忘了每隔一段时间检查一下你的重复任务。” ——汤姆·克里奇洛 “放慢你的爬行速度很重要。我什至不是在谈论谷歌抓取。
我说的是抓取其他人的网站
化程度很差感到惊讶。如果您开始每秒点击一页,实际上可能会减慢或 telegram 数字数据 崩溃价值数百万美元的企业的网站。我们曾经用每秒一页的抓取方式杀死了一个客户的网站——他们是一家财富 1000 强公司。这很荒谬,但这种情况发生的频率比你想象的要高。
另外如果您不设计您的爬
虫来检测和避免蜘蛛陷阱,您最终可能会爬行 250,000 页完全重复 现代洒红节——团结的庆典 的垃圾。这是对服务器资源的浪费。一旦发现无限扩展的 URL 或其他问题,就让爬虫继续前进。” ——伊恩·卢里 “我这些天遇到的最大陷阱是,许多网站都使用 JavaScript 呈现内容,而标准的基于文本的爬虫并不总是能解决这个问题。
我经常使用无头浏览器进行抓
我最喜欢的 PhantomJS 抽象是 NightmareJS,因为它快速且简单,所以我 美国数据库 使用它。另一件事是,有时人们的代码非常糟糕,没有结构,所以你最终会抓住所有东西并需要对其进行排序。” ——迈克·金 您在数据抓取方面有任何有趣的用例或经验吗?在评论里大声说出来吧! 如果您是网站管理员,您可能会收到一封臭名昭著的“Googlebot 无法访问 example.com 上的 CSS 和 JS 文件”警告信,Google 向几乎所有 SEO 和网站管理员发送了这些警告信。
这是来自 Google 的全新警报
尽管我们已经从搜索引擎那里得知需要确保所有资源(包括 JavaScript 和 CSS)畅通无阻。 这些信件确实存在混乱,谷歌搜索控制台中的一些报告也证明了这一点。以下是您需要了解的关于 Google 希望看到这些资源被解锁的愿望,以及如何轻松解锁它们以利用相关排名提升的优势。
谷歌为何关心?
对警告电子邮件最大的抱怨之一是,许多人认为谷歌没有理由看到这些文件。尤其如此,因为它标记了传统上被网站管理员阻止的文件,例如 WordPress 管理区域和 WordPress 插件文件夹中的文件。 这是许多人从谷歌收到的有问题的信件。