” ——丹·巴特勒 “我已经记不清有多少次临时抓取拯救了我的培根。在压力较小的时候,取到 Excel 中很有用,但最近我最喜欢的例子是我的一位客户,他正在与 Facebook 就将其纳入 F8 进行谈判。我们正在处理数据以进入主题演讲,并且需要分析一些社交媒体数据以获取合理规模(几千个 URL)的 URL。
这种数据以 SQL 查询的形式存在
于客户端系统中的某个位置,但我们没有时间让开发团队为我们提供这些数据。自己花 20 分钟获取和分析数据,让 Facebook 快速周转,这真是一种解放。” ——汤姆·克里奇洛 “我们发现一名客户同时将其所有主页链接指向了一 电话号码数据 个暂存子域,并且在执行此操作大约一小时后,他们在主页上添加了元机器人 noindex/nofollow。
我们看到抓取结果后想:
“呃,这不对。”我们假设我们的爬行器坏了。没有。这大约是我们所希望的 定制您的 CRM 以加速销售、客户保留和客户满意度 最佳时机。但这使客户免于发生可能导致他们损失数万美元的重大失误。还有一次,我们必须从拥有静态站点的客户端进行大量内容迁移。客户实际上开始剪切和粘贴数千页。我们将它们全部收集到数据库中,对其进行解析并使整个过程自动化。
” ——伊恩·卢里 “一般来说,我讨厌任何必须复制和粘贴的任务,因为 美国数据库 任何时候你这样做,计算机都可以为你做这件事。对我来说最引人注目的时刻是当我第一次开始在 Razorfish 工作时,他们给了我从 Majestic 导出中分割 300 万个链接的任务。
我编写了一个 PHP 脚本
每个链接收集 30 个数据点。这是在 CognitiveSEO 甚至 LinkDetective 等工具出现之前。可以肯定地说,这让我不再想把电脑从楼顶扔下去。” ——迈克·金 问题 2:您首选的工具/方法是什么? “取决于工作的规模和类型。
对于快速的东西
通常是 Google 文档(ImportXML,或者我将编写一个自定义函数),并且在规模上我真的很喜欢 Scraping Hub。随着 SEO 任务越来越接近数据分析(科学),我认为我将更有可能依赖大数据分析平台(例如 RapidMiner 或 Knime)提供的 Web 导入模块来进行任何抓取。
” ——戴夫·索蒂马诺 “一开始,Outwit 是一个很棒的工具。它本质上是一个浏览器,可让您使用源代码轻松构建抓取工具。 …我开始使用 Ruby 来获得更多控制力和可扩展性。我选择 Ruby 是因为前端/后端组件,但 Python 也是一个不错的选择,并且绝对是抓取的标准(Google 使用它)。
我认为,当您对抓取感兴趣时,学习编码是不可避免的,因为您几乎总是需要一些无法从简单工具中轻松获得的东西。我喜欢的其他工具包括用于快速抓取一页的 Chrome 浏览器插件、Scrapebox、RegExr 和用于构建和测试正则表达式的 Text2re。