您是否尝试过不使用代理来抓取网站?结果如何?您成功了吗?或者您有一段时间无法访问该网站?
事实是,除非你正在抓取一些页面,否则你一定会被阻止——这要归功于网站设置的请求限制,以对抗爬虫和抓取器等网络自动化机器人。没有新闻说网站所有者不喜欢他们的网站被废弃,因为如果它的功率低,它可能会淹没他们的网站。有些人不喜欢它,因为他们将这种做法视为内容盗窃。
不管网站所有者如何看待,网络抓取的做法已经开始存在,除非您跨越某些技术细节,否则网络抓取是完全合法的。
但是,由于网站正在与之抗争,您需要加倍努力才能成功地获取您感兴趣的数据。本文将用于为您提供有关最好使用的网络抓取代理的建议。如果您不想管理代理,您还将获得有关可使用的最佳代理 API 的建议。
为什么需要代理进行网页抓取
我的工作是为权力的游戏抓取死亡数据,我在没有使用代理的情况下完成了所有死亡案例。我之所以能够做到这一点,是因为所有数据都是一次加载的,但是您需要 JavaScript 来呈现每个数据。
我有过不使用单个代理服务器抓取小型站点和少量页面的其他经验。此外,我曾参与过被阻止和列入黑名单的项目,原因是我的设备 IP 地址。
为什么需要代理来抓取网页?
超出请求限制
每个网站都有它认为在一段时间内来自某个IP 地址的自然请求数量,如果它试图超过限制,它将在特定时间段内阻止来自该 IP 地址的进一步请求。这意味着在达到限制之前,您可以使用设备抓取网站是有限制的。代理可以为您提供更多的 IP 地址,您可以使用这些地址来超出限制。
访问位置特定数据
假设您在挪威,但想抓取 Google 英国网站上显示的 Google 列表。你怎么做到这一点?请记住,列表因您所在的位置而异?您可以移居英国或使用英国代理。使用英国代理是最佳选择,因为您花费的金钱和时间更少——而且仍然获得与居住在英国的人相同的结果。
绕过 IP 块
如果出于任何原因,您的 IP 地址已被阻止访问特定网站,则可以使用代理。
通常,这可能发生在您身上,因为您向网站或与您在同一网络上的其他人发送了垃圾邮件。对于网络抓取,如果您没有使用代理,并且您的真实 IP 地址被阻止,这一点就变得非常重要。
您需要多少个代理?
"Number of requests" / "Request limit" = "Proxies Needed"
600,000 / 600 = 1000 Proxies
为什么使用代理池?
从上面的类比可以看出,你需要1000个代理。你需要有效地管理它们,有一个轮换系统来确保没有一个 IP 被使用超过 600 次以避免阻塞。
如果您以前这样做过,您就会知道这是一个额外的负担,如果您有选择权,您甚至不应该考虑它。这里的选项是代理池,它是由代理网络控制和管理的代理管理列表。
当您使用代理池时,您将使用一个入口点,从那里,代理池系统将随机决定您的请求将通过池中的哪个代理/IP 进行路由。它还会为您处理 IP 轮换。
使用代理池,您无需考虑所需代理的数量,因为代理池提供商允许您访问整个池或子集,并且定价是按可消耗的带宽或端口。大多数池在数据中心 IP 代理池的情况下都有数千个代理,在住宅 IP 代理池的情况下有数百万个代理。
为什么使用代理池?
从上面的类比可以看出,你需要1000个代理。你需要有效地管理它们,有一个轮换系统来确保没有一个 IP 被使用超过 600 次以避免阻塞。
如果您以前这样做过,您就会知道这是一个额外的负担,如果您有选择权,您甚至不应该考虑它。这里的选项是代理池,它是由代理网络控制和管理的代理管理列表。
当您使用代理池时,您将使用一个入口点,从那里,代理池系统将随机决定您的请求将通过池中的哪个代理/IP 进行路由。它还会为您处理 IP 轮换。
使用代理池,您无需考虑所需代理的数量,因为代理池提供商允许您访问整个池或子集,并且定价是按可消耗的带宽或端口。大多数池在数据中心 IP 代理池的情况下都有数千个代理,在住宅 IP 代理池的情况下有数百万个代理。
Web 抓取的最佳代理
当谈到用于网络抓取的代理时,您需要知道最好的代理是在您的目标网站上运行的代理。这是因为每个网站都有自己独特的反垃圾邮件和反抓取系统,在Twitter上有效的可能在YouTube上无效。但是,我们仍然可以就最好的协议达成协议,因为有些代理提供商的代理可以与大多数复杂的网站兼容。
我们将对住宅和数据中心代理提出建议。虽然移动代理是最好的,但它们很昂贵,而且不能说是划算的,因为住宅代理可以完成大部分工作。
用于网络抓取的住宅代理
住宅代理是网络抓取的最佳代理,因为它们是不可检测的,因此,创纪录的高成功率和阻止被保持在最低限度。下面讨论了一些最好的提供商。
Smartproxy 住宅代理
- IP池规模:超过4000万
- 地点:全球 195 个地点
- 允许并发:无限制
- 允许带宽: 1GB 起
- 费用: 12.5 美元/GB 起,随用随付
Smartproxy 是市场上优质的住宅 IP 池提供商之一。与 Bright Data 不同的是,他们至少需要 500 美元才能让您使用他们的矿池,而 Smartproxy 将允许您以低至 80 美元的价格访问他们的矿池,您甚至可以选择按需付费-以 12.5 美元/GB 的价格计划。
Smartproxy 和 Bright Data 定价均基于带宽。Smartproxy 具有高轮换代理,可在每次请求后更改 IP,这使其非常适合网络抓取。如果您需要维护会话,您可以使用他们的粘性 IP进行 30 分钟。
Bright Data
- IP 池大小:超过 7200 万
- 地点:世界上所有国家
- 允许并发:无限制
- 允许带宽: 40GB 起
- 费用: 40GB 每月 500 美元起
Bright Data可以说是最好的住宅代理提供商,在 Brightdata的住宅 IP 池中拥有超过 7200 万个住宅 IP,使其成为市场上最大的住宅代理网络之一。它拥有市场上最好的会话控制系统之一,并允许您在会话管理方面进行全面控制。
Brightdata在所有国家和世界上大多数城市都有代理。它与所有复杂的网站兼容,我们的抓取性能测试证明它是市场上最好的网络抓取代理之一。它的 IP 轮换系统是一流的,并提供了许多高级设置。
Soax
- IP池规模:超过500万
- 地点:全球 100 多个地点
- 允许并发:无限制
- 允许带宽: 5GB 起
- 费用: 5GB 每月 75 美元起
Soax 住宅代理服务最近才成立,但已发展成为市场上最好的住宅代理提供商之一。如果您正在寻找用于网络抓取的代理,那么 Soax 住宅代理网络可供您使用。
他们拥有一个代理池,其中包含来自全球 100 多个国家/地区的超过 500 万个住宅 IPS。他们的代理是旋转代理,可以更改分配给您的 IP 地址。它的代理与大多数自动化机器人兼容,包括 SEO 工具。
在定价方面,Soax 可以说与 Smartproxy 的定价相同——只需 75 美元即可上手。
IPRoyal
- IP 池大小——超过 200 万个 IP 地址
- 地点– 全球超过 195 个国家
- 允许并发– 无限制
- 允许带宽– 1GB 起
- 成本——每 1GB 7 美元起
与许多其他住宅代理提供商不同,IPRoyal 提供从真实用户和互联网服务提供商那里获得的真正真实的住宅代理。它们中的每一个都专用于单个用户,并以合乎道德和透明的方式获得。这使得它们对于网络抓取非常可靠和安全。
IPRoyal 的住宅代理计划允许您在每次请求后获得一个新的 IP。如果您需要更长时间地维护您的 IP,您可以使用最长 24 小时的粘性会话来实现。它们的无限并发会话、HTTP(S) 和 SOCKS5 支持、永不过期流量以及城市/州定位在网络抓取中非常有价值。
Proxyrack
- IP池大小:超过200万
- 地点: 140 个国家
- 允许并发:无限制
- 费用:每月 250 个代理 120 美元
Proxyrack 是另一个住宅代理提供商,您可以使用他们的代理进行网络抓取。虽然它的池中有超过 200 万个住宅 IP,但随时只有 500,000 多一点可供使用。你会同意我的看法,除非你在非常大的范围内进行抓取,否则这个数量的代理就足够你使用了。
在定价方面,Proxyrack 可以说是口袋友好的,你可以花 15 美元购买一个端口。它的定价不像上述两种情况那样基于带宽。他们有旋转代理和粘性 IP。
用于 Web 抓取的数据中心代理
数据中心代理也可用于网络抓取。但是在使用它们时,您必须小心谨慎并有选择性。它们不像住宅代理那样难以检测,因此很容易被阻止。
同样重要的是,它们不适用于某些复杂的网站,例如Instagram。市场上没有很多数据中心代理池,因为我们有很多住宅 IP。下面是现在流行的。
Proxy-Seller
- IP 池大小:未公开
- 地点:支持 40 多个国家/地区
- 允许并发:无限制
- 允许带宽:无限制
- 成本:每个代理每月 1.77 美元起
在我们用于网络抓取的最佳数据中心代理列表中,第二个是 Proxy-Seller。该服务提供垃圾邮件评分较低的数据中心 IP。这意味着除非您给网站一个理由,否则默认情况下您不会被阻止。该服务支持大约 400 到 800 个子网,这使得它对于子网禁令来说是多余的。
在位置覆盖方面,捕获了 30 多个国家/地区,这使其成为位置覆盖方面最好的国家之一。与其他数据中心代理一样,您必须购买每个 IP。但是,价格便宜,特别是如果您批量购买,这使其成为网络抓取代理的理想选择。
Smartproxy 数据中心代理
- IP 池大小: 100K 美国和欧盟 IP,400 个子网
- 地点: 美国和欧盟
- 允许并发:无限制
- 费用: 50GB 每月 30 美元起
Smartproxy 传统上以提供住宅代理而闻名。虽然他们已被证明是该市场中不可忽视的力量,但他们也涉足数据中心代理市场并提供可用于网络抓取的轮换数据中心代理。
他们使用 IP 地址的数据中心已经过审查和测试,以确保只使用高质量的数据中心 IP。他们目前拥有超过 10 万个数据中心 IP 供您使用。但是,该池对您来说不是私有的——您必须与其他用户共享。
幸运的是,在任何给定时间每个 IP 的用户数量都很少,因此可以实现最佳性能。与提供无限带宽的其他数据中心代理不同,带宽根据您订阅的计划受到限制。最低货币承诺是 30 美元,这会给你 50GB,你会同意我的观点,考虑到你可以访问 100K IP,它很便宜。支持美国和欧盟位置。
Rayoby
- 地点: 9个国家
- 允许并发:无限制
- 允许带宽:无限制
- 费用:每月 11 美元起
与列表中的其他数据中心代理一样,Rayobyte 非常便宜。有趣的是,他们的代理具有无限带宽,允许您自由创建您想要创建的线程数。Rayobyte 由Blazing SEO LLC开发,这是一家对服务器、VPS 和代理感兴趣的网络服务公司。他们的代理非常适合网络抓取,尤其是在 SEO 领域,这是其开发人员关注的焦点。
Stormproxies
- IP 池大小: 70,000
- 地点:美国、欧盟地区和其他一些地方
- 允许并发:从 40 开始
- 费用: 5 个端口每月 50 美元起
就其代理适用的用例而言,Stormproxies是最多元化的代理提供商之一。他们的数据中心代理池包含超过 70,000 个 IP,并根据线程定价;那是允许的并发请求数。
它的定价实际上很便宜,但地点数量有限,因为它只有美国和欧盟代理以及其他几个地点。在 IP 轮换方面,Stormproxies 数据中心池支持基于会话的轮换和基于时间的轮换。
Webshare
- 地点:全球
- 允许并发: 500 个线程
- 允许带宽:无限制
- 费用:每月 5 个端口 5.44 美元起
Webshare 是一个数据中心代理提供商,为用户提供免费代理。除了他们的免费代理外,他们还提供了更快、更优秀且非常适合网络抓取的付费代理。如果您一直在阅读我们的文章,我们不支持使用免费代理,因为它们通常带有一些不利条款。Webshare 没有高轮换代理,他们的 IP 轮换系统基于时间工作,可以是 5 分钟或 1 小时。
最佳抓取代理 API
<聘请他人代办费用较高>
上面讨论的代理适用于那些知道如何管理代理和浏览器的人。如果您是代理的新手并且不想费心管理它,您可以将代理管理外包给Scraping proxy API providers。但是,您只需要知道您将支付更多费用,这在某些情况下可以被称为浪费。
Smartproxy SERP 抓取 API
- 代理池大小:数据中心和住宅 IP 池
- 支持地理定位:全球位置
- 成本: 13,000 个请求起价为 50 美元
- 免费试用: 3 天退款保证
- 特殊功能:解析 JSON & 100% 成功率
Smartproxy 的 SERP Scraping API 让您以 100% 的比率定位 Google、Yandex、百度、Bing 和其他搜索引擎。这个全栈 SERP API 涉及代理网络、抓取器和数据解析器,因此您不必构建自定义解决方案或投资单独的工具,这是一个易于使用的数据提取工具,可确保从原始 HTML 或解析后的 JSON 格式的搜索引擎。
这个全栈抓取 API 真正令人印象深刻的是 Smartproxy 将其先进的旋转网络与 40+ 百万个住宅和数据中心 IP 结合在一起。如果出现问题,不用担心——您只需为成功的请求付费。您可以以每月 50 美元 + 增值税的价格购买此产品。
Apify Proxy
- 代理池大小:数据中心和住宅 IP 池
- 支持地理定位:不具体
- 成本: 200,000 个请求起价为 99 美元
- 免费试用:每月 5 美元的平台积分和代理 API 请求的 30 天试用
- 特殊功能:允许下载 Google 搜索结果页面
Apify Proxy 拥有数以万计的高质量数据中心和住宅代理。代理服务可以在 Apify 平台上使用,也可以在您自己的服务器上使用。其独特的谷歌 SERP 代理还使您能够使用专门的服务下载谷歌搜索引擎或谷歌购物结果页面。Apify Proxy 支持 HTTPS、地理位置定位和基于机器学习的智能 IP 轮换。
Apify 使用的代理专为网络抓取和数据提取而设计,并针对带宽、可扩展性进行了优化,并在完全的地理自由和灵活的会话管理之间找到了完美的最佳平衡。
ScrapingBee
- 代理池大小:未披露
- 支持地理定位:是
- 成本: 250,000 API 学分的起价为 29 美元
- 免费试用: 1,000 次 API 调用
- 特殊功能:处理用于 JavaScript 渲染的无头浏览器
ScrapingBee 是一个网络抓取 API,可以帮助您处理Chrome 等无头浏览器,还可以为您处理代理。就像 Crawlera 一样,它有一个代理池,可以进行自动代理轮换,还支持地理定位。
使用 ScrapingBee,您不必担心渲染 JavaScript,因为它可以在无头模式下使用最新版本的 Chrome 来做到这一点。ScrapingBee 非常适合网络抓取和SEO以及潜在客户生成等任务。
Scraper API
- 代理池大小:超过4000 万
- 支持地理定位:取决于选择的计划
- 成本: 250,000 次 API 调用起价为 29 美元
- 免费试用: 1,000 次 API 调用
- 特殊功能:解决验证码和处理浏览器
看名字就知道是一款网页抓取工具。该代理 API 提供商拥有超过 4000 万个 IP 的代理池。他们的池混合了数据中心代理、住宅代理和移动代理。我喜欢 Scraper API 的一件事是它提供了解决验证码的支持。除此之外,它还支持处理无头浏览器,让您享受无限带宽。它还支持地理定位。
Zyte(Crawlera)
- 代理池大小:不具体——数万
- 支持地理定位:是
- 成本: 200,000 个请求起价为 99 美元
- 免费试用: 14 天内 10,000 个请求
- 特殊功能:避免验证码
Zyte 以前称为Crawlera,是用于网络抓取的最流行的代理 API 之一。它有自己的代理池,用于帮助您逃避检测和禁止。虽然它没有验证码求解器,但它倾向于完全避免它的出现。
关于 Crawlera 和其他代理 API 的一件有趣的事情是定价是基于请求的数量,你只会为成功的请求付费。只需将 Crawlera 视为一个智能下载器,您可以在其中发送 API 请求,并获得您请求的页面。
Web 抓取代理常见问题解答
内部代理与外包代理
最好的代理类型是内部代理,因为它们可以确保数据隐私,您可以根据自己的具体要求对其进行微调。然而,即使对于大公司来说,在内部建立代理也不是优先事项。随之而来的成本和工程要求使得开发它不是一个好主意。使用上述现成的代理解决方案是可行的方法。只要确保您使用的是确保数据隐私的工具即可。
我应该使用代理还是代理 API?
他们两个实现相同的结果,但代理 API 更昂贵,因为它们可以帮助您处理代理管理问题并帮助处理验证码。
但是,您必须知道代理 API 是为没有经验的网络爬虫和那些没有准备好管理代理的人准备的。如果您准备好了,最好使用代理,这样可以节省使用代理 API 时可能会产生的成本。
哪些代理最适合网络抓取?
这取决于您要从中抓取的站点。但一般来说,无法检测和无法阻止的代理是最好的。它们还必须快速、安全并维护数据隐私。所有高级代理提供商都有具有这些品质的代理,一般来说,我们会投票给住宅代理是网络抓取的最佳代理。
结 论
代理在网络抓取业务中非常重要,因为它们处理 IP 禁令和访问地理定位网络内容的问题。但是,并非所有代理都适用于网络抓取项目。根据您的项目要求、预算和经验,您可以从列表中获得适用于您的项目的代理或代理 API。