您不希望在收集数据或抓取网页时禁止代理,对吗?如何检测您的代理IP,我们是否可以避免代理被标记?当然!

几乎每当您使用大量数量的高质量代理时,您之所以这样做,是因为您想使用某种机器人。您正在收集数据,正在执行批量搜索查询或类似的操作。

当然,这完全是合法的。如果您尝试将代理列表和一组机器人用于DDoS某人,那就大不相同了,但这不是一个好主意。一方面,这将是非常平庸的,无效的DDOS。您确实需要一个僵尸网络。

无论如何,关键是,您不希望在使用代理收集数据的过程中禁用代理。您的数据最终将不完整,并且在数据频繁更改的情况下,您将最终获得无法使用的表。当您设置新的代理以收集其余代理时,第一个块可能已更改。

并非总是如此。不过,当代理IP被禁止进入您的视野时,充其量还是最令人讨厌的事情。它阻止了任务的顺利进行,将您拖出修复该任务的其他工作,并且浪费了时间。那么,为什么不采取措施避免一开始就禁止这些IP?

要了解禁止禁令,您首先需要了解如何检测代理IP。考虑一下,对于Google或Amazon这样的网站,最终看起来像一个危险信号。

  •  一堆类似的查询同时出现。
  •  来自相同标识的浏览器的许多类似查询。
  •  一堆类似的查询来自无关的地理位置。
  •  使用高风险术语搜索的一堆查询。

这些是对IP进行标记的操作,但它们也是您可能要执行的操作。

如果您想抓取Google搜索结果的前10页,以分析某个搜索字词的博客文章标题(全部都在一个网站上),则需要使用site:运算符,对吗?像这样的运营商最终可能会触发验证码,而失败会导致IP被阻止。

让我们谈谈避免被标记的各种步骤,对吧?


为每个IP设置唯一的用户代理

用户代理是数据字符串(标头)的一部分,它伴随着从计算机到您访问的网站服务器的通信。

用户代理包含一些有关您的配置的匿名信息;本质上,只是您的语言和所运行的浏览器版本。它们通常还包括Windows版本,有时还包括其他数据。

使用英语进行最新Chrome安装的用户将与
使用相同软件的其他用户具有相同的用户代理数据。使用相同版本但使用法语的Chrome浏览器的用户代理会有所不同。

用户代理的问题在于,无论它是多么匿名,它都是一条标识性信息。如果Google在同一秒执行10次搜索查询(全部来自相同的两次更新版本的Firefox),并且都在寻找相同类型的信息,则可以合理地假设这10条查询属于10条查询中的一部分机器人。

用户代理信息可能因连接而异,并且因机器人而异。您可以亲自对其进行更改,以将每个代理配置为使用不同的用户代理。这进一步混淆了它们之间的连接,因此看起来更像合法流量。您可以避免使用模式的次数越多,您的状况就越好。

电子前沿基金会对如何真正识别这种“匿名”信息进行了有趣的研究。您可以在此处的帖子中看到一些用户代理字符串示例以及它们传达的信息类型。


避免高风险地理位置

IP地址就是这样。地址。它们是有关接收到的连接来源的标识信息。我可以仅通过IP地址来判断用户来自哪个国家。

现在,很明显,代理服务器对此进行了过滤。通过实质上成为通信的中间人,它可以改变您的IP。我可以在加利福尼亚州,向纽约发送连接,但是如果我在阿尔及利亚使用代理IP,则该纽约的服务器将看到来自阿尔及利亚的流量。他们看不到代理服务器之外的内容,因此看不到我实际上在加利福尼亚。

现在,阿尔及利亚似乎是traffic的一个奇怪来源,而且确实如此。从代理位置到欺诈,来自陌生位置的流量是许多事物的警告信号。如果您曾经打过一个自称来自您银行的电话,但另一端是尼日利亚王子,那么您就会知道这种欺骗性的沟通有多大的问题。

解决此问题的方法是在非高风险国家/地区使用高质量的代理。抛弃俄罗斯,乌克兰和中东的代理人。

相反,选择倾向于源自北美或西欧的代理。与来自俄罗斯的人相比,这些地区更有可能浏览本地站点。

始终尝试考虑您要定位的网站的服务范围。如果您尝试从Google收集数据,请尝试避免使用具有自己的Google版本的位置的代理。

是的,很多人仍然会使用Google的主要.com版本而不是非美国版本,但这仍然是一个警告信号。多数情况下,仅此一项就不会使您的代理被禁止,但与其他信号一起使用可能是决定性因素。


设置本机引荐来源

引荐来源网址是另一种信息,但同样,您提供给该站点的另一条信息可以接收您的业务。与上述内容一样,您发送的任何信息都可以用来识别您的工作。

这篇文章有用吗?

点击星号为它评分!

平均评分 / 5. 投票数:

到目前为止还没有投票!成为第一位评论此文章。

No more articles