当您要实现软件和连接自动化时,代理连接的世界可能会非常复杂。但是,如果使用多个代理来运行类似于以谷歌为目标的Scrapebox之类的东西,会怎么样呢?谷非常擅长检测机器人并阻止它们的踪迹。

您所担心的也许比您可能意识到的要多得多。您知道SOCKS4和SOCKS5之间的区别吗?您知道转发代理流量需要哪些端口吗?您知道住宅IP的含义吗?下面我将为您解决这些疑惑。

我也经常被问到有关各个软件的问题。“ 应用程序X是否可以与您的代理一起使用?”一般来说,答案是肯定的,但我宁愿向您告知为什么会这样,而不是让您盲目接受。因此,首先,我将介绍代理可能遇到的不同重要因素及其含义,然后再介绍可能与代理一起使用的一些最受欢迎的应用程序以及它们的要求。

就像我说的,我要做的第一件事是遍历在处理代理连接并使用它们进行出价时可能会发现的常见方面。其中一些可能会有点技术性,因此,如果您要寻找的只是应用程序兼容性,请随时跳到下一部分。


HTTP与SOCKS4与SOCKS5

这是第一个,而且可能是最重要的兼容性问题。代理可以使用的连接类型。SOCKS是默认的代理连接类型。使用SOCKS的代理服务器位于客户端和服务器目标之间的中间位置。例如,如果您使用的是Scrapebox之类的产品,它将位于您和Google之间。SOCKS本身代表SOCKet Secure。

SOCKS4和SOCKS5之间的区别在于SOCKS5包括身份验证。对于SOCKS4代理,不能使用登录名和密码来使用它,也不能在目标服务器上使用身份验证信息。换句话说,如果您要在需要登录才能访问的页面上抓取数据,则需要使用SOCKS5代理服务器。

那么HTTP呢?HTTP更专业,因此受到更多限制。您可能会将HTTP识别为公共URL的开头。这是因为它是用于标准Web流量的通用协议。

SOCKS是用于服务器到服务器通信的协议,并且不解释数据。它只是从A点到B点一直传递到C点。

但是,B点的HTTP连接有机会解释和转发流量。这对于简化抓取的某些方面很有用。例如,如果您要抓取Amazon流量,则HTTP连接能够识别和缓存常见元素,以最大程度地减少您的抓取工具需要从Amazon本身下载的内容。

也就是说,HTTP连接仅限于HTTP通信。如果您尝试访问不允许HTTP连接的服务器,但是您的软件要求您使用HTTP连接,那么您将无法首先建立连接。


通讯所需的端口

端口是互联网通信的另一个组成部分,除非有必要将它们弄乱,否则大多数人都会忽略它们。它们本质上就像无线电频道频率或电视频道一样。另一个比喻可能是公寓楼。它作为一个街道地址,即IP地址。端口将指定公寓本身。

通常使用不同的端口来区分用于建立连接的服务。

  • 端口21通常用于FTP连接
  • 端口22用于SSH连接
  • 端口53用于DNS服务
  • 端口80几乎总是专门用于HTTP通信,这也是对代理的限制。

如果您的代理仅支持HTTP,则它将限制为端口80。如果代理使用SOCKS,则它通常可以使用任何端口,因此您必须根据目标的要求调整端口。


安全传输数据

这是您可能对代理服务器有的另一个担忧,但与上面的SOCKS和Port因素无关。一切都是关于通过代理连接的安全性。

很多公共代理人根本不安全。它们通过东欧服务器进行路由,这些服务器将广告注入流量或通过叠加层进行路由。您永远不会知道该服务器上可能运行哪种软件来监听正在建立的连接和正在发送的数据。

相比之下,私有代理往往具有更高的安全性,因为代理服务器本身位于更安全的位置。

它们还为更高级的用户而设计,这些用户会不屑一顾其数据被监听。您可能还需要安全的连接才能访问某些网站,尤其是通过SCOKS5的需要身份验证的网站。始终避免将敏感的登录信息放入不安全的代理中。


匿名与否

匿名性问题是代理连接概念的核心问题。很多人使用代理进行简单的Web浏览,因为他们不希望自己的家庭IP地址与他们的浏览习惯相关联。他们可能只是不想被Facebook,Google或大型广告网络之类的大型实体跟踪。

或者,他们可能在做一些非法的或实际上是非法的事情,并想躲避执法部门或国家安全局。错误的安全感来自于感知的匿名性,其本身来自隐藏在代理之后使您无法追踪的想法。

代理服务器具有不同的匿名级别。其中一些将转发您通常转发的几乎所有常规信息,并且实际上根本不为您提供任何匿名性。他们会告诉目标服务器其IP地址以进行访问。 除非有人要跟踪您,否则不会这样,他们可以在那里找到您的真实IP。

更高的安全级别不会转发太多信息。它不会透露您的IP地址,但会透露它们是代理连接。目标服务器将知道有人正在通过代理进行连接,但不会知道原始IP地址。

最高级别的匿名性来自模仿真实连接的顶级代理。这些甚至都没有显示它们是代理,尽管有时用户行为会放弃它们。


能够传递搜索引擎块

这是人们称呼代理服务器为“ Google安全”的一个因素,它的唯一含义是不知道代理的IP地址是代理服务器,并且过去从未被滥用。Google采取了积极的反代理和反僵尸措施,如果检测到滥用和恶意攻击,则会使您的连接超时。

Google可以安全使用的代理不一定是代理本身的因素。通常更多是用户行为问题。如果您从一个IP地址发出许多类似的重复请求,则它看起来像是一个机器人。如果您要更改这些请求的IP地址,并更改它们的时间安排,则它看起来更像是自然用户。这就是为什么您应该使用代理列表而不是单个代理的原因,并且为什么应该设置延迟和异步连接。


IP位置

最后一个因素只是代理服务器的来源问题。为此有两个主要类别。

第一类是地理。如果您尝试登录以美国为中心的网站,那么使用位于乌克兰的代理服务器可能不是一个好主意。许多经常被抓取者攻击的网站会屏蔽外国ip,或者将其重新路由到该网站的外国版本;对你的需要没有价值。

使用其他类别。IP是来自数据中心,还是来自居民区?这可能是此列表上最重要的因素。许多大型实体,例如Google,Amazon和电子商务网站,都会检测何时从数据中心建立连接。这是他们检测代理和抓取滥用的一种方法。从住宅IP位置进来总是更好,因为它更像是他们的典型用户行为。

使用另一个类别。IP是来自数据中心,还是来自居民区?这可能是这个列表中最重要的因素。许多大型实体,如谷歌、Amazon和电子商务网站,将检测何时从数据中心进行连接。这是他们检测代理和抓取滥用的一种方式。从本地IP地址进入总是更好的,因为这更像他们的典型用户行为。


应用及其兼容性

您可能想与代理一起使用一堆常见的应用程序或软件。他们通常会以某种形式自动抓取数据,尽管其他人会批量提交数据。通常,网站不喜欢机器人执行此类操作,因为这是垃圾邮件和伪造帐户的产生方式。我不是来评判你的用处的;我相信你知道自己在做什么。

我也不负责你如何选择使用代理。我所做的只是回顾一些常见的程序,然后告诉你它们的要求。作为免责声明,我并不一定支持或宽恕黑帽使用下列应用程序;你做什么由你自己决定。

Scrapebox

这可能是黑白帽子操作中使用的最强大的工具之一,这是一个非常强大的数据收集器。戴黑帽的SEO和财富500强的公司都在使用它。多线程操作支持许多连接,只要您正确使用它,它就对Google安全。当然,可以根据您的用法禁止使用。这就是为什么您需要大量代理,异步和各种请求以及提交延迟的原因。请谨慎使用。

  • 同时支持HTTP和SOCKS连接。
  • 支持私有和公共代理,但首选私有代理。
  • 强烈建议您使用较大的旋转代理列表,而不要使用简短的静态列表。

XRumer

这是构建SEO应用程序的另一个链接,该应用程序主要关注具有某些剩余价值的Web论坛。它还针对博客评论,日记留言簿,链接目录,社交网络,社交书签站点等。它包括许多常见系统的验证码绕过,包括文本问答系统。为了避免使用垃圾邮件标签,它会尝试根据目标论坛或论坛的主题来自定义帖子。

  • 同时支持HTTP和SOCKS连接。
  • 首选私有代理,以避免尝试使用以前被禁止的IP地址。

SEnuke TNG

SEnuke TNG是为SEO设计的较旧程序,它用作SEnukeX(更高级的版本)的基础。这个新版本是从头开始创建的,它包括更多功能,包括基本教程,流程图和计划数周的计划。通过尽可能自然地展示,它努力保持Google的优势。该应用程序具有14天的试用期和30天的退款保证。

  • 仅需要HTTP连接。
  • 首选私有代理,以避免公共代理服务器的常见问题。

Tweet Attacks

Tweet Attacks Pro 4(Tweet Attacks的当前版本)是一款软件,可在任何给定时间管理多达数千个Twitter帐户。它允许自动关注,取消关注,返回关注,推文,转发,回复,喜欢,删除,以及实际上您可能希望通过Twitter进行的任何其他操作。它还允许个人定制这些Twitter账户,以消除运行模拟账户网络时的“鸡蛋”问题。费用取决于你喜欢的程序层次。

  • 由于Twitter的身份验证要求,仅需要HTTP连接。
  • 支持私人和公共代理,尽管最好使用私人代理来避免检测。
  • 建议您使用大量代理来管理帐户,尽管您不必为每个帐户都拥有专用的代理。

Ticketmaster

这是Ticketmaster购票机器人的一个一般类别。它们种类繁多,包括名为TicketMaster、TicketMaster Spinner和TicketBots。所有这些都有他们共同的需求,因为他们访问相同的站点有相同的目标。购买大量的演出门票,然后转售门票获利。这种倒卖门票的行为并不违法,除非是在场馆内进行。然而,有些州可能对门票转售有更严格的法律。

  • 需要HTTP连接到Ticketmaster网站以进行身份​​验证和显示。
  • 首选住宅IP地址,因为Ticketmaster容易撤销对数据中心IP和其他发出机器人信号的非本机IP的销售。

Twitter Account Creation

要使用上述Twitter管理器之类的机器人,您需要批量创建Twitter帐户。有许多不同的机器人允许这样做,例如Twitter Mass Account Maker或Twitter Account Creator Bot。像Ticketmaster机器人一样,这些机器人都有类似的要求。

  • 需要HTTP连接以确保对Twitter服务器的真实性和登录身份验证。
  • 首选住宅IP地址,通常是私有而不是公共地址,尽管由于Twitter的代理机构和公司使用情况,偶尔的数据中心IP也并不意外。

Facebook Account Creation

这与上面列出的Twitter机器人在很多方面都是相同的。

一些常见的Facebook帐户机器人包括Facebook Account Creator和FBDevil。

  • 需要HTTP连接以确保对Facebook服务器的真实性和登录身份验证。
  • 首选住宅IP地址,并且通常首选私有地址而不是公共地址。

Email Account Creation

电子邮件帐户可以与社交个人资料以相同的方式进行批量创建,尽管机器人的数量与电子邮件提供商的数量一样多。每个提供商都不同,每个机器人都不同,因此在购买或使用代理列表之前,请确保满足要求。

通常,要求与上述社会要求相同:HTTP连接和住宅IP。不过,某些电子邮件系统可以使用其他连接或数据中心IP