对于新手来说,进入代理的奇妙世界似乎是一项艰巨的任务。在线快速查找“代理术语和定义”将显示多种来源,并且经常会出现相互矛盾的信息。

您会在网上找到有关代理的冲突信息,因为使用代理的核心是利益冲突。有些人仅将它们与黑帽网络实践联系在一起,而另一些人则合法地使用代理来实现有价值,合法和合乎道德的业务目标。

在这种情况下,你能做的最好的事情就是学习这个行业使用的术语和定义。只有知情的用户才能从代理术语中切入问题的核心。


代理术语和定义的完整指南

以下代理术语表旨在对代理技术表达出最初兴趣的人们。它包含用日常语言定义的简单和高级术语,您无需四年的计算机科学学位就可以理解:


1. IP地址

您的IP地址是唯一标识网络设备(例如计算机或智能手机)的代码。通常用类比来形容它,就像是实际的街道地址一样,但是有一个重要的区别–因为代码是逻辑的(不像街道地址那样随意),所以可以更改。使用WhatIsMyIPAddress查找您现在所拥有的。

由于您的IP地址是网络上设备的主要标识符,因此代理的主要工作是屏蔽该IP地址并将其替换为另一个IP地址。有很多方法可以做到这一点,因此有很多不同类型的代理


2.端口

如果IP地址就像一个住宅邮件地址,那么端口更像是一个单独的邮箱-除非每个地址都有成千上万个单独的邮箱。本质上,端口传输特定类型的信息,并且以这种方式进行组织:无论您将数据发送到哪里,都可以对数据进行有效地分类。

例如,端口25是电子邮件的默认传出端口。您的计算机使用此端口系统(有成千上万个)来确定它正在发送或接收的数据类型-这就是电子邮件最终如何进入收件箱而不是例如在HTTP Web浏览器(使用port80)上的结果。


3.Web抓取工具

Web抓取是从在线资源(通常是网站或档案库)收集数据的自动化过程。由于网页通常是为人类用户制作的,因此收集大量数据并不总是容易或可行的。Web scrapers 是通常使用代理将其自动化的工具。

抓取一个网站涉及要求其服务器非常努力地提供所请求的所有数据。因此,大多数管理员试图限制Web爬虫自动收集数据的能力。代理是单向的,用户可以绕过这些限制。


4. Selenium

Selenium是网络抓取工具用来模仿人类最终用户的活动,同时在网站上抓取代理背后数据的工具。它会自动执行Web浏览器命令,以便您尝试访问的网站相信它们是对真实人类的响应。

与代理一起使用时,Selenium允许用户以安全,有效的方式匿名收集来自网站的数据。您可以使用代理和Web浏览器发出请求,而不是直接访问网站。


5.透明代理

大多数用户将立即熟悉的代理类型是透明代理。当您在本地咖啡店登录Internet时,咖啡店的网络要求您同意其条款和条件,这将使您通过透明代理。

之所以称为透明代理,是因为您(用户)通常不知道它正在工作。它不会试图隐藏您的身份,而只是处理对外部网络的请求。限制员工访问禁止网站的公司代理也是透明的代理。


6.住宅代理

住宅代理为您的IP地址提供一对一代理。这是使用代理技术可获得的最基本的匿名性。

问题是那些真正的住宅代理  很难获得。实际上,购买住宅代理时,您很可能在数据中心中购买了虚拟代理地址,这可以使网站管理员将您的活动与该网络上发生的其他事件相关联。

相关:  住宅和数据中心代理之间的区别


7.共享代理

共享代理与住宅代理相似,不同之处在于,共享代理连接不是提供一对一的代理服务,而是与许多其他用户共享代理连接。这使一群人分担维护代理服务器本身的成本,但同时在他们之间创建了任何人都可以追踪的直接关系。

网上有许多免费的共享代理服务,但是这些服务功能有限,速度慢且几乎没有匿名性,这使其仅在非常狭窄的用途中有用。


8.专用代理

共享代理是任何数量的用户都可以共享的开放组,而专用代理则是封闭的。您是唯一可以访问和使用您的专用代理的人。

这提供了适用于高影响代理任务和业务使用的广泛好处。它保证了安全性,匿名性和速度。

确保在购买专用代理之前做你的研究,因为许多供应商会宣传他们的代理是专用的,我见过他们实际上共享。不要让任何提供商告诉你共享代理是一个行业标准——那是完全的谎言。


9.反向连接代理

反向连接代理使用户能够将单个设备连接到多个不同的住宅代理。这具有实际的好处,即允许用户从各种不同的IP地址访问网站-使一个用户的活动看起来像多个无关的查询。

尽管这两个术语是不同的,但这些代理在功能上与旋转ip并无区别。使用这些代理的主要缺点是确保各个IP都是高质量的-即尚未列入黑名单或以其他方式受到损害。反向连接和旋转IP永远不会专用于一个用户,因为多个用户将连接到同一共享池。


10.蜜罐程序

蜜罐是由黑客和组织设置的陷阱,用来诱使用户通过其代理服务发送敏感数据。蜜罐所有者检查,分析和使用通过代理系统发送的数据。

一种常见的情况是使用免费代理绕过公司防火墙并登录Facebook或Instagram,而一周后才发现有人使用您的密码登录并控制了您的帐户。在这种情况下,免费代理实际上是社交媒体黑客的蜜罐。


11. ASN

您的自主系统号(ASN)指的是标识一组IP地址的特定数字。您可以将自治系统看作是Internet上数据标识层次结构的上一层。不同的国家和isp有不同的ASNs。


12.子网

子网是位于单个统一网络上的一小组较小的独立设备标识。例如,在公司办公大楼中,多个设备可能共享相同的IP地址,并且具有不同的子网,从而使它们彼此不同且井井有条。


13. HTTP /SOCKS

超文本传输协议  是互联网标准代理协议。当您输入网址时,网址前面带有“ http://”,这意味着您和托管网站的服务器都在使用此协议进行通信。

在代理使用方面,HTTP代理具有从网站获取数据的最大功能,因为它们是在同一框架内构建的。SOCKS协议相似,但是使用的是更基本的框架,具有安全性和兼容性优势。


14. VPS

当Internet托管服务销售虚拟专用服务器VPS)时,它允许根据其用户需求访问现有服务器的特定组件。这可能对应或可能不对应于特定的物理设备-因为服务器是虚拟的,所以不必这样做。

这在销售专用服务器使用和共享服务器使用之间架起了桥梁。共享服务器将多个用户填充到一个物理设备中,而专用服务器是私有的一对一设备。VPS提供了隐私,而不强迫用户适应特定的物理设备。


15.代理网关

代理网关是代理用户创建的一种工具,用于识别其活动对其他Web服务器的外观。它使代理用户可以看到常规网站在访问时会看到的内容,而不会在此过程中损害代理本身。

使用代理网关,您可以在实际尝试访问其他网站之前检查您的网络活动是否真正匿名


16.僵尸网络

如果您想知道为什么网络管理员如此不愿让代理用户访问其网站,僵尸网络就是答案。僵尸网络是在未经授权访问的单个所有者的控制下,劫持或非法获取的设备的集合。它们通常用于黑客入侵网站,执行DDOS攻击和实施网络犯罪。注意:这些通常与合法的代理服务器网络混淆。

从功能上讲,网络管理员无法可靠地分辨出合法使用代理进行数据收集与非法僵尸网络活动之间的区别。这就是为什么依靠网络抓取来收集数据的营销人员,新闻工作者和数据科学家必须采取许多步骤来使用代理隐藏其活动的原因。