Akamai的反机器人系统是否阻止了您的机器人?在您学会如何绕过它之前,您将无法在受其保护的网站上执行您的自动化任务。下面是一篇关于如何绕过Akamai的文章。

诸如Akamai这样的机器人探测器可能能够分辨出哪个机器人是好的,哪个是坏的。除其他许多原因外,这就是为什么网站所有者将这个内容分发网络(CDN)放在那里,不仅确保快速分发其内容,而且还能抵御威胁。

作为一个出于各种原因在互联网上搜刮的研究人员,你的行为,可能表明你是通过使用机器人来提取数据的,这很可能会让你被封锁。你的意图可能是有效和真实的,但机器人检测器并不知道这一点。

最大的问题是,在您进行搜刮或抓取时,您如何超越这个反机器人探测器?在这篇文章中,我们强调了你可以采取的几种行动,以绕过这个复杂的CDN和网络安全工具,即Akamai。但是,在我们开始一个接一个地检查它们之前,让我们先了解一下Akamai和它的工作原理。


什么是Akamai?

Akamai Technology成立于1998年,是一家领先的内容分发网络。它为企业提供媒体和软件分发、云和网络安全服务。Akamai在全球至少135个国家开展业务,在世界各地拥有超过10万台服务器,致力于为各组织分发快速和高质量的内容。

它有助于保障这些组织的网络和云计算业务。它还充当了互联网监督者的角色,不断寻找黑客、坏机器人和被限制访问该组织网站的用户。

除了保护组织的网站免受网络攻击外,它还能加速向最终用户交付内容,优化组织的上传时间。它作为终端用户和组织之间的中介,将延迟的差距减少到最低限度。

Akamai为任何类型的设备优化网站内容,从而为符合条件的用户提供流畅的访问。让Akamai更出色的是,不需要额外的硬件或软件。它有助于卸载现有的基础设施,而且扩展性更好。

由于一个组织拥有庞大的客户群,可能会出现大量的请求,Akamai准备解决数据的集群化问题。它通过优化现有的服务器来实现这一目标,以加快流量,同时,涉足可能存在的任何威胁。


Akamai是如何工作的?

您是否想知道为什么有些网站处理请求的速度很慢?那是因为他们没有采用Akamai的技术如果没有Akamai技术,当客户试图访问一个接受来自世界各地的客户的网站时,比如说,他们会因为网站的延迟而感到沮丧。

这是因为客户的请求必须经过许多国家才能送到公司的服务器上。漫长而累人的过程是造成延误的原因。而这样一来,大企业就失去了大量的客户和资金。

没有Akamai的公司服务器只能处理特定数量的请求。当这个请求超过它的极限时,它的效率就会减慢,可以说这对大企业是不利的。Akamai在全球拥有超过100,000(十万)个服务器。这意味着,有一个离客户最近的Akamai服务器。因此,无论何时他们发送请求,他们的设备都会与离他们最近的Akamai服务器通信。

反过来,该服务器会连接到离其目标网站最近的Akamai服务器,获取信息,并在几秒钟内将其发回给客户。除了比传统方式更快之外,它还为任何地方的任何设备缓存和优化了视频等请求。而且,它也是安全的。

通常,在DDoS(分布式拒绝服务)攻击中,一个公司的服务器受到来自黑客和其他恶意的互联网罪犯的许多威胁。这将导致他们的服务器瘫痪。但有了Akamai,该公司的服务器就不会受到攻击,因为全球各地的众多Akamai服务器将代替他们承受攻击。

少数受影响的Akamai服务器可能会出现故障,但其余未受影响的服务器将接管,直到受影响的服务器恢复正常。这样一来,公司的服务器就不会受到影响,而且很安全。因此,该公司得到了快乐客户的好评,并赚取了更多的钱。


如何绕过Akamai

一些互联网活动需要使用机器人,以超出人类能力的惊人速度发送多个请求。这可能导致用户访问网站时被网站预设的反机器人检测机制(也称为网络应用防火墙(WAF))阻断。

这可能不是直接针对那些将这些机器人用于各种真正目的的个人,如研究、学术、比较等。但网站的反机器人系统可能很难区分好的和坏的机器人。对于研究、学术、比较以及其他明确的搜刮或抓取原因,我们将在下面研究绕过Akamai的各种方法。

1.尊重Robots.txt

Robots.txt文件是一套针对机器人的规则或指示。许多网站都有自己的机器人规则集,但由于它在网站上没有任何链接,你不可能碰到它来评估。虽然你不能访问它,但你的机器人可以。

如果它是一个好的机器人,如网络爬虫,它首先会尝试阅读规定的指令并遵守这些指令。否则,它要么无视这些指示,要么最多处理一下,找出被禁止的网页。

网站期望一个好的机器人不会忽视这些 robots.txt 规则。因此,它对这种机器人没有惩罚。但是,一个坏的机器人,由于它试图无视这些规则,将使自己被禁止,从而停止你的搜刮活动。

对于采用Akamai的网站来说,如果它发现您公然无视其规则,搜刮robot.txt所禁止的内容,只需几秒钟就能将您封锁。因此,为了安全起见,请确保避免抓取Robots.txt禁止的网页。


2.获得高质量的轮换代理服务器

如果没有代理,当你搜刮一个网站时,你的IP是可见的,如果你越过红线,你离被封锁只有一秒钟的距离。越过这里的红线意味着违反网站规则。如果你使用同一IP发送多个请求,你会被封杀。

为了避免这种情况,你需要获得许多不同的IP地址,这就是代理服务器的作用。

代理商帮助你伪装你的互联网身份,使你在搜刮数据时保持匿名状态。除此以外,一些代理有一个轮换功能。也就是说,在发送请求时,它们会在指定时间内自动改变你的IP地址。IP的持续变化使网站难以发现或阻止你。

因此,要打败Akamai,您需要获得一个好的轮流代理。市场上有不少这样的代理,但如果您要发送大量的请求,住宅代理会更可靠。他们往往比数据中心的代理更贵一些,而且没有数据中心的速度快,因为他们是物理设备。但您可以保证安全,因为它们将使您远离Akamai的检测,并根据您的需要频繁地轮换您的代理服务器。


3.使用无头浏览器

无头浏览器是没有图形用户界面(GUI)的浏览器。与普通浏览器不同,它们没有可以互动的按钮或图标。无头浏览器通常通过命令行或网络通信执行。

其众多用途中包括刮取公共数据。

然而,可能会有一个小问题,虽然。网站明白,真正的网络浏览器可以阻止Javascript。他们检测无头浏览器的最简单方法是,检查网络浏览器是否能呈现出Javascript块。如果它不能,那么访问就会被标记为机器人。

为了突破这个问题,你必须使用一些能自动控制被卡住的浏览器的库,如SeleniumPuppeteerPlaywright


4.注意HTTP标头

当你发出请求时,浏览器会默认发送一组HTTP标头信息。网站可以通过这些标头分析你的身份。为了使你看起来像。人,只需将它们复制并粘贴到你的代码内的头文件对象中。这将使您看起来像从一个真正的浏览器发送请求,从而欺骗Akamai,使其认为这是一个真正的浏览器。

在改变它们时要一丝不苟。确保你只改变你需要的最少的部分。确保整组内容是合理的。如果您为Chrome和其他浏览器添加相同的头信息,Akamai会感觉到有问题。

让我们来谈谈推荐人的问题。它们是HTTP请求,让网站知道你是从哪里来的。理想情况下,您使用谷歌作为您的推荐人,这样看起来您就像来自谷歌。这样做是因为大多数网站的流量来自于谷歌,因此,Akamai不会怀疑犯规。

如果你想让谷歌成为你的推荐人,你可以这样写你的标题:referrer:https://Google.com/

如果你发送请求时没有使用谷歌作为推荐人,chrome将发送sec-fetch-site:none,但如果你将谷歌设置为推荐人,浏览器将发送sec-fetch-site:cross-site。

你可以使用类似网络这样的工具来检查任何网站的常见推荐者。大多数时候,这将是一个像TwitterLinkedIn这样的分化器媒体网站。


5.对无头浏览器使用隐身模式

反盗版工具正变得越来越聪明,可以分辨出浏览器是否通过库自动化控制。这是一个更先进的方法,而不仅仅是检查你的浏览器是否能阻止Javascript。

机器人检测工具可以知道浏览器是否被自动库控制,如果。

  • 有任何具体的机器人的签名。
  • 浏览器支持非标准的功能
  • 存在流行的库,如Selenium、Puppeteer和Playwright。
  • 人类引起的运动,如鼠标移动、点击、滚动和标签活动。

所有上述情况汇集在一起,向机器人探测器发送一个信息,即客户是机器人还是人类。

绕过这种检测并避免被禁止的可靠方法是获得这些插件。

请记住,无论如何,这些自动化库都可能被检测到,因为网站现在正通过改善其人工智能模型来提高其检测能力。因此,它不是100%可靠的。添加一个代理是一个很好的主意,因为它可以进一步保证你的无缝抓取–或刮擦,视情况而定。除了帮助你伪装之外,频繁的IP轮换为你赢得了一些时间,并确保你成功地进行搜刮。


6.旋转用户代理和相应的HTTP头信息

用户代理是一种工具,它向网络服务器发送一个信息,说明你使用什么类型的网络浏览器来访问网站。如果没有这个用户代理,网站将拒绝你访问其内容。要知道你的用户代理,你可以用关键词 “我的用户代理是什么?”在谷歌上快速搜索一下。

当您反复使用相同的用户代理时,网站的Akamai系统将检测到您是一个机器人,并让您被阻止。为了躲避这种检测和阻止,您可能不得不将您的用户代理设置为一个假的。你必须在一段时间后重复这样做,只是为了让你的用户代理在Akamai看来不会开始像一个机器人。

你可以从what is my browser developers那里获取用户代理。他们有大量的用户代理,用于各种浏览器软件、操作系统、操作平台、软件类型、硬件类型和布局引擎。

旋转您的用户代理是件好事,但它只能帮助您逃避Akamai的基本检测和阻止。如果您的机器人在使用新的用户代理后仍然被拦截,那么您应该考虑多添加一些HTTP头信息。


7.改变你的爬行模式

只重复从事互联网活动,这与人类非常不同。众所周知,人类在浏览的时候会从事各种活动。对机器人来说,情况就不一样了。机器人被设计为执行一项特定的任务,而且它也会反复地、快速地完成这项任务。

在它被重新设计为承载另一项具体任务之前,它一直在做它被指派的工作。这种重复的活动模式使Akamai很容易发现它,并在几秒钟内把它从公司的网站上踢出去。

偶尔在网站页面上加入随机点击。这里和那里的一些随机点击将使机器人看起来像人类,因此对Akamai来说,将其检测为机器人变得相当具有挑战性。


8.谨慎对待Honeypots

可以把Honeypots (蜜罐)想象成一个捕鼠器,里面有精心放置的美味鼠粮,以诱使啮齿动物吃下鼠粮并被割掉尾巴。在计算机安全系统的世界里,蜜罐的作用与此类似。它模仿黑客的目标,诱使他们点击,从而向系统提交他们的详细资料。蜜罐看起来像一个真正的计算机系统,有应用程序和数据,诱使毫无戒心的黑客认为它是真正的目标。

它通过黑客的工作方式检测他们的行动,从而了解他们的真实意图。大多数时候,它被网站用来了解在哪些方面需要加强其安全架构。例如,蜜罐可能有对端口扫描有反应的端口或弱口令。脆弱的端口可能会被暴露出来,以欺骗黑客进入蜜罐环境,而不是真正安全的网络。

Akamai迅速采取行动,检测并阻止那些已经成为蜘蛛蜜罐(一种为网络爬虫设计的蜜罐)猎物的爬虫。虽然蜜罐不能被您看到,但网络爬虫可以看到它们。就你而言,尽可能地避开隐形链接。即使它们不是为你这个真正的搜刮者准备的,也不能阻止你的机器人在被发现时被阻止。


9.使用CAPTCHA解决服务

当您大规模、过快地搜刮网站而没有任何迹象表明您是人类时,您将被Akamai拦截。这是因为,从您的行动迹象来看,您可能在使用机器人,这违反了大多数网站的条款。这将使验证码与您对峙,以确认您是否是人类。

在这种情况下,最好是使用验证码解决服务来解决这个问题。这个工具通过OCR(光学字符识别)帮助你解决验证码问题。这种方法有助于自动解决验证码。CAPTCHA-solving服务相对便宜,在你大量搜刮的时候是一把好手。

下面是一些可靠的解决验证码的工具。

a)EndCaptcha– 这个验证码解决服务提供商拥有市场上最快的验证码解决速度。他们有很高的准确率,对大小写验证码有很高的奉献精神。

b)Captcha Snipers– Captcha Snipers在解决captcha问题方面非常快速和准确。它削减了你的成本,所以你不必为获得他们的服务而付出很多。

c)2Captcha– 这个验证码解决服务有15秒解决普通验证码,50秒解决JS验证码。


10.警惕网站布局变化

在报废时,你可能面临的一个挑战是页面布局的变化。定期地,网站会更新其内容,以改善用户的体验或增加新的功能。这可能会导致网站的一些布局变化。

网络搜刮器被设置为搜刮特定页面。如果这些网页发生变化或被改变,它们将发现很难搜刮这些网页或根本无法工作。在这种情况下,你将不得不调整你的搜刮器。

检查布局与其他页面有什么不同,并在你的代码中引入一个条件,以不同的方式搜刮这些页面。有时,即使是一个微小的变化也可能需要你重新配置你的搜刮器。


11.在爬行过程中不要给服务器加压

如果有一件事是Akamai能够迅速检测到您并推断出您在使用机器人,那就是您获取数据的速度。众所周知,机器人提取数据的速度是人类无法比拟的。这种行为会触发Akamai或其他反机器人检测机制;因此,你会在不知不觉中被阻止。

除此以外,你会因为使用机器人(没有代理)而被封锁,而且你会给网站的服务器带来大量的工作要做。因此,发送大量请求可能会导致其瞬间崩溃。

为了避免这个问题,您可能要对您的搜刮工具进行编程,使其在搜刮数据的间隙中休息一下。这将使它看起来像一个人,可能会幸运地逃脱Akamai的愤怒。而且也会防止网站瘫痪。通过并发请求,一次刮取最小数量的页面。理想情况下,在搜刮过程中要有10-20秒的休息时间。


关于绕过Akamai的常见问题

1.我怎样才能知道一个网站是否使用了Akamai技术?

在您想出绕过Akamai的方法之前,您需要确定您打算搜刮数据的网站是否使用Akamai技术。有3种特定的方法来确认这一点,我们将把重点放在2种方法上。

第1步:登录Akamai控制中心

第2步:选择你的服务 >> 支持 >> 诊断工具 >> 调试URL

第3步:输入网站的URL,包括协议(例如:https://example.com)。

第4步:如果使用调试工具时,URL解析到一个IP(如下图中的红线所示),那么该网站就使用了Akamai。

第5步:如果结果显示 URL: Given URL/Hostname not akamized,那么该网站就没有使用Akamai。

2.互联网上有多少人在使用Akamai?

一半以上的财富500强公司都依靠Akamai来确保其服务的顺利运行。除此之外,还有225家游戏发行商、200家国家政府机构,以及全球各地的社交媒体平台。

总的来说,该公司表示,85%的互联网用户都是在离Akamai运行的内容分发网络(CDN)一步之遥的网络上。让Akamai脱颖而出的是,他们的服务器建在世界各地的战略位置。

然而,在covid期间,当工作方式发生变化时,使用量的增加挖空了Akamai喜欢在其CDN周围保留的缓冲区。

3.Akamai是否符合GDPR的要求?

Akamai一直完全遵守GDPR和他们运营所在国家的其他数据保护法规。当他们每天为数十亿人提供数十亿次更好的生活时,他们保护这些人的在线生活也是理所当然的。 他们说,这一承诺是客户对他们信任的根本。Akamai不断分析新的法律规定,并作出相应调整,以保持合规性。

Akamai不会收集、访问或储存客户的数据,而只会收集、访问或储存分发和保障流量所需的数据。维护客户的信任和信心仍然是他们的首要任务。


结    论

毫无疑问,逃避反机器人系统检测是一个复杂的对话。无论如何,你应该注意细节,以避免在开始之前就犯错并让自己被禁止。记住要遵守robots.txt规则。而且不要大量搜刮。为你的搜刮工具编程,使其在两次搜刮之间偶尔暂停一下。

Akamai可能非常有效和活跃,但它仍然可以被欺骗。一直使用代理服务器是帮助绕过的一个可靠方法。我们希望您已经了解了一两件关于Akamai的事情,以及如何绕过它的监视。

这篇文章有用吗?

点击星号为它评分!

平均评分 / 5. 投票数:

到目前为止还没有投票!成为第一位评论此文章。

No more articles