拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条正文

一篇文章让你无视80%的反爬网站!

任佳伟
以中国亚马逊卖家为中心,引导每一个卖家,运用互联网产品运营的思维去经营自己的店铺和产品,希望能把每一家在亚马逊上卖货的公司,变成一家互联网公司.让爆单成为每个卖家日常生活的一部分.
22926
2018-11-20 20:07
2018-11-20 20:07
22926
任佳伟
以中国亚马逊卖家为中心,引导每一个卖家,运用互联网产品运营的思维去经营自己的店铺和产品,希望能把每一家在亚马逊上卖货的公司,变成一家互联网公司.让爆单成为每个卖家日常生活的一部分.


有人的地方就有江湖,在爬虫的世界里也是一样。很多新手同学的爬虫简单粗暴,不管对端服务器的压力,直接多线程、多进程爬虫疯狂搞事。


服务器端

你要搞事是吧?我就不让你搞事!

爬虫

你不让我搞事是吧?我偏要搞事!



于是就有了反爬虫,有反爬虫就有反反爬虫,有反反爬虫就有反反反爬虫…


在看了前几期文章后有很多小伙伴已经能自己敲出指哪儿爬哪儿的爬虫了,却被亚马逊的反爬虫所困扰。爬着爬着弹个验证码、不返回正常数据,咋整?

所谓道高一尺魔高一丈,下面将为大家列举亚马逊的几种反爬手段及解决办法!



一、通过headers字段来反爬


Headers是什么?

首先要说明一下HTTP是“Hypertext Transfer Protocol”的所写,整个万维网都在使用这种协议,几乎你在浏览器里看到的大部分内容都是通过http协议来传输的, 而Headers是HTTP请求和相应的核心,它承载了关于客户端浏览器,请求页面,服务器等相关的信息。


下图就是访问https://www.amazon.com/时的Request Headers:



其中包含了authority、cookie、user-agent等字段。


1、通过User-Agent字段来反爬

User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。


标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。


大多数网站都会在后台的根目录下放置一个名为“robots.txt”的文件,在这个文件中规定了某些特定的User-Agent哪些页面可以访问,哪些页面不可以访问。如亚马逊美国站的“robots.txt”地址为:https://www.amazon.com/robots.txt,大家可以访问看一看。robots.txt一般称为robots协议,可以说是一个君子协议,遵不遵守还看个人。我们可以考虑收集一堆User-Agent的方式,或者是随机生成User-Agent,达到伪造User-Agent的目的,即可解决这种反爬手段。


2、 通过referer字段或者是其他字段来反爬

Referer记录了你是从什么网站跳转到该网站的。比如通过Google搜索到Amazon.com,再点击跳转,那么本次请求中的headers中就会包含Referer:http://www.google.com,表示你从谷歌跳转而来。通过referer字段反爬,一般在针对图片、视频、音频资源时出现较多,当你访问这些资源时,服务端检查你的referer字段非正常便会给你返回一些假资源,如我们早年玩儿的QQ空间、天涯社区针对图片资源反爬出现的“盗链图片”



通过referer字段反爬,我们也可以在headers中伪造referer字段来解决。


3、 通过cookie来反爬

Cookie是网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据。如果目标网站不需要登录,每次请求带上前一次返回的cookie,比如requests模块的session,即可达到反爬目的。


如访问亚马逊美国站中ASIN为:XXX的商品,每次都带上不同的cookie,代码如下:


import requests

headers = {
   
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
   
'Referer': "www.google.com"
}
session = requests.session()
# 先访问亚马逊主界面拿到cookies,保持会话。
session.get(
'https://www.amazon.com', headers=headers)


如果目标网站需要登录的话则准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie即可访问到登陆后的页面。

 

 

 

二、通过验证码来反爬


上一次prime day亚马逊全站都开启验证码,那种寸步难行的感觉不知大家还记不记得?通过验证码来反爬是大多数网站通用的一种反爬手段,比较出名的有12306、google人机测试、极验滑块等。在这些验证码面前,亚马逊验证码还是显得很照顾用户体验的,至少没弹出什么奇奇怪怪的东西让我们点选,只是单纯的4-6位字母,那么要识别它还是挺Easy的!


Python通过获取大量的验证码图片素材,使用OCR、PIL、SVM等库进行验证码图片的二值化、切割、模型训练,最终可实现对亚马逊验证码的识别。


自己用Python识别这么多步骤、

这么多东西,搞起来是不是很难?

难!肯定是要花点儿时间的!

那咋整?



有一种东西“打码平台”!把验证码图片上传给他,在规定时间内(一般60S内)就会返回识别后的验证码。


下面是某打码平台的价格表:



该打码平台的充值比例为1元=2500快豆,如果我们选择6位纯字母模式识别的话,1块钱就可以识别166.66次…是不是超便宜?


各个打码平台的使用方法不一,这里就不贴代码了。选定一家打码平台,联系客服或者查看开发者文档demo,轻轻松松就能通过代码的形式搞定亚马逊验证码。


当然,有实力、有兴趣的同学还是建议自己弄验证码识别,毕竟是一劳永逸的事情。



三、通过ip地址来反爬


同一个ip大量请求了对方服务器,有更大的可能性会被识别为爬虫,ip就有可能被暂时拉进小黑屋。咋办?


别怕!用代理ip,完美解决这种反爬手段。


什么是代理ip?就好似你找了一个代理人,让他去访问你的目标网站,然后跟他要目标网站给他的数据


如图:


根据代理ip的匿名程度,代理ip可以分为下面四类:


  • 透明代理(Transparent Proxy)Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。

  • 匿名代理(Anonymous Proxy):匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。


  • 混淆代理(Distorting Proxies):与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真


  • 高匿代理(Elite proxy或High Anonymity Proxy):可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。


在使用的使用,毫无疑问使用高匿代理效果最好


从使用的协议:代理ip可以分为http代理,https代理,socket代理等,使用的时候需要根据抓取网站的协议来选择


在Python的requests库中,也早已设计了使用代理IP的方法:

import requests
proxies = {
 
"http": "http://10.10.1.10:3128",
 
"https": "http://10.10.1.10:1080",
}
requests.get(
"http://httpbin.org/ip", proxies=proxies)



四、通过前端样式反爬

上面是亚马逊搜索页面翻页的两种前端样式,估计一般人都不会注意这里有什么变化。两种前端的代码也有所不同,如果你的爬虫只针对其中一种页面获取下一页的url,就会导致你的爬虫在遇到另外一种翻页样式时挂掉。


这也正是亚马逊的高明之处,与国内电商相比,它在照顾用户体验的同时,也达到了反爬的目的。针对这种情况我们需要在爬虫里首先判断当前页面是哪种前端样式(多写两个if…else),这样才能兼容两种样式。


以上就是本人在编写亚马逊爬虫中遇到的反爬手段,希望能对大家有一些帮助!


最后希望大家且爬且珍惜,假如只要单纯商品的详情、报价和Sales Rank,用MWS API 就好。假如用爬虫,切记不要暴力的爬!破解验证码是有风险的,假如破解后还暴力的爬,那下次亚马逊恼羞成怒,可能就换另一种更强的反爬虫机制了,到时可就没得爬咯!




AMZ123跨境卖家导航旗下公众号【AMZ123跨境电商】深耕跨境行业,专注热点报道。
扫描右边二维码,关注后回复【加群】,加入优质卖家交流群~
目前30W+卖家关注我们
二维码
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
美国宠物经济崛起:2024年消费趋势与市场机会分析
AMZ123获悉,日前,哈里斯民意调查(Harris Poll)的一项新研究揭示了美国人养宠物的蓬勃发展趋势,标志着“宠物经济”的兴起。该报告深入挖掘多方面数据,从养宠行为、消费偏好到市场趋势和宠物主人的心理变化,揭示了这一新兴领域的全貌和未来发展方向。该研究通过在线定制调查的方式,收集了来自2125名美国成年人的数据,涵盖了不同年龄段的群体,包括321名Z世代(18-27岁)、662名千禧一代(
旺季来袭vs新规出炉,亚马逊卖家都看过来!
在黑五大促进行的同时,亚马逊发布了多则通知。2025亚马逊美国站费用政策新变化近日,亚马逊发布了2025年的新政:亚马逊不会提高美国站销售佣金和亚马逊物流费用,也不会引入新的费用类型。亚马逊还将降低部分费用并提供额外的优惠,以支持新选品增长。▲源自亚马逊平台该政策一出,可真是让人大跌眼镜,毕竟往年这时候,亚马逊一般都宣布提升下一年的各项收费标准,今年怎么不按套路出牌了?小编看了一下,2025年亚马
如何快速判断关键词与产品的相关性?
在亚马逊运营中,选对关键词能让你的产品精准触达目标客户,提高流量转化率。那么,如何快速判断关键词与产品的相关性?以下将为你详细解读相关性计算的原理、筛选技巧及操作方法。核心概念:相关度计算原理关键词与产品的相关性可以通过相关度指标进行衡量。相关度是根据关键词下产品的重合度计算得出的,主要考量在最近一个月中,某关键词与目标关键词在亚马逊搜索结果第一页的自然排名中出现的同款 ASIN 比例。高相关度关
黑五一夜排名飙升237倍!这些产品大促首日爆单
亚马逊黑五大促昨天正式拉开帷幕。亚马逊2024年黑五网一活动将从11月21日持续至12月2日,堪称史上最长“黑五”!这次黑五大促,亚马逊CEO安迪贾西第一时间给黑五带货,表示此次黑五优惠众多,Prime会员将可以享受免费当日达或者隔日达的服务!黑五流量威力非常疯狂,有的单品实现了一夜冲上榜首。例如,有酵母产品套装,排名从类目6万开外直接来到前30,排名涨了超过200倍!那么,今年黑五有哪些单品实现
美国假日季购物新趋势:午夜消费热潮与自赠礼物兴起
AMZ123获悉,11月21日,据外媒报道,Zip的最新消费者调查揭示了假日季购物行为的新趋势,午夜购物和为自己赠礼成为新热潮。这项对16000多名美国人进行的调查显示,40%的美国消费者选择在午夜进行大额消费,尤其因为零售商常在深夜推出限时折扣或特惠抢购。其中,25-34岁人群表现最为突出,48%的消费者会在午夜购物,成为夜间消费的主力军。同时,为自己购买礼物的现象正在升温。调查发现,40%的消
24年法国消费者“黑五网一”人均预算233欧元,同比下降10%
AMZ123获悉,日前,据外媒报道,普华永道年度研究显示,2024年法国消费者在黑色星期五和网络星期一期间的平均预算为233欧元,较2023年下降10%。尽管如此,购物意愿达到了新高,80%的消费者计划参与促销活动,较去年同比增长9%。据了解,通货膨胀显著影响了法国消费者的购物预算,但也激发了他们对优惠促销的需求。研究显示,大多数消费者认为折扣需达到58%以上才算“划算”,这一标准较2023年的4
揭秘!服务商降低亚马逊销售佣金的操作方法
作为一名亚马逊卖家,你们有没有想过如何在不影响商品曝光和排名的情况下,降低销售佣金?首先,你得了解亚马逊的类目分类逻辑,类目大致分为两种:一种是前台显示的榜单类目,另一种是佣金类目。榜单类目和佣金类目的区别榜单类目——在亚马逊网站上浏览商品时看到的分类,比如“畅销书榜单”或“电子产品榜单”,这些类目直接影响商品的曝光和排名。佣金类目——亚马逊用来计算卖家佣金的分类。不同类目的产品,亚马逊收取的佣金
多个中国大卖在东南亚电商中爆发,如何抓住千亿增长机遇?
随着全球化经济不断深入,东南亚已成为全球电商发展最快的区域之一。数据显示,2023年东南亚电商市场规模已突破1590亿美元,同比增长15%,预计未来五年仍将保持强劲增长。中国品牌正凭借本地化营销、强大的供应链能力和内容电商创新策略,迅速打开东南亚市场的大门,为“全球化出海”书写新的篇章。东南亚:跨境电商的掘金风口东南亚作为全球第三大人口聚集地,拥有约6.8亿人口,其中35岁以下的年轻人占比高达70
搜索量持续增长!亚马逊最新10大畅销产品推荐
AMZ123获悉,日前,Exploding Topics根据搜索趋势,分享了10款亚马逊上表现良好的热门产品,每款产品都被评为亚马逊畅销产品,并且呈现上升趋势。1. 蜗牛粘蛋白搜索量增长: 1220%搜索增长状态:爆炸式增长搜索量: 301k/月平均价格: 15.5美元蜗牛粘蛋白是一种护肤成分,以其抗菌和抗炎特性而备受关注。它常用于面霜、保湿霜、凝胶面膜和修复精华等产品中。研究表明,使用蜗牛粘蛋白
特朗普宣布胜选,跨境电商或迎大变局!
特朗普当选美国总统!跨境卖家或迎四大影响!
亚马逊TOP100卖家榜单更新
AMZ123获悉,近日,Marketplace Pulse发布了最新亚马逊TOP100卖家榜单。亚马逊TOP100卖家榜单于11月14日更新,卖家排名基于店铺过去 30 天内收到的评论数量。1. 亚马逊美国站美国站榜单上的TOP100位卖家中,有80位来自美国,19位来自中国和中国香港,1位来自德国。TOP30的卖家中,仅10%的卖家近一个月评价数量上升,11名卖家排名上升,15名卖家排名下降。排
Ohuhu卖马克笔年营收超3亿,背后必有高人指点
有一种兴趣的烧钱程度,骑行、摄影、钓鱼都要靠边。沾上画画,虽然不会一下掏空钱包,但多买几次纸笔画材,就老实了。近日,又一家做兴趣生意的公司干上市。从音乐、绘画到运动,千岸科技在海外“文体两开花”。4个主营品牌中,卖绘画产品的 Ohuhu 当属赚钱又巧妙。深挖其发家史,每一步都不偏不倚,背后必有高人指点。绘画这个小众类目,凭什么跟3C数码、运动户外并肩?2010年,千岸科技在深圳成立。彼时,阿里的速
“黑五”首轮战报:有欧洲卖家销量翻倍,美站订单增长略显颓势?
暴风宝宝2号匿名用户2024年亚马逊黑五活动已经于11.21零点即北京时间7:00在欧洲开跑。幸运的你,是否在黑五第一天爆单了?就让我先来分享战绩帖,大家冲冲冲!!!「 精彩回帖 」Luciano - 亚马逊欧洲站搬运工,专注欧洲人工搬运,FPS爱好者,不会开挂赞同来自: 城外有个人今年F5的刷新频率比去年低了很多,欧洲今年多事之秋啊,希望欧洲的同学今年能一切顺利,第一次在知无不言晒单。匿名用户涨
亚马逊动真格了!这几个后台功能全新升级!
正常,一旦出现数据异常,比如销是下跌、转化率异常、流是为0之类的情况,我们需要及时进行处理。关于数据分析,我们会主要分析店铺流量数据、销售数据和广告数据等。透过这些数据我们可以观察今天的销量是否有增加和降低,若有问题我们可以准确的知道是那个环节出现了问题,再进行合理的调整亚马逊一直以其快速迭代和升级而闻名,这一次,他们针对卖家们的痛点进行了多个改进,让卖家们的运营变得更加高效和安全。此次更新多达6
卖家余额一夜变负!亚马逊开始收取这项费用
特朗普刺杀风波、拜登退选、哈里斯接棒、马斯克下场……号称近年最胶着的2024年美国大选,历经多个跌宕起伏的戏剧性情节,终于在11月6日落下了定锤——由特朗普锁定选举胜局。然而,大选过后,由其产生的连锁效应仍在持续影响着电商行业。从业内销售情况来看,近期在一批卖家为“川普周边爆单”而雀跃的同时,亦有诸多卖家陷入了“销量跳水”的泥沼。距离美国大选结果出炉已过数日,不少卖家所期盼的旺季单量至今仍未恢复增
又一国下封杀令,川普救不了TikTok
加拿大下令关闭字节业务,TikTok回应!
《从美国消费看中国优质制造复苏》PDF下载
22 年以来美国面临消费者信心指数和实际购买力的下行,个人消费支出增速放缓。美国零售销售额 10月同比+7.5%,分行业看刚需消费表现优于行业整体,而耐用品消费、可选消费增速低于行业整体。
《百舸争“流”,中国品牌出海流媒体电视营销白皮书》PDF下载
流媒体内容基于网络传输,以点播形式为主可以通过各种电子设备传播。预期在 2024年,将有 21.7 亿人通过付费订阅的流媒体观看视频内容,也就是全球超过四分之一的人口会拥抱这种新媒体形态。1而在美国,已经有 75% 的人口在观看流媒体内容,这一数字已然超过了社交媒体用户或传统电视用户。
《2024年TikTok Shop美区商家增长白皮书-第三季度》PDF下载
随着社交媒体的渗透率和活跃度增长,全球掀起一波网络红人经济,依赖红人的曝光能力和粉丝信任感,带动品牌和商家的生意增长。而抖音全球领先的用户标签和兴趣内容推荐算法,挖掘高质量的内容,并通过内容快速打造大量垂直细分的KOL和KOC,从而推进兴趣电商的发展。从传统电商上的人找货,往兴趣电商的货找人,扩大消费人群和电商的范围。
《2024年美妆个人护理跨境电商专题研究》PDF下载
2023年我国出口前五大市场分别是美国、中国香港、英国、日本和印度尼西亚,占我国化妆品出口总额的48.7%。紧随其后的是韩国,2023年同比增长108.5%,从2022年的第15位飙升到第6。
《2024中国跨境电商海外营销观察》PDF下载
品牌内容营销新增长点正聚焦在社交媒体平台的影响力增长上,BrandOS评分根据中国出海企业核心诉求及发展特征,通过量化海外社交媒体运营状况,为品牌在各大社媒平台主页提供统一客观参考坐标
《2024 美国、英国、阿联酋年终购物旺季报告》PDF下载
本次研究探讨了塑造数字经济的信念和行为,重点关注了如黑色星期五、白色星期五、网络星期一和双十一等购物高峰期。
《东南亚运动户外电商行业市场洞察》PDF下载
东南亚户外运动市场近年来呈现出迅速增长的趋势。数据显示,当前户外运动相关类别的年增长率已超过100%,市场规模更是突破了3亿美元。随着人们生活方式的转变以及运动与健康意识的提升,这一市场的扩展趋势还将持续加强,预计未来几年将迎来更加广阔的发展空间。
《2024独立站0-1开店指南》PDF下载
在全球化的背景下,越来越多的商家选择建立独立站,以更好地掌控品牌、提升用户体验和拓展国际市场。本指南将从独立站的概念、商业模式到网站搭建,为您提供详细的建议与指导。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
AMZ123选品观察员
选品推荐及选品技巧分享。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
AMZ123卖家导航
这个人很懒,还没有自我介绍
跨境数据中心
聚合海量跨境数据,输出跨境研究智慧。
Activities
活动
Information
跨境资讯
跨境资讯
Group
社群
品类交流群
跨境资料
官方社区
宠物品类交流群
加入
家居品类交流群
加入
母婴用品交流群
加入
立即扫码咨询
立即扫码咨询
立即咨询
官方微信群
官方客服

扫码添加,立即咨询

扫码加群
官方微信群
官方微信群

扫码添加,拉你进群

更多内容
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部