拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条正文

【Python爬虫】:使用「Selenium」+「Chromedriver」爬僵尸链接

任佳伟
以中国亚马逊卖家为中心,引导每一个卖家,运用互联网产品运营的思维去经营自己的店铺和产品,希望能把每一家在亚马逊上卖货的公司,变成一家互联网公司.让爆单成为每个卖家日常生活的一部分.
43440
2018-09-21 19:14
2018-09-21 19:14
43440
任佳伟
以中国亚马逊卖家为中心,引导每一个卖家,运用互联网产品运营的思维去经营自己的店铺和产品,希望能把每一家在亚马逊上卖货的公司,变成一家互联网公司.让爆单成为每个卖家日常生活的一部分.


使用「Selenium」+「Chromedriver」爬僵尸链接


     在往期的文章中有读者朋友提问能否爬「僵尸链接」,肯定是可以的。只有你看不到,没有爬虫爬不了的。


使用本文今天将讲到的「Selenium」+「Chromedriver」就可以轻松完成。本文还是会从环境搭建、查找僵尸链接原理到代码编写一步步来实现这个需求。


Selenium原本是一套完整的web应用程序测试系统,现也用作爬虫。用户可以使用它驱动浏览器,使浏览器按照已编写完成的代码完成相应动作。


Selenium支持驱动Chrome、Firefox、IE等一系列浏览器,在这里我还是选用大家熟悉的Chrome浏览器。



环境搭建步骤:



一、安装Selenium


在上一期已搭建Python环境的前提下打开CMD窗口,输入: pip install selenium」会自动安装selenium,如无报错,且提示安装成功,则成功安装selenium


可以通过以下方式验证是否安装成功并且能正常使用:

CMD窗口中输入python,再输入from selenium import webdriver,敲击回车。如果没有报错,则selenium成功安装且能正常使用。



二、下载Chromedriver


首先从https://www.google.cn/chrome/下载最新版Chrome浏览器,再从http://chromedriver.storage.googleapis.com/index.htm 下载最新版的Chromedriver


若你已经安装了Chrome浏览器,可根据已安装的Chrome浏览器版本下载对应的Chromedriver版本。附ChromeChromedriver的对应关系表:

Chrome浏览器和Chromedriver都下载完成后,将Chrome浏览器安装好,将Chromedriver解压放在自己喜欢的地方待用。



查找原理:


在搜索引擎中使用「site」关键字,可以把搜索范围限定在特定站点中,如site:某某.com。“site:”后面跟的站点域名,不要带“http://”;site:后面带不带www结果可能是不一样的,因为有些域名还包括二级域名,如:site:www.某某.com和site:某某.com,搜索结果就不一样;另外,site:和站点名之间,不要带空格。


我们可以用「site:amazon.com」,只查找在亚马逊网站内的信息。

而一个僵尸链接必有下图特征:


那我们需要构建一个完整的搜索关键字使用Google就可以帮我们找出亚马逊中的僵尸链接。如我需要找「Nike」的僵尸链接,则使用「site:amazon.com Nike Currently unavailable.」使用Google搜索即可。


但其中某些搜索结果,并不是我们想要的僵尸链接。这就需要我们的爬虫去遍历每个搜索结果,并返回正确的僵尸链接。



代码编写:


打开Pycharm,新建项目:

从selenium导入webdriver:

from selenium import webdriver


准备好搜索链接:

url = 'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'

        

driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
#
在webdriver.Chrome(中填入之前下载好的Chromedrive的路径)
driver.get(url)
 

        


将自动打开Chrome浏览器并访问:

https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.


若浏览器出现「Chrome 正受到自动测试软件的控制。」则表示我们已成功使用selenium驱动Chrome并按照预设访问了Google。


分析Google搜索结果页面,在搜索结果页面按F12。通过分析网页源码,可以看出每个搜索结果都包含在一个class为rc的<div>标签内:


我们可以使用「XPath」来查看是否通过查找所有的class为rc的<div>标签即可找到所有搜索结果。首先下载Chrome插件「XPath Helper」:


在搜索结果页面打开「XPath Helper」,输入「//div[@class='rc']」,显示「RESULTS (20)」及表示有20个class为rc的<div>标签,这与页面中的20个搜索结果相符,这表示可以使用该XPath找出页面中共有多少个搜索结果。



再按照下图分别点击1、2定位某条搜索结果的标题:


在第三步上点击鼠标右键→「Copy」→「Copy XPath」


这里要科普一下,「XPath」是XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。使用XPath我们可以准确定位页面中某个元素的位置。


多拷贝几个搜索结果的XPath,可以找出其中的规律:

可见只需将XPath略微修改即可准确定位每个搜索结果的标题,那我们就可以继续敲代码了。


首先查找所有的class为rc的<div>标签,并计算其长度。

all_rc = driver.find_elements_by_xpath("//div[@class='rc']") # 查找所有的class为rc的<div>标签
len_all_rc =
len(all_rc) # len()可计算其长度


根据所有的class为rc的<div>标签的长度,生成新的XPath并定位、点击,即跳转至亚马逊商品页面。

# for X in range () 是前开后闭,所以需要len_all_rc + 1 才能循环len_all_rc次。
for i in range(1, len_all_rc + 1):
    #
拼接新的XPath
xpath = "//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"
# 根据XPath定位搜索结果的标题,并点击
   
driver.find_element_by_xpath(xpath).click()
 

                   

返回亚马逊商品页面源码。

pageSource = driver.page_source


如果“Currently unavailable.”在页面源码中,即可确定是为僵尸链接。则在控制台打印该商品链接。

if 'Currently unavailable.' in pageSource:
   
print(driver.current_url)

                  

完成一次循环后,需要退回到Google搜索界面,下次一循环才能正确进行。

driver.back()


完成一页搜索结果筛选后,需要点击搜索结果页面的下一页继续筛选,直到无新的搜索结果为止。

# 定位下一页的按钮
next_button = driver.find_element_by_xpath('//*[@id="pnnext"]/span[2]')
# 如果下一页按钮存在
if next_button:
     # 这定位下一页按钮并点击
    driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]').click()
# 否则退出循环、结束程序。
else:
   
break
 



以上便是使用「Selenium」+「Chromedriver」从环境搭建、查找链接原理到代码编写来实现爬取僵尸链接的全部过程。其完整代码为:

from selenium import webdriver

url =
'https://www.google.com/search?q=site%EF%BC%9Aamazon.com+Nike+Currently+unavailable.'
driver = webdriver.Chrome('C:Program Files (x86)GoogleChromeApplicationchromedriver.exe')
driver.maximize_window()
driver.get(url)
while True:
    all_rc = driver.find_elements_by_xpath(
"//div[@class='rc']")
    len_all_rc =
len(all_rc)
   
for i in range(1, len_all_rc + 1):
        xpath =
"//*[@id='rso']/div/div/div["+str(i)+"]/div/div/h3/a"
       
driver.find_element_by_xpath(xpath).click()
        pageSource = driver.page_source
       
if 'Currently unavailable.' in pageSource:
           
print(driver.current_url)
        driver.back()
    next_button = driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]')
   
if next_button:
        driver.find_element_by_xpath(
'//*[@id="pnnext"]/span[2]').click()
   
else:
       
break


我的这篇文章只是简单的介绍了selenium + webdriver的使用,当然你也可以结合「Requests」+「bs4」爬取每个僵尸链接对应商品的Asin、标题、品牌、star、review等,并保存到文件中方便筛选你中意的僵尸。


 如图:


往期链接:【Python爬虫】:使用「Requests」+「bs4」写亚马逊爬虫


更多好文,敬请关注。

AMZ123跨境卖家导航旗下公众号【AMZ123跨境电商】深耕跨境行业,专注热点报道。
扫描右边二维码,关注后回复【加群】,加入优质卖家交流群~
目前30W+卖家关注我们
二维码
免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
2024年11月22日TT123早报| 36%的美国Z世代消费者每月至少在TikTok Shop购物一次
2024年11月22日TT123早报| 36%的美国Z世代消费者每月至少在TikTok Shop购物一次
亚马逊等平台在售近7万件壁床被召回!已报告10起受伤事故
AMZ123获悉,11月21日,美国消费品安全委员会(CPSC)宣布召回Dorel Home Furnishings销售的一款壁床,因存在严重撞击和挤压危险。据了解,此次召回的产品涉及Dorel全尺寸和大号壁床,这些产品在网上以Pinnacle、Paramount、Impressions、Holly Hills和Her Majesty Wall Beds等品牌销售。产品分为白色、浅橡木色、灰橡木色
亚马逊查尔顿物流中心投入运营,明年将新增千名就业岗位
AMZ123获悉,近日,亚马逊宣布,其位于美国马萨诸塞州查尔顿的新物流商品中心ORH3正式投入运营。这座占地约26万平方米的设施位于斯特布里奇路(20号公路)沿线,计划于2025年全面扩展运营后雇佣超过1000名当地员工。正值假日购物高峰期,ORH3的启用为处理大量订单提供了关键支持。针对配送中心可能对查尔顿20号公路沿线交通造成的影响,马萨诸塞州交通部(MassDOT)与亚马逊合作,采取了缓解交
精选10款11月21日最新下证欧盟外观专利,警惕侵权!
一、专利名称: Shower heads (花洒)专利证书编号:015073728-0001 专利申请日期:2024年9月20日专利下证日期:2024年11月21日二、专利名称: Charging cradles (充电桩)专利证书编号:015077995-0001 专利申请日期:2024年10月31日专利下证日期:2024年11月21日三、专利名称:Brackets (支架)专利证书编号
年底黑五大促,亚马逊丢失的排名回来了!(附方法)
最近,亚马逊卖家圈子可谓是波涛汹涌。关键词排名“凭空消失”,销量断崖式下跌,广告费“烧”得心痛却毫无起色。到底是算法调整还是流量倾斜?别急,今天就来拆解背后原因,并在文末奉上成功率超高的恢复关键词自然排名消失的解决方法。助你在黑五大促中逆风翻盘!黑五当前,卖家圈的“玄学”事件关键词消失,销量下滑,广告费“白烧”从10月中下旬开始,不少卖家反馈:辛苦优化到首页的核心关键词排名莫名暴跌,甚至完全消失。
2025年法国EPR(扩展生产者责任)政策的变化
随着环保法规的不断更新,法国在2025年将对扩展生产者责任(EPR)政策进行重要改革。这些变化旨在提高产品的回收率,减少环境影响,推动可持续发展。本文将概述这些变化及其对企业的影响,并提供具体的时间节点。1. 注册与报告要求的更新2025年1月1日起,所有生产和销售的产品必须在法国的废物管理系统中完成注册。企业需确保其产品符合新规定的注册要求,特别是电子产品、包装和其他特定产品类别。2. 收费结构
亚马逊低价商城共享BSR?打不过就加入吧!
上周三,亚马逊低价商城重磅上线,引爆了整个跨境电商圈以及圈外。如今距离低价商城上线已过去数日,“该项目的卖家销售表现如何”、“怎样才能入驻低价商城”等一系列问题依旧备受行业瞩目。01亚马逊低价商城:上架即爆单!近期有卖家爆料,根据招商经理确认,目前低价商城确有日出千单的链接出现!且在社交平台上也有卖家陆续传来捷报:— 群里有小伙伴已经日出千单了!我们昨天出了十多单,今天涨到快一百单了,已经增派了人
亚马逊新品受到了“不平等”对待?
正文这段时间,亚马逊卖家的圈子里闹得沸沸扬扬!众多卖家反映自家的新品列表不知为何就莫名其妙地被隐藏起来了,而这背后竟然与亚马逊自营的 “神奇操作” 有着千丝万缕的联系。1新品被隐藏,流量都去哪儿了?依据卖家们的反馈,只要亚马逊自营与第三方卖家销售同一款商品,第三方卖家的新品列表或许就会直接被隐藏。并且就算卖家给出的价格比亚马逊自营的更低,也无法得到优先展示,除非买家主动清除所有的筛选条件才能够找到
亚马逊宣布2025年不提高推荐费和物流费,不引入新费用类型
AMZ123获悉,11月19日,亚马逊表示2025年将不会对销售合作伙伴增加美国推荐费和亚马逊物流(FBA)费用,不会引入任何新的费用类型,还将降低部分费用并提供新的优惠。亚马逊表示,尽管面临通货膨胀和对员工薪酬和福利的更多投资,其仍成功通过创新、提高效率和减少缺陷来降低成本。在未来几周以及到2025年,亚马逊将继续投资于与费用相关的产品体验,包括改进费用计算器和费用预览工具,通过估算运输成本和推
黑五前夕销量差的一塌糊涂!或与Temu大促抢跑有关?我们公司Temu部门开始爆单了……
匿名用户我的C位从今年9月开始,销量数据和利润同比都是下滑的。进入10月,本以为有秋促就会好点,结果确实不如人意。看到爆单的都是在推万圣节等季节性产品的卖家朋友,确实也是羡慕。进入11月,以为终于迎来了真正的旺季,但截止目前,还不如10月?到底是哪里出了问题?亚马逊大促活动时间是所有平台时间最短的,难道大促流量要被其他平台抢光了?我们公司Temu部门都开始爆单了,亚马逊部门却在吃土。「 精彩回帖
卖家必看!揭秘亚马逊黑五流量飙升真相?
众所周知,每年黑五网一前夕,销量下滑潮对大多数卖家来说都难以避免,消费者正抑制消费,等着大促期间再集中购物。但今年除了上述现象,更有卖家反映,关键时刻大量关键词的自然位(搜索页自然排名)消失或降低,销量骤降,苦不堪言!卖家疯狂吐槽,你是否中招?一位卖家在论坛上发帖称:我们的ASIN一直排在搜索结果的前一两位,但前几天出现了断续的情况,今天直接流量消失了。流失的词有近40个!!!是不是亚马逊调整了算
单量有希望了!亚马逊接连更新 5 项新功能!
正文最近亚马逊的更新真是不停歇,前台页面、后台页面、各项政策等等更新,一个接一个,搞得卖家们应接不暇!但为了帮助卖家们迎战黑五,亚马逊最近先后更新了5条的利好政策,所以卖家们一定要码住吃透,并分享给需要的人。更新1:热门搜索词(支持以天为维度查看)路径:后台菜单 &gt; 品牌 &gt; 品牌分析 &gt; 热门搜索词 &gt; 显示筛选条件现在这个报告的查看范围,分为:每日/每周/每月/每季度注
亚马逊黑五网一即将开始,这几点建议做起来
亚马逊黑五网一即将开始,这几点建议做起来美国站黑五网一即将于今天11/21北京时间下午4点开始,一直到12/2,共计12天。欧洲站已经开始了,听说效果不是很理想。这也是可以预见的,时间跨度拉这么长,效果打折扣是必然的。我几点建议大家可以参考下,自己是否有执行。会员专享折扣尽快提报。黑五网一的会员专享折扣是有打标的,所以除了报名秒杀,最优先推荐的就是报名会员专享折扣。另外会员专享折扣报名后很容易出现
小心! 今年黑五网一,你会被对手盯得更紧
如果你在亚马逊前台看到的每一个竞品广告位,都能精确对应到后台具体的广告活动,并快速还原该广告活动的投放策略。对于研究竞品的广告打法,是不是有巨大的价值?明人不说暗话,还是直接用图说话。搜索页首页首行广告位对应的广告活动详情页广告位对应的广告活动上边两个图中红色框就是每个广告位上的产品对应的后台的广告活动ID和投放小组ID的信息。广告活动下方,我们展示了广告活动的投放策略,帮助你快速了解该活动投放的
卖家吐槽亚马逊“不公平操作”:新品直接被“隐身”!
最近,亚马逊卖家圈子里炸开了锅!不少卖家反映自己的新品列表莫名其妙地被隐藏了,而这背后竟然和亚马逊自营的“神操作”脱不了干系。新品被隐藏,流量去哪了?根据卖家们的反馈,只要亚马逊自营和第三方卖家销售同款商品,第三方卖家的新品列表可能就直接被隐藏。而且就算卖家给出的价格比亚马逊自营更低,也无法被优先展示,除非买家主动清除所有筛选条件才能找到。这波操作直接让卖家们的商品曝光率直线下降,新品流量自然也就
周销量破万!黑五前夕,SHEIN卖家已爆单
在多平台提前预热、开启优惠活动等系列动作中,2024年黑五“抢单大战”缓缓拉开了序幕。当存量博弈竞争愈发激烈,为赢得这次年终流量盛宴,跨境卖家们逐渐将目光投向了蓬勃发展的新兴跨境电商平台。其中,全球领先的时尚电商平台SHEIN的黑五表现饱受关注。AMZ123了解到,在这黑五年终大促决胜在即的紧要关头,已有一批卖家在SHEIN上提前开启了“爆单模式”。数字化时代,相较于依赖压缩利润的价格折扣策略,出
《从美国消费看中国优质制造复苏》PDF下载
22 年以来美国面临消费者信心指数和实际购买力的下行,个人消费支出增速放缓。美国零售销售额 10月同比+7.5%,分行业看刚需消费表现优于行业整体,而耐用品消费、可选消费增速低于行业整体。
《百舸争“流”,中国品牌出海流媒体电视营销白皮书》PDF下载
流媒体内容基于网络传输,以点播形式为主可以通过各种电子设备传播。预期在 2024年,将有 21.7 亿人通过付费订阅的流媒体观看视频内容,也就是全球超过四分之一的人口会拥抱这种新媒体形态。1而在美国,已经有 75% 的人口在观看流媒体内容,这一数字已然超过了社交媒体用户或传统电视用户。
《2024年TikTok Shop美区商家增长白皮书-第三季度》PDF下载
随着社交媒体的渗透率和活跃度增长,全球掀起一波网络红人经济,依赖红人的曝光能力和粉丝信任感,带动品牌和商家的生意增长。而抖音全球领先的用户标签和兴趣内容推荐算法,挖掘高质量的内容,并通过内容快速打造大量垂直细分的KOL和KOC,从而推进兴趣电商的发展。从传统电商上的人找货,往兴趣电商的货找人,扩大消费人群和电商的范围。
《2024年美妆个人护理跨境电商专题研究》PDF下载
2023年我国出口前五大市场分别是美国、中国香港、英国、日本和印度尼西亚,占我国化妆品出口总额的48.7%。紧随其后的是韩国,2023年同比增长108.5%,从2022年的第15位飙升到第6。
《2024中国跨境电商海外营销观察》PDF下载
品牌内容营销新增长点正聚焦在社交媒体平台的影响力增长上,BrandOS评分根据中国出海企业核心诉求及发展特征,通过量化海外社交媒体运营状况,为品牌在各大社媒平台主页提供统一客观参考坐标
《2024 美国、英国、阿联酋年终购物旺季报告》PDF下载
本次研究探讨了塑造数字经济的信念和行为,重点关注了如黑色星期五、白色星期五、网络星期一和双十一等购物高峰期。
《东南亚运动户外电商行业市场洞察》PDF下载
东南亚户外运动市场近年来呈现出迅速增长的趋势。数据显示,当前户外运动相关类别的年增长率已超过100%,市场规模更是突破了3亿美元。随着人们生活方式的转变以及运动与健康意识的提升,这一市场的扩展趋势还将持续加强,预计未来几年将迎来更加广阔的发展空间。
《2024独立站0-1开店指南》PDF下载
在全球化的背景下,越来越多的商家选择建立独立站,以更好地掌控品牌、提升用户体验和拓展国际市场。本指南将从独立站的概念、商业模式到网站搭建,为您提供详细的建议与指导。
亚马逊公告
AMZ123旗下亚马逊公告发布平台,实时更新亚马逊最新公告,致力打造最及时和有态度的亚马逊公告栏目!
AMZ123会员
「AMZ123会员」为出海者推出的一站式私享服务
跨境学院
跨境电商大小事,尽在跨境学院。
侃侃跨境那些事儿
不侃废话,挣钱要紧!
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
亚马逊全球开店
亚马逊全球开店官方公众号,致力于为中国跨境卖家提供最新,最全亚马逊全球开店资讯,运营干货分享及开店支持。
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
Activities
活动
Information
跨境资讯
跨境资讯
Group
社群
品类交流群
跨境资料
官方社区
宠物品类交流群
加入
家居品类交流群
加入
母婴用品交流群
加入
立即扫码咨询
立即扫码咨询
立即咨询
官方微信群
官方客服

扫码添加,立即咨询

扫码加群
官方微信群
官方微信群

扫码添加,拉你进群

更多内容
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部