拖动LOGO到书签栏,立即收藏AMZ123
首页跨境头条正文

【Python爬虫】:使用「Requests」+「bs4」写亚马逊爬虫

任佳伟
以中国亚马逊卖家为中心,引导每一个卖家,运用互联网产品运营的思维去经营自己的店铺和产品,希望能把每一家在亚马逊上卖货的公司,变成一家互联网公司.让爆单成为每个卖家日常生活的一部分.
30692
2018-09-21 19:14
2018-09-21 19:14
30692
任佳伟
以中国亚马逊卖家为中心,引导每一个卖家,运用互联网产品运营的思维去经营自己的店铺和产品,希望能把每一家在亚马逊上卖货的公司,变成一家互联网公司.让爆单成为每个卖家日常生活的一部分.


使用「Requests」+「bs4」写亚马逊爬虫


      终于我们还是讲到用「Python」来爬数据了。有些卖家就问了,为什么要用pytho?之前不是已经有一些Chrome插件或者其他简便的方法了吗?是的没错,但是他们都还达不到指哪儿爬哪儿、无惧目标网站封杀的水平呀。


作为已经成为最受欢迎的程序设计语言之一「Python」,它除了具有丰富和强大的库之外,还被赋予“胶水语言”的昵称,毕竟它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。用它来写爬虫我们就是「站在巨人的肩膀上」,很多东西并不需要我们写,只需要库里拿过来用就行了。


话不多说,接下来小编就来叫大家如何操作!



环境搭建步骤:


一、安装Python:

在这里我们使用python 3.6.6版本,可在下面连接中直接下载。


Windows 版本:

https://www.python.org/ftp/python/3.6.6/python-3.6.6.exe

MacOS版本:

https://www.python.org/ftp/python/3.6.6/python-3.6.6-macosx10.9.pkg

其他版本请访问python官网:

https://www.python.org/downloads/release/python-366/


首先将「Add Python 3.6 to PATH」勾选上,点击「Customize installation」。


在将「Install for all users」勾选上,点击「install」。 


安装完成后,我们来检查一下Python是否安装成功,打开cmd命令,输入python回车,若显示类似下图,证明环Python安装成功。



二、安装PyCharm:

PyChram是一款提供Python开发环境的应用程序,可以帮助我们更好的编写、调试代码。


Windows版本: 

https://download.jetbrains.com/python/pycharm-professional-2018.2.exe

MacOS版本:

https://download.jetbrains.com/python/pycharm-professional-2018.2.dmg

具体安装步骤可参考:

https://www.cnblogs.com/dcpeng/p/9031405.html


下载完成后双击打开Pychram安装包,傻瓜化安装,基本一路next。



三、配置PyCharm:

打开pycharm,按下列图片完成配置。


四、创建新项目

以上就是PyCharm + Python3.6环境的搭建步骤。



编写第一个爬虫

爬虫技术需要循序渐进,今天我们先爬一些简单的东西来方便大家理解,为后期爬取亚马逊数据做准备。


  • 分析目标网站

今天我们选择的目标网站是【亚马逊美国站】https://www.amazon.com。首先我们使用Chrome浏览器打开该网站,搜索关键字「iphone」并分析该网站的网页结构。


分析后不难看出该网站目标数据处的网页结构:

id为s-results-list-atf的<ul>标签包含有数个<li>标签,每一个<li>标签包含了每件商品的一些信息。因此我们只需要请求网页数据,拿到id为s-results-list-atf的<ul>标签源码,然后自己解析、取出自己想要的数据即可。



一个爬虫主要分为四个部分:



一、请求数据:

首先我们安装python中的「Requests」。

在我们刚才创建的「black_Friday」中 输入:

import requests  # 导入requests
from bs4 import BeautifulSoup  # 从bs4中导入BeautifulSoup



光标停留在有红底波浪线的requests上按「Alt」+「Enter」然后选择「Install  package requests」等待模块安装完成后红色波浪线会消失。

以同样的方式安装「bs4」模块。

url = 'https://www.amazon.com/s/keywords=iphone'
response = requests.get(url)




二、拿到数据

「response」是一个变量名,用来保存目标网站返回给我们的数据。


可使用下面代码在控制台打印出目标网站返回的数据。

print(response.text)



三、解析数据

返回的数据看起来乱七八糟的怎么办?这么大一堆怎么找到想要的数据呢?这就要用到刚才导入的「bs4」模块了。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式,Beautiful Soup会帮你节省数小时甚至数天的工作时间。


首先生成一个「BeautifulSoup」对象,我们命名为:response_soup:

response_soup = BeautifulSoup(response.text, 'html.parser')


其中「response.text」表示返回的数据,「html.parser」表示解析的方式。

result_list = response_soup.find('ul', id='s-results-list-atf').find_all("li")


在response_soup中找到id为s-results-list-atf的<ul>标签,    再在其中寻找所有的<li>标签。

for li in result_list:
   
print(li)
   
print("=" * 60)


可以用遍历的方式打印每个<li>标签,看是否与我们想要的数据一致。


1、ASIN

配合Chrome我们可以看出每个<li>标签的“data-asin”即为商品的「ASIN」。


asin = li['data-asin']

这样即可取出每件商品的「ASIN」。


2、Price


商品的价格是写在一个class为a-size-base a-color-base的<span>标签中。找出该标签,取出标签中的文本即可找出价格。

price = li.find('span', 'a-size-base a-color-base').text


3、Star

商品的star是写在一个class为a-icon-alt的<span>标签中。找出该标签,取出标签中的文本即可找出价格。


star = li.find('span','a-icon-alt').text

这样我们便爬到了一页中所有产品的Asin、Price、Star。



四、保存数据

使用csv库,将爬到的数据以csv格式保存下来。

import csv # 导入csv库


定义一个列表,用来保存每件商品的数据。

info_list = []


将Asin、Price、Star添加到列表中。

info_list.append(asin)
info_list.append(price)
info_list.append(star)


打开csv文件(若当前路径下没有改文件,将自动创建)。这里命名csv文件为“iPhone.csv”

csvFile = open('./iphone.csv', 'a', newline='')


创建写入对象、写入数据并关闭csv文件。

writer = csv.writer(csvFile)
writer.writerow(info_list)
csvFile.close()


完整代码:

import requests  # 导入requests
from bs4 import BeautifulSoup  # 从bs4中导入BeautifulSoup
import csv
url =
'https://www.amazon.com/s/keywords=iphone'
response = requests.get(url)
response_soup = BeautifulSoup(response.text
, 'html.parser')
result_list = response_soup.find(
'ul', id='s-results-list-atf').find_all("li")
for li in result_list:
    info_list = []
   
try:
        price = li.find(
'span', 'a-offscreen').text
   
except:
        price = li.find(
'span', 'a-size-base a-color-base').text
    asin = li[
'data-asin']
    star = li.find(
'span', 'a-icon-alt').text
   
print(asin)
   
print(price)
   
print(star)
    info_list.append(asin)
    info_list.append(price)
    info_list.append(star)
    csvFile =
open('./iphone.csv', 'a', newline='')
    writer = csv.writer(csvFile)
    writer.writerow(info_list)
    csvFile.close()
   
print("=" * 60)


运行效果:


以上就是本期的爬虫文章,谢谢阅读。


附 「Requests」&「bs4」的中文操作文档:

Requests:

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

bs4:

http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/


更多精彩推荐,请关注我们


免责声明
本文链接:
本文经作者许可发布在AMZ123跨境头条,如有疑问,请联系客服。
最新热门报告作者标签
24年巴西圣诞节热搜产品调查:装饰品和饮料最为热门
AMZ123获悉,日前,据外媒报道,Nubimetrics的一项调查显示,圣诞庆祝活动推动巴西消费者线上购物热情高涨,多品类商品需求显著上升。根据用户搜索数据分析,装饰用品、饮料、服装、配件、玩具和智能手机成为热门品类。其中,圣诞装饰品如闪光灯(灯线和LED窗帘)成为近期电商平台的重点产品,家庭聚会需求则刺激了饮料销量上升。礼物方面,玩具类搜索量增长明显,玩偶和人偶等玩具脱颖而出。热门产品包括狗狗
257名卖家分别因雕塑摆件和插画被告!分别涉及亚马逊、eBay等电商平台!
01Michael 哥特式雕塑原告Michael Locascio是一位雕塑家,他的作品受到神话、神秘学和恐怖的影响,充满古典和哥特式的特点,从2011 年开始,原告的原创作品已经放在 Etsy 上售卖。原告尚未发出TRO,预计1-2周内有新进展;根据案件流程可知涉案被告共有224名案件信息:起诉时间:2024 年 11 月 25 日案件号:24-cv-12128代理律所:David原告:Mich
2025欧洲30国营销洞察报告:“TikTok新手村”是真香吗?
2024年,跨境巨头频频发力欧洲。Temu 以一贯大刀阔斧的风格,在英国上线本土店,同时开拓了捷克、波兰的市场。TikTok 则“农村包围城市”,进军西班牙,在英国、德国、意大利等市场也一路高歌猛进。在这片黄金大陆上,新兴的电商模式正重塑着市场规则。数据见真知。我们抓取了欧洲30个国家的营销数据,并整理成《GoodsFox|2025年欧洲市场营销洞察报告》,涵盖市场局势、营销打法,以及深入洞察手机
大家圣诞节这两天的销量怎样?我一个星期前还是每天一万美金销售额,今天只有一千五百美金了……
跨界实习生我的C位哇 大家圣诞节这两天的销量怎么样?我一个星期前还是每天一万美金销售额 就在今天 只有一千五百美金了 真的太离谱了 已经生无可恋了……做亚马逊真的需要一颗强大的内心呀「 精彩回帖 」匿名用户赞同来自: Beneme 、 kaiguoguo666888 、 mysclw 、 Shealuck 、 Holshet平安夜和圣诞节都在忙宗教活动和家庭聚会,没空线上购物。这两天销量腰斩说的
日销量超6千单,可视电动洗耳神器跻身TikTok美区热销榜第二
o1.日销量超6千单,可视电动洗耳神器跻身TikTok美区热销榜第二据Shoplus超店有数数据,一款可视电动洗耳神器在12月25日销量达到6.2千单,凭借日销售额9.3万美金的成绩跻身当日的TikTok美区热销商品榜第二位。“Dustproof Ear Wax Removal Kit with Camera Light”是一款家用的耳垢清洁神器,该产品配备有360°广角镜头,能够提供耳道内详细实
月销超10万件!亚马逊最新美容个护十大热销产品推荐
AMZ123获悉,近期亚马逊上10款美容个护产品持续热销,受到消费者广泛欢迎和好评。1.Sally Hansen透明指甲强化剂这款指甲强化剂含有视黄醇,质地如指甲般坚硬,快速干燥,提供晶莹剔透、高光泽的保护性涂层,可锁住指甲颜色,有助于防止碎裂、脱落和褪色。亚马逊上,这款产品位居指甲强化剂畅销榜第3名,上月销量10000+,评论数达20370个,评分为4.6星,五星好评率为78%。2.Essenc
越南新法规将影响TikTok与FB,未验证账户无法直播
AMZ123获悉,近日,越南政府宣布,于12月26日起实施新的互联网法规“第147号法令”,要求在越南运营的社交媒体平台如Facebook和TikTok验证用户身份,并将相关数据交给政府。根据新法令,所有社交平台必须通过用户的电话号码或越南身份证号码验证用户账户,并与用户的全名和出生日期一同存储。社交平台公司需根据政府要求,提供用户数据,并在24小时内删除任何被视为“非法”的内容。此外,社交媒体平
澳大利亚圣诞购物支出将达24亿美元,家具用品成首选
AMZ123获悉,近日,澳大利亚零售商协会与Roy Morgan的最新研究报告显示,预计今年圣诞节期间,澳大利亚人的消费将大幅增长,达到13亿美元。而在12月最后几天,预计消费额将激增至24亿美元,整体消费较去年增长约2.7%。随着生活成本上升,越来越多的消费者选择通过黑色星期五、网络星期一等促销活动进行网购。这一趋势表明,虽然传统的实体店购物仍具吸引力,但电商平台已经成为越来越多消费者的首选渠道
亚马逊赚钱的底层逻辑
实不相瞒,最近我在跟几个老铁吃火锅的时候,大家聊起了亚马逊这几年的变化。有人感慨政策变得太快,有人说选品越来越难,还有人直呼跨境电商水太深、看不懂了。说实话,每次听到这些讨论,我都有种似曾相识的感觉。还记得我刚入局跨境电商时,租住在深圳城中村的老房子里,每天对着电脑研究亚马逊的规则和数据。从最初的懵懂,到现在能够从容应对市场变化,这一路走来,我深深体会到:方法在变,但底层逻辑永远不变。长期主义者的
亚马逊3月10号前尽快处理FBA索赔吧,不然要亏死!
最近,亚马逊美国站又放大招了!这次是FBA库存赔偿政策的更新,直接把不少卖家“整破防”。从2025年3月10日起,亚马逊明确表示,对于客户下单前丢失或损坏的库存,赔偿标准将从原来的按销售价格赔付变成了按制造成本赔付!两字之差,对卖家却是大不同!这里的“制造成本”指的是卖家购买商品的成本,包括从制造商、批发商或经销商处采购,或自行生产的成本,但不包括运费、手续费、关税等其他费用。新政策核心变化,卖家
没事别想不开去干亚马逊
昨天深夜刷抖音,被各种亚马逊爆单、暴利的视频刷屏了。作为一个从2017年就开始做亚马逊的老卖家,看着这些视频我真的忍不住要说几句。我创业的时候只带了5万块钱,那会儿确实好做,选个小众品类,做好基础listing优化,很快就能回本。但现在的市场环境,没个几十万真不敢建议你轻易入场。为啥这么说?且听我慢慢道来。前期投入大,很难快速盈利01现在的亚马逊市场和2017年已经完全不同了。以前一个关键词的点击
突发!5000万美金大账号被封
今天是圣诞节,海外社交媒体上却有卖家,为一位疑似账号被封的大卖呐喊。‍‍一位自称年销售额有5000万美金的亚马逊大卖在卖家论坛发帖,账号无故被封!被封号卖家认为,亚马逊封号后连提交的相关供应商证据都不进行审核,表达出强烈的不满和无奈。这位大卖提到,自己在亚马逊已经运营了8年,为美国top卖家之一。但是亚马逊以无法验证asin为由,冻结了店铺价值500万美元的库存。卖家认为亚马逊的处理方式是极度不公
疑亚马逊给大卖发警告信,安克下架所有Temu产品
2024年,随着越来越多平台的高速崛起,一场以卖家为中心的抢人大战进入了白热化阶段。其中尤以出海四小龙的动作最为声势浩大。据业内消息,自今年三月以来,Temu等平台陆续在全国多个城市召开招商大会,从半托管和全托管两大方向挖掘新卖家,覆盖上百个细分品类。亚马逊中国卖家以及国内产业带商家是这些平台的重点拓展对象。Marketplace Pulse研究显示,SHEIN和Temu上约20%的卖家,同时也在
一年半为公司创造将近600W利润,这样的战绩找新工作可以拿多少底薪? 现公司的作为让我心寒……
匿名用户我的C位2022年下半年到的这家公司,2023年拿到过大类目200名,小类BS,2023年全年销售额$350W+,全年日均单量300+, 全年为公司创造利润¥400W+;加上2022年下半年为公司创造的¥150W+的利润,一年半已经为公司创造¥500W+将近¥600W的利润了。这样的战绩找新工作可以拿多少底薪?来这个公司现在也快两年了,一开始底薪比较低的,因为一开始只有1年的经验,低点就低
阿里巴巴在摩洛哥启动首个非洲电商平台,开拓全球市场
AMZ123获悉,近日,阿里巴巴正式在摩洛哥启动了其首个非洲电商平台,这是阿里巴巴进军非洲市场的关键一步。该平台旨在帮助摩洛哥的制造和出口企业,拓展国际市场,特别是针对北美市场的需求。摩洛哥的战略位置、多元化的产业、高质量的产品、先进的基础设施、优越的地理位置(地中海最大的集装箱港口丹吉尔地中海港),是推动阿里巴巴决定在该国开展业务的关键因素。阿里巴巴进入摩洛哥市场旨在加强全球贸易联系,提高摩洛哥
万万没想到,这个品在Temu上卖了100万件!
经常有卖家跟芒果酱抱怨,铺货了也不出单,觉得跨境太难了,其实是没找到正确的选品姿势。今天我们就以全球第二大电商平台Temu为例,给大家盘一盘到底该如何铺货?一、选品思路01市场需求这个需求可以来自平台买手,也可以来自自己对国外地域文化的了解,这方面可以介绍一个小妙招,大家可以去刷目的地国家的影视作品。🤞据了解,Temu2025年的重点会加大除美区外的流量扶持力度,平台侧已经精细化运营,2025年“
《亚马逊全球消费趋势及选品报告5》PDF下载
消费者是企业的生命线,而他们的行为永远在变化。 为了让企业真正了解消费者的需求,亚马逊每季度均会撰写及发布此趋势报告有助于企业发掘尚未被满足的消费需求,促进产品创新。
《2024亚马逊广告报告》PDF下载
2023年对电子商务来说是一个改变游戏规则的一年,开启了人工智能时代和新的社交媒体商务时代。新技术和销售平台的融合正在改变销售和购物体验,并让新的参与者- 从抖音到特木-与亚马逊竞争。
《2024年东南亚新能源应用产品电商行业市场洞察报告》PDF下载
东南亚是全球能源需求最旺盛的地区之一。根据国际能源署(IEA)预测,2050年东南亚地区的能源需求预计增加2倍。这主要是因为东南亚高度依赖化石燃料,未来可能面临价格波动和供应风险。因此,各国陆续出台了相关政策,鼓励与支持低碳能源转型。
《中国企业全球化运营白皮书》PDF下载
2024年,当我们谈起中国企业出海与全球化的时候,我们已经有和过去完全不同的语境:一方面,“不出海,就出局”,已经成为近期一些中国出海企业的信条,他们已将出海作为企业生存发展的长期主义选择;另一方面,政府也出台鼓励中国科技企业出海的政策,出海已经成为一种新的企业时尚,少数尝到出海红利的中国企业惊讶于时局变化之快,一些企业出海不足5年就已经获得快速的业务增长,出海真的可以遇到蓝海。
《2024Q1 美国站消费者趋势报告》PDF下载
大多数消费者(52%)表示他们在2024年第一季度的总体支出与去年第四季度大致相同。这与过去三年不同,因为报告第一季度支出与第四季度相似的消费者比例较低。这可能归因于2023年消费者报告通过提前购物、购买较少礼物以及采用其他节省资金的策略来减少节日支出。
《出口中东跨境电商行业洞察报告》PDF下载
2023 年,全球消费需求持续转向线上,中国出口跨境电商持续增长,海外电商机遇广阔。对于中国出海品牌和卖家来说,持续挖掘新增量,在全球市场解锁新蓝海,是大势所趋。
《2024年X中国品牌出海营销白皮书》PDF下载
“不出海,就出局”成为中国工商界最火的流行语之一。越来越多的中国新春伊始,企业将出海作为战略发展的重要组成部分,积极布局全球市场,寻求新的增长空间。
《政策鼓励下,看好跨境电商和海外仓发展前景》PDF下载
新兴电商平台 Temu、shein 纷纷布局“半托管”模式,有望提升家具线上渗透率及海外仓需求。24 年1月,速卖通开放半托管模式。24年3月,Temu 在美国上线半托管模式,半托管模式中,商家需要负责供货、物流仓储和广告、售卖等环节。
欧洲电商资讯
AMZ123旗下欧洲跨境电商新闻栏目,专注欧洲跨境电商热点资讯,为广大卖家提供欧洲跨境电商最新动态、最热新闻。
跨境电商赢商荟
跨境电商行业唯一一家一年365天不断更的媒体!
北美电商资讯
AMZ123旗下北美跨境电商新闻栏目,专注北美跨境电商热点资讯,为广大卖家提供北美跨境电商最新动态、最热新闻。
跨境电商干货集结
跨境电商干货集结,是结合亚马逊跨境电商卖家交流群内大家在交流过程中最常遇到的问题,进行收集整理,汇总解答,将会持续更新大家当前最常遇见的问题。欢迎大家加入跨境电商干货集结卖家交流群一起探讨。
亚马逊资讯
AMZ123旗下亚马逊资讯发布平台,专注亚马逊全球热点事件,为广大卖家提供亚马逊最新动态、最热新闻。
跨境科普达人
科普各种跨境小知识,科普那些你不知道的事...
亿邦动力网
消除一切电商知识鸿沟,每日发布独家重磅新闻。
AMZ123选品观察员
选品推荐及选品技巧分享。
Activities
活动
Information
跨境资讯
跨境资讯
Group
社群
品类交流群
跨境资料
官方社区
宠物品类交流群
加入
家居品类交流群
加入
母婴用品交流群
加入
立即扫码咨询
立即扫码咨询
立即咨询
官方微信群
官方客服

扫码添加,立即咨询

扫码加群
官方微信群
官方微信群

扫码添加,拉你进群

更多内容
订阅号服务号跨境资讯
二维码

为你推送和解读最前沿、最有料的跨境电商资讯

二维码

90% 亚马逊卖家都在关注的微信公众号

二维码

精选今日跨境电商头条资讯

回顶部