亚马逊最准确的销量数据,独家解密
亚马逊在前台公布“销量”数据,已经是大家都知道的事情了。
但很奇怪的是,大家似乎都发现,这个近似数据好像比后台的实际销量要偏小一些,不同的品类的误差还不太一样。
偏小确实是偏小,但经过我们研究之后发现,如果我们真正理解了这个数据的含义,这绝对是亚马逊历史上最准确的“销量”数据。
不仅比市面上所有使用BSR预估的软件都要准确,而且这还是子体的销量,不管是对选品开发,尤其是亚马逊的精品或品牌型卖家的选品开发,还是对运营的精细化,都有非常强的指导意义。
而原来大家要预估子体销量,都是先通过BSR预估父体销量,然后通过评论的占比去预估子体的销量。父体销量如果都已经不准了,子体销量再通过评论占比预估就更不准了;更别说这种方法还非常的费时费力。
今天这篇文章,就是帮助大家告别过去,把我们对销量的研究成果毫无保留的分享给大家!如果大家对销量数据的应用也感兴趣,欢迎去登录Sif的网页版和下载插件体验(使用折扣码:KUAJYD 可以享受92折优惠)。
文章还是会有点长(又是8000字长文),老样子,还是先放结论,大家没时间阅读可以先吸收结论;有时间则不妨看看我们是怎么做这个研究的。
研究结论
前台展示的销量的统计口径是(最重要的是最后两点):
销量采用近似值,格式为:50+(代表50→99)、200+(代表200→299)···
亚马逊前台不展示销量数据,代表月销量<50(或该品类暂时未开放销量)
这是子体销量,不是父体的
这是子体的总销量,不是子体在关键词下的销量
这是过去30天的滚动销量,不是上一个自然月的固定销量
销量更新频率为小时级,但不完全实时,而是略微有延迟的720小时销量
这不是产品的销量,而是 订单量
销量中 不包含取消、退款、和某些促销订单
由于研究过程是有先后顺序的,前边的口径是研究后边的口径的基础,所以我们的行文顺序也是按照结论的顺序。但是如果大家最关心后两个结论,可以直接去阅读后两个统计口径的部分。
口径一:销量采用近似值X+
大家第一次看到亚马逊前台的销量时,就已经知道展示的是近似值X+,比如50+、200+、1k+(1000+)。
需要特别说明的是,50+代表的是50到99之间,不只是50-59之间。
除此之外,其他的都表示,范围的最小值是x,最大值是把0全部替换成9。比如:200+,表示200到299之间;7k+(7000+),表示7000到7999之间。
口径二:月销量<50的产品,亚马逊前台不展示销量
这个很好研究,多搜索几个关键词,多往后翻几页,就会发现销量展示的临界值在哪里了。找到那个最小值,就是临界值。
当然,如果某个品类里的产品都不展示,则是因为该品类的销量数据亚马逊还没有开放。
比如以下品类的销量数据从 9 月份开始开放:
Amazon Devices & Accessories
Amazon Renewed
Camera & Photo Products
Cell Phones & Accessories
Computers & Accessories
Electronics
再比如以下类目至今依然没有开放销量(当然这些类目大家也都不做,不需要关心):
Audible Books & Originals
Apps & Games
Books
Entertainment Collectibles
Gift cards
Kindle store
所以目前Sif的销量历史数据,最早可以追溯至2023年5月份。
亚马逊开放销量的最早时间大概可以追溯到2023年2月份,但是在5月份之前的销量好像都有些问题,甚至短暂的展示过浏览量,前端的文字显示叫做“xxx+ views in past month”,而且数量级确实要大很多。
口径三:子体销量
要确定是子体还是父体销量,只要看同一个父体下的不同子体的销量是否一样就可以了。如果都一样,那大概率是父体销量;如果不都一样,那就是子体销量了。
这是同一个父体下的不同变体的销量:黑白色是2000+,黑色是300+。销量不同,所以这是子体销量。
口径四:子体的总销量
销量最开始是在搜索结果页开放的,所以很自然地,大家会想到这个会不会是每个子体在不同关键词下的销量。
我知道,大家当然都超级希望是在关键词下的销量,包括我也是!
但我们都想得太美了,不同关键词下的销量都是一样的,也与产品页的销量吻合。所以是子体的总销量,与关键词无关。
当然,我们也可以祈祷一下,有一天亚马逊会开放在不同关键词下的销量,哈哈哈。
口径五:过去30天的滚动销量
要研究的统计口径里,时间是一个非常重要的维度。亚马逊前台的口径叫做“past month”,这基本就两个含义:
这是过去一个自然月的固定销量
这是过去一个相对月(类似于过去30天)的滚动销量
在英语里,如果是指上个自然月,一般用的是“last month”,而不是“past month”。所以我们倾向于猜测,“past month”大概率不是指上一个自然月。
当然,为了严谨,我们还是用数据证明一下。证明的方法也很简单,只要在本月中,这个销量数字会发生变化,就说明不是上个自然月的销量。因为如果是上个自然月的销量,那么这个数据就会是固定的历史数据,不会再发生任何变化了。
为了验证这个假设,我们以比较高的频率抓取了详情页的销量变化。
实际情况跟我们猜测的一样,在同一个月里,这个数据还会反复的变化。这就证明了肯定不是上一个自然月的固定销量,而是类似最近多少天的滚动销量。
但究竟是多少天呢?我们的猜测是30天。之所以这么猜测,是基于经验之谈,也就是相对月的天数,国内外都倾向于是30天。而我们后续的研究里也能证明,如果是30天,数据则刚好能对应上。
口径六:销量更新频率为小时级,但不完全实时
确定了是过去30天的滚动销量,接下来自然就要研究滚动更新的频率是多久。
大家可能会想当然的认为既然是过去30天的滚动销量,那肯定是按天更新的。但从我们跟踪的样本数据来看,情况却并非如此。
比如这个产品,在12月9号那天12:21的销量还是50+,在12:46就变成了空(也就是低于50),然后在下午17:26的时候又变成了50+。也就是说,销量数据在一天内就变了3次。
为了准确研究更新的时间规律,我们把监控了的多个产品的变化时间点都整理了出来,发现销量更新的时间点并没有固定的规律,一天中的任何时间点似乎都可能会发生变化。
这个首先可以说明,销量数据并不是按天更新的(数据是美国站的,所以切换成美国时间对比),因为如果是按自然天更新,那销量数据在美国的一天之内只会有一个固定的值,而不会多次变化。
然后,根据上图的时间分布,从早上10点开始,到晚上24点的十几个小时内,几乎每个小时都有可能发生变化,所以从更新频率来看,更新频率至少是小时级的,甚至看起来有点像实时的。
是否是小时级的不是很好研究,但是不是实时的却相对好办。
我们以非常高的频率监控了10多个产品的销量变化,只要能从中找到前台销量变化的时间点(比如从50+变为不展示),但对应到后台的订单没有任何变化,即可证明统计并非实时的。
而后台订单变化的状态无非三个:
有新的订单产生
有老的订单掉出“过去30天”的范围
不进不出的订单的状态发生了变化(比如取消、退款等)
很快,我们就找到了案例:
这个产品2024-01-08 17:56:36显示50+,8分钟后的18:04:22就变成了<50(前台不展示)。但在这8分钟内:
后台并无新订单产生
30天前的2023-12-09的18点左右也没有订单,所以也不存在掉出
中间的唯一一个cancelled的订单,已经在2023-12-30号就已经取消了,所以中间的订单也没有变化
也就是说,前台销量变化的时间点,后台并没有订单状态支持这种变化,两者在时间上并不同步。
同时,从2024-01-08 17:56:36往前推30天(准确说是30*24= 720个小时),这个时间范围内的订单数总共才48个,并不满足50+的要求。
这两个证据即可证明,销量统计并不是实时的。
既然不是实时的,那就表明存在一定延迟。然后我们又看到销量数据更新的频率几乎是小时级的,所以综上我们得出的结论是:这是有一定延迟的720小时的销量。
这话是什么意思?我给大家画一个图就比较好理解了:
图中的红色问号,代表亚马逊统计的720小时的时间范围的终点并不是当下的实时时间,而是比当前时间略早的一个时间。从那个时间往前推720小时,就是past month的起止区间。
至于红色问号到底是多长时间,我们没有足够的样本做非常精细的分析,目前能看到的结论是大概在几个小时到十几个小时不等。
大家也不用过于纠结这个精细度,因为对统计结果的影响已经很小了。
以上这些口径对销量统计的影响都是比较小的,在确定了以上口径之后,我们进入本次研究最核心的环节——对销量影响最大的统计口径。
口径七:不是产品的销售量,而是订单量
确定上述口径之后,我们开始从卖家那里寻求更多样本数据,很快,我们就发现了第一个巨大的误差。
我们对比了同一个产品最近几个月的卖家后台真实销量和亚马逊前台展示的销量,发现某些月份的差距巨大,而某些月份又很接近。
比如上图中的2023年11月份,实际销量3641,但亚马逊前台给的只有1000+。就算1000+代表1999,那也与真实销量相去甚远。但2023年1月份则基本能完全对应,实际销量是3636,亚马逊显示3000+。
在陆续确定了客户的销量数据满足我们上边说的几个统计口径后(比如是子体销量),我们还询问了客户的订单结构是否在这几个月有明显变化(比如广告单占比、站内站外占比等),但客户说订单结构没有什么大的变化。
然后我们开始对订单列表中的每一个字段进行排查,慢慢的,我们把注意力锁定在了“订单”和“销量”的区别上。
虽然我们之前整理的数据都是基于订单列表的,但我们似乎都想当然的认为销量是卖出去的产品数量,所以一直在销量上打转。
但有没有可能是订单量呢?因为一个订单可能购买多个数量。
虽然在我们的认知里,这两者的区别应该很微弱,我们也想不到什么品类能够平均一个订单买多个。但也许有什么事实是我们认知之外的呢?
于是,我们让客户帮忙重新统计了订单数量,得到了新的对比表格:
数据一下子就基本对上了,准确率还非常之高。而之前用销量对不上的原因,就是因为在某些月份,每个订单的平均购买量非常高,比如去年11月份几乎达到了平均每个订单都有2个销量。而本来就对得上的2024年1月份,则每个订单几乎都只有一个销量——误差的波动便来自于此。
很快,另一个客户的数据也支持了这个结论:
完美!第一个对销量有重大影响的统计口径就这么被确定下来了,且数据准确率还非常之高。
但研究到这里就停止了吗?当然没有,因为上边那个对比里还有一朵“小乌云”——2023年10月份的646和500+之间还有一些误差。
于是我们继续探索下一个目标。
口径八:不包含取消、退款、某些促销订单
确定是订单之后,我们将所有样本数据都以订单量进行了修正,接下来就是确定订单列表中的哪些字段的哪些值在被排除之后,能够与前台的x+对应。
为了能够确定到底是哪些标准影响着统计口径,我们将导出的订单列表里的所有字段逐个进行了排查。
为了使结果更加具有说服力,我们找的是那些月订单在50左右变化的产品(在亚马逊前台经历过“不展示”和“50+”之间的切换),选这些产品的目的是因为他们能够在50的临界值附近提供非常精细的可控区间,让我们能够对“每一个订单”进行排查。
我们接下来的工作就是在那些订单量刚刚过50的产品里剔除一些订单,使其刚好等于50这个临界值,并且在前台订单量发生变化的时间点前,订单量刚好<50。
很快,我们就从几组数据里得到了可能的条件组合。
比如下边这一组:总共59个订单,其中cancelled的订单3个,剩余56个。然后我们就去找能减去6个订单的列,很快,我们就锁定了promotion ids这一列:减去6个,刚好等于50。
接着我们又研究了另外一组。这一组是总共61个订单,减去4个cancelled的,剩余57;而其中的7个刚好包含同样的promotion id。
上述的两个案例里,符合条件的两个统计口径分别是:
第一,Cancelled的订单不计入订单量。如果是cancelled的订单,因为交易最终没有达成,不计入订单似乎逻辑上是说得通的;而如果被cancelled之后会被剔除,那么理论上同一个时间段的订单量,在不同的时间去统计,可能会有细微误差,但基本可忽略。
第二,promotion id中的值为US Core Free Shipping Promotion A3JU1FCINF5SD0的订单不计入。这个的研究,则费了好一番功夫。
首先我们明确了的是,这一串标识在美国站是通用的,也就是说不同卖家如果有这种类型,标识都是完全一样的。A3JU1FCINF5SD0并不是与产品绑定的特定促销代码,而是美国站的通用促销代码,仅用于标识类型,不用于定位具体的某一个促销。
最开始我们以为A3JU1FCINF5SD0这一串代表的是站外促销,因为它和站外促销的链接中的promotion code的格式是一样的,都是A3开头,且都是14位。
但其中两个客户明确表示自己的产品没有做过站外促销,所以看起来这个Code的含义另有所指。
于是我们重新关注了下这个Code的全称,把注意力集中到了“Free Shipping”上。
如果只是独立理解Free Shipping,那意思很简单,就是免运费。而免运费在亚马逊上的体现通常有两个:
prime会员免运费
非prime会员满多少免运费
难道要把免运费的订单剔除掉,甚至连prime订单都要剔除?这听起来太荒谬了,感觉应该是不可能的。
为了检验是否有可能,我们反向做了下验证。如果这串代码代表免运费订单(含prime会员订单),而prime会员订单在所有订单里就一定占大头(美国站prime会员数超过2亿),那么拥有Free Shipping的promotion一定数量很多。
但实际情况是,所有客户的订单样本里,Free Shipping的占比都比较低。这也就意味着,这里的Free Shipping不是常规意义上的免运费,而是某种特殊的通过促销来实现的免运费(常规的免运费不是通过促销手段来实现的)。
接着,我们研究了一下运费相关的数据。发现三个有意思的现象:
有大量的订单本身就不包含运费,也就是运费这一列为空。我们猜测,这才是常规意义上的免运费,包括prime会员免运费和非prime会员满多少免运费,这个比例(91/110=82.73%)看起来就是相对比较正常的。
所有promotion id字段中的值包含“Free Shipping”的,shipping-price(S列)这一列都有值,但这个运费都在X列的ship-promotion-discount被减掉了,而且两个值完全相等。
也就是说,这是一类看起来本来需要运费,但通过某种促销之后运费被免了的订单,这类促销还可以与其他促销共存(W列的存在)。
虽然每一个包含Free Shipping的订单都有shipping-price,但并不是每一个包含shipping-price且在ship-promotion-discount中被等值减掉的订单都属于Free Shipping。
综上所述,这是一种极为特殊的促销订单类型,我们已经做了非常大量的猜测,但目前还没有任何一个能完全解释得通的结论。欢迎大家一起参与研究。
留下这个小疑团之后,研究也并没有结束,我们知道亚马逊促销不止一种,我们上述研究的仅仅只是一种类型,所以我们找了点别的有其他促销类型的订单样本继续做研究。
第一组样本真实订单量是246,亚马逊前台显示200+。看起来好像已经对上了,但promotion ids字段里还有别的促销类型。
在排除了cancelled的6个和unshipped的5个之后,还剩余235个有效订单。这235个订单里,只有72个是没有促销的。
剩下的除了我们已经明确的Free Shipping促销之外,还有3类:
①的总数是1+1+2= 4个;②的总数是9+1= 10个;③的总数是35+96=131个。
要让减掉一些结果之后依然能够保持200+,①和②我们不知道是否应该排除,但③我们可以确定一定不能排除,因为③的总数是131个,235-131=104个,只剩100+了,与亚马逊前台数据200+不符。
而③这种类型,是优惠券(coupon)对应的促销,也就是说优惠券对应的促销订单是包含在统计范围内的。
这只确定了优惠券,还有其他两种①和②没有确定,所以我们继续研究其他样本。
这个样本的月订单量是121(亚马逊前台显示50+)。减去6个cancelled和6个unshipped之后,剩余109个。而109个里,我们知道③里的18+43=61个不能减。所以109还要至少减去10个,才能满足50+的要求(50+表示的范围是50-99)。
而我们之前确定了要减去的④只有2+2=4个,109-4=105,还不够,至少还差6个;而①有1+2+1=4个,②有1+2=3个,只减去其中任何一个都无法满足<100的需求,所以①和②的4+3=7个都要同时减去,106-7=99,刚好是50+。
再来一组数据:这个样本的月订单量是112(亚马逊前台显示50+)。减去2个cancelled之后,剩余110个。而110个里,我们知道③里的61个不能减。所以110要至少减去11个,才能满足50+的要求(50+表示的范围是50-99)。
而我们之前确定了要减去的④只有5+3=8个,110-8=102,还不够,至少还差3个;而①有1+1=2个,⑤有1个,只减去其中任何一个都无法满足<100的需求,所以①和⑤的2+1=3个都要同时减去,102-3=99,刚好是50+。
这两个案例证明,类型①、②、⑤也要从统计口径中排除。
怎么能这么巧,这两个样本都刚好是在99,属于50+;如果再多一个,就属于100+,结论就得不出来了——太惊险了,从没做过如此“擦边”的研究😂。
既然都到了这里,我们肯定要明确下①、②、⑤分别对应的促销类型。根据客户提供的数据,大致的结论如下:
①代表品牌定制促销,这是给之前买过你家产品的客户的促销类型
②代表提供百分比折扣的促销,对应后台的类型为:percentage off。该类型开启后,百分比促销会生效,而减多少金额的促销会被禁用,其他促销类型不受影响,可以共存。
⑤猜测是全球配送的免运费订单(应该是属于Free Shipping折扣的一种子类型,所以前边有一个duplicated的定语)
最后做一下总结:
促销类型 | Promotion id格式 | 是否计入亚马逊前台订单量 |
优惠券 | PLM-819237f9-ded2-41cf-a6a2-e46f58cd277a | ✅ |
未知类型的Free Shipping促销 | US Core Free Shipping Promotion A3JU1FCINF5XXX | ❌ |
品牌定制促销 | 268ff729-a96d-4290-98cd-fe4cac4ad4d2 | ❌ |
Percentage off | Percentage Off 2024/02/14 18-31-35-809 | ❌ |
全球配送的免运费促销 | Duplicated A3JU1FCINF5XXX 1569460229772 | ❌ |
虽然得到了这个结论,但请大家务必注意:以上的①-⑤只是亚马逊的部分促销类型,并不包含全部,所以我们的研究结果仅基于目前样本数据中包含的类型,仅供大家参考。其他没有样本数据的促销类型到底是否包含,我们还需要更多数据才能验证。
到了这里,我们接触到的所有样本数据都能使后台订单量和亚马逊前台订单量对应上了。在没有新的样本提供新的误差之前,此研究到此暂时告一段落!
意料之外的新口径
本来以为这个研究到此就可以盖棺定论了,但我们的技术同事的一个新发现,让这个数据指标又有了一个新的小疑团。
当把日本站的语言切换成中文后,亚马逊前台页面显示的销量提示信息是:过去一个月有x+顾客购买。
WTF!难道这个是代表购买人数?
这是在亚马逊站内原生自带的语言切换,属于亚马逊页面控制的范围,更不是机器翻译的结果。所以,这个信息是经过人工定义之后显示的。也就是说,这个数据的统计口径可能是去重之后的购买人数。
但要把订单归属到同一个用户身上,而且数据要能刚好满足要求,这样的样本条件非常苛刻。
大家都知道订单列表里目前只包含购买者的名,比如David、Frank这种,而这是比较容易重名的。
而后台现在的网页源代码里已经没办法找到买家的唯一id,为了确定买家的唯一身份,我们把每一个订单的邮寄地址手动复制粘贴了出来。
如果两个订单的购买者名称相同,邮寄地址也一样,我们会猜测这大概率是同一个买家。如果确实是同一个,在后台的订单详情页面,能够在购买者信息下看到“查看这个买家的所有x个订单”。
点击这个文字,可以跳转触发一个搜索,过滤该买家购买的订单,同时在右上角显示该买家的站内邮箱地址。
遗憾的是,这个数据的整理需要大量人工操作,我们自己的数据里又没有刚好合适的,所以这个问题的研究只能暂时搁置。
不过好在绝大部分品类在30天内的复购率应该都非常低,所以订单量和购买人数可以认为是近乎相等的。除非就是那种订单量刚好在临界值附近的,比如1000个,但有一个复购订单,导致实际购买人数是999,于是亚马逊前台显示900+,一个复购订单造成数量级上的误差(当然就算如此,误差其实也不大)。
结语
以上便是我们关于销量的所有研究内容。从2022年的搜索量研究,到2023年的商品投放(ASIN定投)研究刷新了大家的很多认知,再到24年的销量研究,虽然每一次研究的强度和难度都很高,但我们都乐在其中,能利用这些数据给大家提供更有参考价值的数据,我们的付出就没有白费。