从设计到归因 AB Test实战心得

白鲸出海

9029

2020-04-20 23:32

9029

白鲸出海

作为数据增长实战分享的第一篇，我先从个人认为最重要的 AB Test 实战开始分享，而分享过程中涉及到重要且无法展开的，未来会慢慢再与大家讨论和分享。甚至我会和大家讲到一些数据平台的使用玩法比如神策、Firebase 等。

关于 AB Test

说到 AB Test 大家都不会陌生，也是增长黑客概念流行以来非常热门的话题，我曾与业内经常做 AB Test 的朋友交流，也遇到过这类常见的问题：

1. 方案存在多变量，没有控制唯一变量，实验结果很难归因和解释

2. 多组实验同时跑，不知道实验的变量相互干扰

3. 不确定如何有效评估实验，提升多少算有效？

4. 实验结果看起来有效果，上线后却效果不明显

5. 实验结果看起来有效果，但不知道为何，无法归因出原因

我们最可怕的不是不知道要开展 AB 实验，而是明知道要开展，却不知道如何科学开展或开展后面对数据结果一脸茫然。

如何科学开展实验呢

首先，实验的过程可以简单分为三步：

. 实验设计 - 包括实验的想法，背景，假设，方案，指标等

. 实验上线 - 包括实验 AB 功能，数据采集，测试和上线

. 实验评估 - 包括数据获取，对比分析，转化结果显著度，实验结果归因，结论，建议和计划

具体过程相信大家不会陌生，所以不会逐个介绍，下面我们重点聊聊整个过程可能常遇到的问题和经验教训，这也是我本次想分享的核心。

看似简单的实验设计，更需要重视

1、实验想法拿数据做支持

. 记住不要光拍脑袋不分析数据，这是提高实验成功率的有效途径，否则你将会承担更高的实验风险，要么实验没有效果，要么实验效果下滑，这些都是浪费资源的做法

. 公司不会有那么多时间和资源投入到一个又一个失败的实验方案中，因此想法很重要，但更重要的是参考、分析，为你的实验想法提供数据依据，拿数据说话

. 真实的情况是，我们完全可以拿数据否掉很多不靠谱的想法

. 由于本次分享的内容侧重点，这块内容以后的机会再分享

2、实验目标说清楚，写下来

. 清晰的实验目标能够让方案聚焦，也避免评估结果的相互扯皮

. 如果团队有人想要收入，有人想要留存，这往往打架的实验目标会造成后续的一系列麻烦

经历：

我们曾遇到过一个实验对于收入的效果非常显著，但却损害了用户体验，导致用户认为应用收费性质过强而流失，但团队一致认为当前收入最重要，且通过数据验证了流失的用户均是较为低质的活跃用户，对长期留存来看并无意义，只是短期留存不好，DAU 会下滑。

但团队中有人则认为前期的活跃用户更重要，不想流失用户和 DAU 下滑，这个就团队在前期没有确定一个一致的目标造成，最后的结果则是非常不欢，方案也没有上线，非常打击团队的信心。

我们不要总期待鱼和熊掌兼得，那是可遇不可求的，我们也正是一直在方案的利弊中，学会权衡并决策前行，这才是可贵的成长和经验，我们总要学会抛弃芝麻捡西瓜，把目标定下来，会更利于我们的决策。

3、实验方案设计

. 清楚了解自己的实验目标，设定测试中想要测试的变量

. 尽量避免要评估的方案存在多变量的情况，控制唯一变量，有利于得到更多实验信息

. 分组设计会是另一个重点，我们放在后面来讲

经历：

我们曾犯过这类错误，上线一个新的付费页面，但我们实验设计前期没有想清楚可以评估和实验的变量，导致我们只控制了展不展示该页面，但该付费页面我们换了新商品，更换了 SKU 组合，更换了商品的折扣属性，页面也放置在用户完成关键动作后出现。

不难想象，我们最终只得到了一个大而全的策略结果，而不知道页面里面的变化能起到的关键作用，因此我们浪费了一次机会，丢失了本可以获取的实验信息。

这个过程就好比如下，同时修改了颜色和文案那样，我们无法知道颜色和文案分别的影响。

尽量不要做出这样的对比，在实验前想清楚，再想清楚，把你要评估的变量梳理清楚，这样再把变量拆开。

如下：

实验设计方案参考如下模板

关于数据采集这块我就不做分享了，不是本次的重点，后续有机会我们再拿来分享。

AB 实验工具

笔者使用过多个 AB 工具，包括自研 AB 系统，Firebase 等第三方支持 AB 的工具，我总结了常见 AB 工具的几个特性，供大家今后需要的时候参考。

当我们创建一个 AB Test 时，需要有：

• 用户圈选：一般要求系统能够对目标实验群体做圈选，满足的用户进入 AB Test，建议支持系统已有的用户属性，行为数据，用户标签等作为可选择维度，第三方工具则要求相关数据上报，需做好前期的实验设计和数据采集工作

. 实验灰度：假如你的实验不想影响所有用户，那么这个正是你所需要的，可以实现逐步放量，相对完善的 AB 工具均有此类选项，如 Firebase

. 配置项：一般指可以由后端自定义值的【远程配置】，例如：是否展示免费试用商品，就是一个【远程配置】

. 实验分组：任意增加多个分组，并为各组选择配置项，配置项的值，以及该组的样本比例

. 实验分组标记：每个创建的实验都建议为每个实验创建一个 Track Tag，将分组名称作为值，如 Test1_Control，Test1_VarB，Test1_VarC，然后作为一个用户的标签标记上，同时要避免标签数据被覆盖导致历史实验数据丢失

如果大家是做出海的 App，Firebase 是我优先推荐的，它是谷歌的产品，而且免费，但唯一不好是对国内支持不好，所以可以根据实验群体和场景选择哦。

当然最灵活的还是自研 AB 系统，但是这个需要一个较有经验的增长产品经理或增长数据分析师来参与比较好系统的设计和数据采集，这样才能较好确保系统的可用，否则仍会出现很多坑，下面我来讲一下我们团队在实验分组遇到过的问题。

实验分组

1、按照用户 ID 等属性计算随机值

我们团队一开始通过用户 ID 来实现简单的随机分组，这个方式在我们跑多组实验的时候遇到了问题。

按用户 ID 属性计算分组值存在的潜在问题如下：

假如一个用户 U3，基于该用户 ID 通过某种随机算法计算得到 59，按照随机算法被分配到 50%~100% 这个区间，此时如果 Test1 区分 AB 两组，各 50%，那么用户 U3 应该会被分配到 Test1 的 B 组；此时如果又有 Test2 区分 AB 两组，各 50%，那么该用户仍会被分配到 Test2 的 B 组。

最后当我们要对 Test1 的 A 组和 B 组做对比时，假设 Test2 也会或多或少影响 Test1 的目标转化，那么就会多了一个 Test2 的干扰因素，从而两个实验的变量会相互干扰结果，无法评估某个 Test 变量的贡献，如下图所示：

因此这种情况下你只能同时跑一组实验。

2、按照用户 ID 等属性和实验 ID 计算随机值

后来，我们采用另外一种分组方案，按照用户 ID 和实验 ID 共同决定随机值，这样起到在每个实验中，两组的用户也分别均匀分布在其他实验的各组值中，如下图所示原理，理论上两个实验均设置两组各 50%，则样本预计将平衡贴近 25%。

理论上，Test1 和 Test2 就相互不干扰了，因为在分组足够均衡的情况下，Test1 AB 各组受其他实验的影响也被均衡了，可以近视忽略不同变量相互之间的影响。

3、另外一种分组方案探索

我们团队还尝试过另外一种方案，这种方式就是把用户按照一个个规定的桶，将用户随机分配好，然后为实验具体组选择某个（几个）桶的用户，会比较强隔离每个实验，互不干扰，相对来说比较方便，但却需要有专人管理和把控实验资源的配置，且样本量要足够大，否则一旦筛选了条件导致样本量不够多，则会面临分组不够用的问题。

我身边也有朋友在这么做，这只是分享给大家参考，大家可以结合自己的实际情况来决定。

如果大家选择一些 AB 工具则可以不用太担心，人家已经实现了合理的分组，按照说明设置就好了，但在自己实现分组的时候则需要特别留意这块了。

实验评估

这里我们关注一个重点，如何评估实验结果是否有效，或者说如何评估提升多少才算有效？

关于如何选取评估指标，这个需要大家结合实际业务场景来确定，这个就不介绍了（注意，我们往往不会评估单一指标）。

对于出海来说，尤其是工具类产品，最不陌生的就是免费试用了，这个苹果和谷歌为我们提供了很成熟的产品支持

我就拿这个举例子，也是我们团队亲身经历过的项目。

先做个简单假设：上线 7 天免费试用，能够对收入有提升 10%，提高用户付费转化率提高 10%。

核心评估指标：

. 用户付费转化率（7 天内，0 金额不计算）

. ARPU（7 天内）

实验分组：

A 控制组，默认不曝光

B 实验组，曝光 7 天免费试用，显示免费试用字样

参考下面数据例子，

我们可以看到示例中：

整个实验周期中，A 组有 12100 个样本参与，B 组有 12200 个样本参与；

A 组的成功付费转化率为 1.65%，B 组的成功付费转化率为 1.97%（为了简单演示，没有给出置信区间估计）。

如果单靠看转化率的变化，我们可以看到 B 组有些效果，但提升是否真的有显著效果呢？

这就要求我们引入统计显著的概念了，先来看示例中我们计算的结果是 95% 显著，这个就能极大给我们信心说结果是显著的。

当转化率结果显著，这个意味着实验有胜出组了，然后看 ARPU 表现，即可大概率确认实验的效果。

这里只举一个指标评估做为例子，实际评估还需要结合实际业务来看，包括评估方案的正向反向效果。

一个小技巧：当我们的运营团队不知道如何分析结果的归因时，采用转化前后的用户行为做差异分析，这样就能大概率做到对结果的归因分析了，关于归因仍为一个大专题，不在这里做详述。

统计是否显著概念

如果有朋友学过统计学或者接触过类似的概念，相信不会陌生，这里只做下概念普及，为了通俗易懂，有些描述可能也不是特别的科学严谨。

统计推断的概念需要有一个【原假设】，这个【原假设】我们一般假设实验的方案不如老方案效果好，然后想办法推翻，以此来坚信我们的实验是有效果。

例如这个效果指付费转化率，那么就是说，实验的 B 组的成功概率（用 PB 表示）不如实验 A 组的成功概率（用 PA 表示）高，即 PB<= PA。

有了【原假设】，接下来只需要找证据推翻上述【原假设】就可以了。

前面实验中 PB=1.97%，而 PA=1.65%，PB>PA，这个时候可以推翻原假设吗？

不能确定，因此需要引入统计显著的概念，一般显著度达到 95% 以上，就可以有足够的信心推翻原假设。

这个 95% 你可以简单理解为 PB>PA 发生的概率超过 95%，这样我们的信心就很足了。

关于显著度的计算这里不深入展开，只是提供大家一个判断依据，对效果的评估要加上这个会比较科学，这样能知道方案上线后有效果的把握程度。

注意：发生概率高，不代表一定会发生，所以要做好上线后随时准备面临结果不如意的心态。

别忘了细分实验结果

在我们多次跑实验的经验，尤其是对于出海应用，我们面临了很多的国家市场，来自全球各地人付费文化和行为模式是存在差异的，因此我们前期实验选择的群体可能就包含了不同消费特性的人群，因此无论在总体结果是否显著的情况下，我们都应该做更多维度的细分。

这样我们能有效发现那些响应不足或响应后效果差的地区，对策略做出及时的调整。

巧妙利用 AABB 分组

这个是我最后想补充的内容。

想必大家都会遇到一些波动特别大的指标，类似一些收入指标，那实验出现随机的结果是很可能发生的，这个时候 AABB 分组策略能给我们提供一些信息。

假如我们实验只是简单的分为两组，实际上我们还能够将 A 组划分成 A1、A2，将 B 组划分成 B1、B2 组。

通过对比组间，如 A 组和 B 组的结果来衡量实验效果。

还能通过对比 A1 和 A2，或对比 B1 和 B2 来确认组内的数据是否稳定，如果组内数据差异过大，而组间差异也表现差异很明显的时候，这个时候就要小心我们前面提到的随机发生的结果。

因此 AABB 分组还够给我们提供更多的实验信息，大家可以去尝试一下。

免责声明

本文链接:

本文经作者许可发布在AMZ123跨境头条，如有疑问，请联系客服。

超158%速度增长的亚马逊潜力站点购买力，这些掘金知识点你必须掌握！

所有口罩都要法检吗？口罩出口快速通关指南！

斗仓海外仓

东南亚&巴西全球一件代发，电商订单履约专家

德展物流

专注欧美FBA头程，自主装柜，专注美线

邑通达海外仓

专注欧美日加澳TEMU、TikTok一件代发、FBA退货换标/中转补仓等仓储服务

Doba美本货源分销

美国老牌一件代发平台，美国本土品牌供应链

斗仓海外仓

东南亚&巴西全球一件代发，电商订单履约专家

德展物流

专注欧美FBA头程，自主装柜，专注美线

邑通达海外仓

专注欧美日加澳TEMU、TikTok一件代发、FBA退货换标/中转补仓等仓储服务

Doba美本货源分销

美国老牌一件代发平台，美国本土品牌供应链

最新热门报告作者标签

26年澳洲电商趋势：AI全面渗透，购物与运营模式加速变革

AMZ123获悉，近日，DoorDash和Power Retail发布了《2026年澳洲电商未来趋势报告》。报告回顾了2025年关于关税、电商平台、人工智能等新闻事件，对行业的变化与延续进行了系统梳理，并为2026年及之后电商的发展方向提供趋势参考。一、2025年电商发展回顾进入2025年后，人工智能已被广泛嵌入电商购物流程，从营销内容生成、库存与履约管理，到客户互动与服务响应，自动化能力成为基础配置。与此同时，消费者的线上购物方式也发生了变化，早期以“滑动浏览”为主的发现路径，逐渐被对话式、目标导向的产品发现方式取代，消费者与品牌的互动更直接，也更注重效率。

美国圣诞假日季宠物消费稳定，人均支出约30美元

AMZ123获悉，近日，美国劳工统计局数据显示，2025年美国宠物消费表现出较强韧性，即便在家庭面临持续生活成本压力的情况下，宠物及相关产品支出仍显示出防御性特征，同时反映出消费模式和支出重点的明显变化。数据显示，11月，美国宠物及宠物产品的通胀率同比回落至0.3%，低于9月的1%，为消费者在经历多年高成本后带来一定缓解。然而，整体生活成本压力依然存在，动物福利组织警示宠物贫困现象上升，美国约有9400万户拥有宠物家庭。情感依附仍是支撑消费的重要因素，人类与动物关系研究所调查显示，97%的美国家犬猫主人视宠物为家庭成员，这也是宠物消费相对稳定的重要原因。

新规三连砸向TikTok Shop泰国卖家！还有5天生效

2025年，正式进入尾声。尽管距离2025年时间线官方收束还有5天，但对于TikTok Shop泰国站点的卖家而言，12月31日便是“新篇章”的启幕。01泰国市场，迎来新规三连TT123了解到，据泰国媒体报道，泰国政府发布一系列针对跨境电商的监管新规，经课代表总结关键3点如下：·自2026年1月1日起，将对价值1泰铢及以上的所有进口商品征收关税和增值税；·对整箱货运查验率从20%提升至30%，高风险边境站实施100%X光安检·此外要求电商平台自2025年12月31日起披露卖家和产品信息。

Shopee越南多个家电品牌双十二销售额大幅增长

AMZ123获悉，近日，在越南家电市场，随着消费者购物行为向线上转移，越南本土品牌正在积极拓展电商渠道以直接触达消费者。以Tân Á Đại Thành和Sunhouse为代表的知名家电企业，正借助Shopee Mall的平台优势，实现业务模式的升级与销量增长。Tân Á Đại Thành成立于1993年，主营不锈钢水箱，其早期依赖经销商和线下门店进行分销，随着购物行为向数字化迁移，Tân Á Đại Thành开始布局线上销售，以触达年轻消费者群体。在入驻Shopee Mall一年后，Tân Á Đại Thành的店铺累计吸引关注超过1.1万次，并在2025年第一季度实现销售额增长超过300%。

社媒报告称AWS出现大规模宕机，亚马逊已否认

AMZ123获悉，近日，圣诞节前夕有社交媒体用户反映亚马逊云计算服务Amazon Web Services（AWS）出现大规模宕机，但亚马逊方面否认此次事件，称相关报道为“谣言”。宕机监测服务Downdetector显示，自美国东部时间12月24日晚8点41分起，用户陆续报告AWS出现问题，并在社交平台使用#AmazonWebServicesDown标签讨论。截至当晚10点52分，共有3659条AWS宕机报告。然而，亚马逊通过邮件表示，这些报告缺乏事实依据，并指出Downdetector并非可靠来源，其数据“经常错误”。此次传闻被认为是AWS在2025年的第三次大规模宕机事件。

Coupang收取卖家费用居韩国前列，24年总金额达160亿美元

AMZ123获悉，近日，韩国公平交易委员会发布调查结果称，韩国主要线上平台和大型零售商近年明显加重了对卖家的费用负担，其中，电商平台Coupang成为收取最多卖家促销费用和激励金的企业之一。根据韩国政府对八个流通领域、共40家大型零售商开展的调查，Coupang在2024年从供应商处收取的销售促销费和各类激励金合计约为23.4万亿韩元（约合160亿美元），约占其向供应商直接采购商品总金额的10%。韩国公平交易委员会表示，本次调查重点审查了百货商场、线上平台、大型卖场等零售渠道向供应商收取的佣金比例、销售激励金以及其他附加费用情况。

亚马逊卖家突围战：如何通过TikTok引流？

广告费用，正在一点点吞噬亚马逊卖家的利润。《2023年中国跨境电商卖家生存状况报告》数据显示，超50%的中国卖家认为：亚马逊广告成本是最大运营压力源，平均ACOS（广告销售成本比）在25%-40%之间是常态，家居、服饰等红海类目ACOS甚至长期高于50%，利润空间被严重挤压。站内流量竞争愈发激烈，广告投入不断加码，卖家们纷纷将目光投向TikTok，希望在这个全球月活用户超10亿的巨大流量池里，找到新的增长突破口。可对精通亚马逊运营的卖家而言，TikTok是个完全陌生的领域，超65%的亚马逊卖家自认为“完全不懂TikTok内容运营”。

月销百万美金！亚马逊10款运动与户外产品持续走俏

AMZ123获悉，近日，亚马逊各类产品搜索量增长显著，以下10款产品在亚马逊上销量表现突出，深受消费者欢迎。1. 拳击反应球预计销售额：577.89万美元/月销量：208,000+星级评分：4.0好评数量：9,371+图源：亚马逊产品介绍：拳击反应球是一种以提升手眼协调能力、反应速度和身体灵活性为核心的轻量化运动产品，整体由柔软球体、弹性绳和可调节头带组成，使用者通过连续击打回弹球体完成训练。该产品强调互动性和趣味性，既可作为日常有氧运动和反应训练工具，也适合家庭成员在不同年龄段共同参与。

月销百万美金！亚马逊10款运动与户外产品持续走俏

利好卖家，亚马逊开放这一创意工具！

关注公众号回复“加群”加入卖家交流群

亚马逊卖家突围战：如何通过TikTok引流？

AI购物代理兴起，亚马逊正面临合作还是防守的抉择

AMZ123获悉，近日，随着人工智能技术快速进入电商领域，亚马逊正面临一个越来越现实的选择：是继续防范第三方AI购物工具，还是转而与它们合作。近年来，多家 AI 公司推出了“AI 购物代理”（即自动化购物程序，能代替用户比价、选品并下单），正在改变消费者的线上购物方式，这也直接触及亚马逊的核心业务。2025年6月，亚马逊 CEO 安迪·贾西在内部讲话中提到，AI 代理将逐步渗透到日常生活的多个场景，包括购物、旅行以及日常事务。到了2025年10月，一次财报电话会议上，亚马逊进一步表示，预计未来会与第三方 AI 代理展开合作，并已与部分相关公司进行沟通，但未披露具体对象。

26年澳洲电商趋势：AI全面渗透，购物与运营模式加速变革

美国圣诞假日季宠物消费稳定，人均支出约30美元

社媒报告称AWS出现大规模宕机，亚马逊已否认

AMZ123星球专享丨12月第四周资讯汇总

亚马逊在2025年12月11日至25日的圣诞销售旺季期间，亚马逊广告后台将默认激活“Increase bids by 50% All day”规则，未经卖家确认自动提高广告竞价50%。亚马逊于12月16日至25日开展的圣诞限时特卖活动中，销量出现了显著的分化。除了个别节日礼品类卖家实现销量激增外，大多数卖家的订单自16日起持续下滑，至19日后，销量更是下降至平时水平的25%。亚马逊墨西哥于12月23日宣布，为了应对2025年节庆购物季的需求，已招聘8000名临时员工，将季节性用工规模增至超过23000人，以确保在全国500多个城市的包裹及时配送。亚马逊美国站“圣诞节后送达”标签提前出现，物流履约情况存在差异。

《2025年东南亚膳食营养补充剂电商深度洞察》PDF下载

根据中国医药保健品进出口商会和海关数据，2025年上半年我国膳食补充剂出口额22.51亿美元，同比增长9.9%，呈持续增长状态。中药酒2025年上半年同比增长74.1%，显示负载中国传统医学文化产品的出口潜力。

《TikTok Shop 2025年全站点Q3季报》PDF下载

2025年前三季度，TikTok Shop在全球市场继续保持强劲增长势头。截至第三季度结束，累计GMV已突破414亿美元。美国站依旧稳居全球第一，前三季度GMV达112亿美元:东南亚仍是总体增长最具韧性的板块，印尼站以83.4亿美元位列第二，增速较上季度保持稳定，与泰国(69亿美元)、越南(52亿美元)继续构成区域主力。马来西亚(40亿美元)与菲律宾(37亿美元)表现同样稳健。

《2026掘金指南：全球全品类20大消费趋势报告》PDF下载

生活百货类关键趋势解读消费电子类关键趋势解读消费品类关键趋势解读时尚品类关键趋势解读

《亚马逊生活日用品类攻略手册》PDF下载

作为日常生活不可或缺的重要组成，生活百货品类覆盖范围广泛，包括家居用品、家具、车用配件、户外装备、园艺工具、运动器材、家装用品、厨房、玩具以及宠物用品等众多领域。这类产品不仅是满足基本生活所需，更体现了人们对美好生活的向往和追求。

《掘金泰国-市场洞察与战略机遇报告2025》PDF下载

随着全球经济一体化的加速，泰国作为东盟的核心枢纽，凭借其独特的地缘优势庞大的消费市场以及持续优化的营商环境，成为众多企业战略布局的重要目标。本报告深入剖析泰国市场的政策红利、消费趋势、产业机遇以及合规挑战，旨在为有志于开拓泰国市场的中国企业提供行动指南，助力企业在东盟这片充满活力的土地上把握机遇、应对挑战、!实现可持续发展。

《2025欧美假日购物季营销指南》PDF下载

2025年美国假日购物季零售额预计同比仅增长1.2%，总销售额约1.359万亿美元，虽仍保持正增长，但为2009年以来最低增速，市场正在步入低增长的新常态。

《2025年跨境电商东南亚市场进入战略白皮书》PDF下载

东南亚电商,正以惊人的速度复刻中国电商高速增长的黄金时代。2024年东南亚电商GMV达到1284亿美元,短短5年涨幅超过3倍。全球电商2024年GMV增幅最快的十大市场中,东南亚独占四席。东南亚是拥有约6.7亿人口的广阔市场,在现今全球关税的不确定性大格局下,因其电商基建完善,利好的贸易政策,和更高的年轻人口占比,成为跨境卖家生意拓张焦点之一。

《2025年TikTok Shop玩具品类行业报告（欧美站）》PDF下载

分析TikTok Shop美国市场、英国市场、西班牙市场、墨西哥市场等主流市场点短视频及直播电商数据，选取TikTok与玩具爱好品类相关的内容进行分析报告。

AMZ123卖家导航

这个人很懒，还没有自我介绍

亚马逊资讯

AMZ123旗下亚马逊资讯发布平台，专注亚马逊全球热点事件，为广大卖家提供亚马逊最新动态、最热新闻。

AMZ123跨境电商

专注跨境行业热点事件报道，每日坚持推送原创深度热文

AMZ123会员

「AMZ123会员」为出海者推出的一站式私享服务

跨境平台资讯

AMZ123旗下跨境电商平台新闻栏目，专注全球跨境电商平台热点事件，为广大卖家提供跨境电商平台最新动态、最热新闻。

亿邦动力网

消除一切电商知识鸿沟，每日发布独家重磅新闻。

跨境科普达人

科普各种跨境小知识，科普那些你不知道的事...

北美电商资讯

AMZ123旗下北美跨境电商新闻栏目，专注北美跨境电商热点资讯，为广大卖家提供北美跨境电商最新动态、最热新闻。

从设计到归因 AB Test实战心得

白鲸出海

2020-04-20 23:32

9029

关于 AB Test

说到 AB Test 大家都不会陌生，也是增长黑客概念流行以来非常热门的话题，我曾与业内经常做 AB Test 的朋友交流，也遇到过这类常见的问题：

1. 方案存在多变量，没有控制唯一变量，实验结果很难归因和解释

2. 多组实验同时跑，不知道实验的变量相互干扰

3. 不确定如何有效评估实验，提升多少算有效？

4. 实验结果看起来有效果，上线后却效果不明显

5. 实验结果看起来有效果，但不知道为何，无法归因出原因

我们最可怕的不是不知道要开展 AB 实验，而是明知道要开展，却不知道如何科学开展或开展后面对数据结果一脸茫然。

如何科学开展实验呢

首先，实验的过程可以简单分为三步：

. 实验设计 - 包括实验的想法，背景，假设，方案，指标等

. 实验上线 - 包括实验 AB 功能，数据采集，测试和上线

. 实验评估 - 包括数据获取，对比分析，转化结果显著度，实验结果归因，结论，建议和计划

具体过程相信大家不会陌生，所以不会逐个介绍，下面我们重点聊聊整个过程可能常遇到的问题和经验教训，这也是我本次想分享的核心。

看似简单的实验设计，更需要重视

1、实验想法拿数据做支持

. 真实的情况是，我们完全可以拿数据否掉很多不靠谱的想法

. 由于本次分享的内容侧重点，这块内容以后的机会再分享

2、实验目标说清楚，写下来

. 清晰的实验目标能够让方案聚焦，也避免评估结果的相互扯皮

. 如果团队有人想要收入，有人想要留存，这往往打架的实验目标会造成后续的一系列麻烦

经历：

3、实验方案设计

. 清楚了解自己的实验目标，设定测试中想要测试的变量

. 尽量避免要评估的方案存在多变量的情况，控制唯一变量，有利于得到更多实验信息

. 分组设计会是另一个重点，我们放在后面来讲

经历：

这个过程就好比如下，同时修改了颜色和文案那样，我们无法知道颜色和文案分别的影响。

尽量不要做出这样的对比，在实验前想清楚，再想清楚，把你要评估的变量梳理清楚，这样再把变量拆开。

如下：

实验设计方案参考如下模板

关于数据采集这块我就不做分享了，不是本次的重点，后续有机会我们再拿来分享。

AB 实验工具

笔者使用过多个 AB 工具，包括自研 AB 系统，Firebase 等第三方支持 AB 的工具，我总结了常见 AB 工具的几个特性，供大家今后需要的时候参考。

当我们创建一个 AB Test 时，需要有：

. 实验灰度：假如你的实验不想影响所有用户，那么这个正是你所需要的，可以实现逐步放量，相对完善的 AB 工具均有此类选项，如 Firebase

. 配置项：一般指可以由后端自定义值的【远程配置】，例如：是否展示免费试用商品，就是一个【远程配置】

. 实验分组：任意增加多个分组，并为各组选择配置项，配置项的值，以及该组的样本比例

如果大家是做出海的 App，Firebase 是我优先推荐的，它是谷歌的产品，而且免费，但唯一不好是对国内支持不好，所以可以根据实验群体和场景选择哦。

实验分组

1、按照用户 ID 等属性计算随机值

我们团队一开始通过用户 ID 来实现简单的随机分组，这个方式在我们跑多组实验的时候遇到了问题。

按用户 ID 属性计算分组值存在的潜在问题如下：

因此这种情况下你只能同时跑一组实验。

2、按照用户 ID 等属性和实验 ID 计算随机值

3、另外一种分组方案探索

我身边也有朋友在这么做，这只是分享给大家参考，大家可以结合自己的实际情况来决定。

如果大家选择一些 AB 工具则可以不用太担心，人家已经实现了合理的分组，按照说明设置就好了，但在自己实现分组的时候则需要特别留意这块了。

实验评估

这里我们关注一个重点，如何评估实验结果是否有效，或者说如何评估提升多少才算有效？

关于如何选取评估指标，这个需要大家结合实际业务场景来确定，这个就不介绍了（注意，我们往往不会评估单一指标）。

对于出海来说，尤其是工具类产品，最不陌生的就是免费试用了，这个苹果和谷歌为我们提供了很成熟的产品支持

我就拿这个举例子，也是我们团队亲身经历过的项目。

先做个简单假设：上线 7 天免费试用，能够对收入有提升 10%，提高用户付费转化率提高 10%。

核心评估指标：

. 用户付费转化率（7 天内，0 金额不计算）

. ARPU（7 天内）

实验分组：

A 控制组，默认不曝光

B 实验组，曝光 7 天免费试用，显示免费试用字样

参考下面数据例子，

我们可以看到示例中：

整个实验周期中，A 组有 12100 个样本参与，B 组有 12200 个样本参与；

A 组的成功付费转化率为 1.65%，B 组的成功付费转化率为 1.97%（为了简单演示，没有给出置信区间估计）。

如果单靠看转化率的变化，我们可以看到 B 组有些效果，但提升是否真的有显著效果呢？

这就要求我们引入统计显著的概念了，先来看示例中我们计算的结果是 95% 显著，这个就能极大给我们信心说结果是显著的。

当转化率结果显著，这个意味着实验有胜出组了，然后看 ARPU 表现，即可大概率确认实验的效果。

这里只举一个指标评估做为例子，实际评估还需要结合实际业务来看，包括评估方案的正向反向效果。

统计是否显著概念

如果有朋友学过统计学或者接触过类似的概念，相信不会陌生，这里只做下概念普及，为了通俗易懂，有些描述可能也不是特别的科学严谨。

例如这个效果指付费转化率，那么就是说，实验的 B 组的成功概率（用 PB 表示）不如实验 A 组的成功概率（用 PA 表示）高，即 PB<= PA。

有了【原假设】，接下来只需要找证据推翻上述【原假设】就可以了。

前面实验中 PB=1.97%，而 PA=1.65%，PB>PA，这个时候可以推翻原假设吗？

不能确定，因此需要引入统计显著的概念，一般显著度达到 95% 以上，就可以有足够的信心推翻原假设。

这个 95% 你可以简单理解为 PB>PA 发生的概率超过 95%，这样我们的信心就很足了。

关于显著度的计算这里不深入展开，只是提供大家一个判断依据，对效果的评估要加上这个会比较科学，这样能知道方案上线后有效果的把握程度。

注意：发生概率高，不代表一定会发生，所以要做好上线后随时准备面临结果不如意的心态。

别忘了细分实验结果

这样我们能有效发现那些响应不足或响应后效果差的地区，对策略做出及时的调整。

巧妙利用 AABB 分组

这个是我最后想补充的内容。

假如我们实验只是简单的分为两组，实际上我们还能够将 A 组划分成 A1、A2，将 B 组划分成 B1、B2 组。

通过对比组间，如 A 组和 B 组的结果来衡量实验效果。

因此 AABB 分组还够给我们提供更多的实验信息，大家可以去尝试一下。

超158%速度增长的亚马逊潜力站点购买力，这些掘金知识点你必须掌握！

所有口罩都要法检吗？口罩出口快速通关指南！

热门活动

进行中

东欧掘金2026：eMAG巡回招商先行者计划——从0到1，锁定新年增长第一站【厦门】

纵贯南北，品赢全球— Wayfair 春季招商巡回Workshop

广东

01-09 周五

立即报名

热门报告

《2025上半年TikTok Shop调研报告-TT123》PDF下载

08-19 周二

立即领取

《2025上半年跨境电商行业报告》PDF下载

07-30 周三

立即领取

《2024 TikTok Shop年度调研报告》

02-18 周二

立即领取

热门搜索

从设计到归因 AB Test实战心得

官方客服

官方微信群