以震颤为例“用户增长实验”在做什么

2020-04-09 11:10 来源:科创网

原标题:以聊天为例,清楚地解释“用户增长实验”正在做什么。

你知道什么是用户增长实验吗?你知道用户增长实验实际上在做什么吗?它是如何工作的?为了回应这些疑问,作者将会以chattering为例来讨论用户增长实验正在做什么。

442e6f3152204d4383246e02727a9182.jpeg

摘要:简要介绍了用户增长(UG)的核心工作流程:分析数据→形成假设→实验验证,大致描述每一步都在做什么。现在用一个每个人都可能注意到的例子来尝试推回和重现相关的工作场景,试图弄清楚UG实验在做什么。

案例简介:有些用户可能会注意到,在玩了两次之后,共享按钮变成了他们朋友的头像,而有些用户仍然是正常的共享图标。

顺便说一下,这是一个简单的UG实验。实验中涉及的环节是相似的,我们不妨以这个例子为代表,主要讲一下:

你为什么要做这个实验?

实验的设计和分发;

实验分析;

实验值的细化。

该案例侧重于每一步应该做什么。具体数值是虚构的,并不重要。任何相似之处都纯属巧合。

073cb7bfe31848efa53d78601596dfce.jpeg

图1实验组和对照组的用户界面

你为什么做这个实验

这种情况我只是借用一下,下面的说法主要是从旁观者的角度来扭转和再现。

1.1首先关注战略目标

为什么喋喋不休的人会质疑这个策略?不难看出,直接目标是增加点击分享按钮的用户比例(分享率)。分享按钮能否被最常分享的“好友肖像”所取代,能否提高分享率,还需要通过实验来验证。

1.2提高股价的目的是什么?

我学到了一些经验:用户群的互动率(转评赞的用户占比)与其留存率很好的正相关

从逻辑上讲,产品是很好理解的:当用户互动时,他们会收到反馈,持续的互动会产生粘性。如果你没有很多好朋友并且没有收到任何信息,你会经常打开它吗?假设每次你发一个朋友圈,没有人评论,这个圈子的热情就会大大减弱。

因此,在这样做时,tremolo的进一步目标应该是通过最终目标应该还是提升DAU、时长、收入这些规模数据的策略来提高用户的保留率,这与用户规模密切相关。

这些是初步分析数据的关键输出,“提高共享率可以改善DAU和持续时间”是一个需要实验验证的假设。

摘要

虽然这个实验很小,但它与核心增长目标相关。在评价实验结果时,我们还需要注意这些「结果指标」,不仅仅是分享按钮的点击率、分享完成率、分享回报率等。

2实验设计和发布2.1实验设计

我们通常使用随机对照实验。市场上的人们基本上是用抗体实验代替随机对照实验。通过比较实验组和对照组的指标差异,我们可以验证发出不同策略的两组之间是否存在显著差异。随机对照实验的两个核心点是「过程指标」:随机分组,旨在确保实验组和对照组用户的构成和特征相同,可以进行比较,以确保差异来自政策差异,而不是用户组差异;单个变量被用来帮助将实验结果的差异准确地归因于某个策略差异。

2.2实验分布

如何实现随机分组?

通常,用户标识(通常是用户第一次使用应用程序时自动生成的字符串)由一些随机算法(常用的哈希算法)处理,以从理论上确保用户特征和随机算法处理的用户标识之间没有依赖关系。最后,根据已处理的标识对用户标识进行分组。尽管如此,分组的充分随机化仍然是行业中的一个难题,因此在实验之前不同组之间是否存在任何偏差将通过空运行期或实验之前的AA实验来确认。

在这种情况下,只考虑随机分组。假设我们从市场的活跃用户中随机选择一部分人,然后将他们随机分为实验组和对照组,我们可以开始实验。

表1实验组和对照组的流量分布

(9502

在实际工作中,我们经常会遇到「随机分组」和「单一变量」。分层的目的是形成一系列互不干扰的“平行宇宙”,以便在流量不足时可以同时进行许多实验。然而,正交分层也有适用的条件。我们将写一篇单独的文章来讨论正交分层的要点和凹坑。

这个案子没那么复杂。它只要求实验组发出“用朋友圈的图片替换共享按钮”的指令,控制组发出“保持原样”的指令(注意:该控制组不是“不发出指令”,因为它可能涉及SRM问题。同样,让我稍后单独介绍它)。在实际工作中,会遇到许多实验变量。如果需要评估每个变量的影响,需要确保两个“只有一个变量差异”的实验组。

3实验分析3.1看哪些指标

回到实验的目的,我们直接关注分享率的提高,进一步关注用户保留率的提高,最后想看看用户DAU、持续时间等是否有所改善。那么我们需要注意的指标是:

表2制作实验组和对照组的观察指标

360d943cf28447c989e25ff13e12c15b.jpeg

3.2实验结果可信吗

判断实验结果是否可信涉及一个“显著性”的概念,即实验组和对照组之间的指标差异是否满足统计显著性。统计显著性意味着我们看到的改进不是由随机波动引起的,而是受到策略的影响。评价的重要性通常由表2中的P值和统计功效来说明。一个完善的实验平台可以直接输出差异是否显著的结论。如果你对引人注目的性感感兴趣,建议你找一本统计书来了解更多。

参考表2中的数据,基本上可以解释为该策略可以显著提高共享率、二级保留率、DAU和持续时间。

3.3多少样品是合适的

直觉知识:当样本量足够大时,即使很小的差异也可以被相信;然而,如果样本量太小,即使有很大的差异,也可能不被相信。只要分组足够随机,大样本量更有可能获得可信的结果,但是由于各种成本考虑,我们通常需要评估选择多少样本量。

这涉及到流量少,而同时需要做的实验多,这就需要引入正交分层:通过对实验差异的估计,可以计算出每组所用的最小样本量,以确保实验结果的差异是可信的,而不是随机误差。相关的,它还将涉及「最小样本量」的问题,简而言之,实验持续时间=最小样本量/日流量。

3.4如果我想长时间观察这种效果,我应该怎么做?

用户界面修改带来的点击推广通常是一种新奇的效果,所以我们的「实验时长」的问题。例如,一些用户在周末刷短视频,很少在周中刷。使用频率的完整活动周期为一周。新奇效果通常最多持续一个活跃期。我们选择观察两个活跃期,当用户以高概率恢复正常时,我们可以看到用户的最终增加。当然,如果有必要,我们会在实验尽量拉长至两个以上的用户活跃周期

4.实验值的提炼

实验完成后,我们通常会收到很多结果。如果我们不及时恢复交易,这些数据的价值可能只是冰山一角。在这一部分,我跳出这个颤音的例子。

4.1及时重述

及时恢复交易有助于我们尽早知道策略是否有效,甚至实验设计是否合理。

假设实验差异被相信,这个策略的整体效果对整体业务有价值吗?

通常,当用户数量足够大时,指数也会小幅上升,但事实上这可能对增长目标没有太大帮助。我们是也可以保持这两个实验组和对照组长期有效,看更长久的影响

假设不相信实验性差异,增长战略是从发布到生效的“链条”。它在哪个节点断开?为什么?及时恢复交易可以尽快明确策略是否发布成功或策略是否无效。

4.2跳闸分析

大多数情况下,当我们第一次查看数据时,我们会发现实验差异并不显著

实验向下钻取依赖于我们对用户属性的初步标记,这使得用户能够在实验分析期间向下钻取或筛选。需要强调的是,跳闸后的用户数量很少,不能保证置信水平;另一方面,在这种“后验”方法中存在不均匀分组的潜在风险,这要求我们对钻井结果重复实验以获得可靠的结论。

4.3可以进行哪些新的策略迭代

通过漏斗分析,需要横向来对比不同策略,对同一指标的提升效果,决定哪一个更好。通过哪些人群更有效、哪些人群没有效果(页面加载、按钮样式、指南样式、副本等。),我们可以看到策略的断点,策略是在哪一步开始失效的(调整政策发布的时间和频率;调整参数,如数量、演示持续时间等。)。

这部分是产品经理最擅长的。UG只强调根据准确的结论判断问题的关键,并以高优先级推进最关键的迭代。

4.4是否有任何共同的价值改进

在实验结束时,我们所能得到的应该远远超过实验指标的提高。上升到提升用户价值的角度,产品优化

我认为这些是UG更大的主题,也需要产品经理更多的思考、总结和新的尝试。~这也是数据驱动的价值和乐趣~

摘要

在这种情况下,虽然麻雀很小,并且有所有的五个器官,但是需要注意的要点最终被整理出来了。

该战略的目标是什么,需要看到哪些指标,以及如何判断这些指标

设计实验时应该注意什么?随机分组、最小样本量和单变量是最基本的。稍后我们将分别介绍正交分层和SRM问题。

如何分析实验结果,如何挖掘值,以及如何生成进一步的假设或迭代

这篇文章难免有错误和遗漏。很难指出他们!

下面将跟进“实验分析三部曲”,一点一点介绍各种主客观分析难点:

生长实验中的增量分析法

准确的量化并不容易——基础文章

准确量化输入课堂文章并不容易

作者:金磊886;五年的用户增长第一手经验,前腾讯和滴滴出行用户增长产品经理专注于增长战略挖掘、增长工具构建和实验设计分析。本硕博目前都在浙江大学高分子系学习。用户增加实战笔记

这篇文章最初由@jinlei886发布,每个人都是产品经理。未经允许禁止复制。

主题图来自Unsplash,基于CC0协议。

标签: 用户 实验 案例