PMCAFF(www.pmcaff.com):最大互联网产品社区,是百度,腾讯,阿里等产品经理的学习交流平台。定期出品深度产品观察,互联产品研究首选。
作者:项宇,网易发展部用户研究员
有一个比喻非常恰当:产品如同蓄水池,用户好比池中之水。池子中每时每刻都有新用户源源不断地加入,也有一部分用户选择离开。
如果用户流失超过新用户的补给,且速度越来越快、规模越来越大时,产品如若不警惕,蓄水池迟早会干涸。
这是用户流失研究的背景。产品阶段不同,重心也会从拉新转移到留存,对于一个成熟的产品和饱和的市场而言,获取一个新用户的成本可能是留住一个老用户的数倍,流失率的降低也意味着营收的增加,在这种条件下,流失研究的价值是显而易见的。
而研究流失用户所面临的主要问题,是如何衡量用户流失的规模,重中之重是梳理清楚“流失用户”和“流失率”的定义。或许你脑海中早已经罗列好了几点困惑:
为了给流失一个明确、又能符合产品特征的定义,并且相对准确地识别出可能流失的用户,我们引入二元逻辑回归作为定量流失研究的模型。
在模型中,我们将一段时间内用户的一系列行为特征数据(如在线天数、充值金额、积分等级、点击次数……),代入二元逻辑回归方程中,就可以计算出相应的流失概率。
也可以用下图数据采集与流失预测的时间窗口来理解这一过程。选择产品中一部分老用户,观察和收集他们在一个月内的行为数据(深蓝色部分),通过这些数据,我们可以预测其在未来一段时间内(红色部分)的流失与留存情况。
在预测周期 1 内出现但周期 2 未出现的,说明在周期 2 内流失了,如果两个周期内都没有出现,那么可能在观察期内就流失了,上述两种都属于流失;而周期 1 和周期 2 都有出现的用户,则是留存用户。
但是,在通过定量模型来研究流失的过程中,往往存在着几个常见的误区:
一、数据仅为工具,产品理解贯穿始终
如何界定流失用户,避免概念误区
在构建流失模型时,通常以月作为分析和数据提取的周期,比如在上图时间窗口中,以连续一个月没有使用算作流失。但这种简单粗暴的划分方法往往会带来三方面的问题。
1、流失周期受用户使用间隔决定,不同周期划分影响用户结构比例
如果以 1 个月作为流失周期,那么十月出现但十一月没有出现(蓝色圆点代表出现)的用户在十一月流失了,而实际上,他在十二月又出现了,是一个回访用户(见回访3),并没有真实流失。
如果我们以 2 个月为周期,则“回访3”的用户在10~ 11 月, 12 月以后两个周期内都出现过,应该是一个留存用户。周期划分对用户流失界定有着直接影响。
2、如果简单以一个月为周期进行用户分类,回访用户过多(比如占总体15%),无法忽视且难以处理
无论以何种周期划分,必然存在一定比例的回访用户,将回访用户作为缺失值、算作留存用户或者作为流失用户,均对模型准确率有较大影响。
3、流失周期划分会影响模型的准确率与平衡性
如下表,以总样本100w为例,分别以 4 周、 5 周、 6 周作为流失标准,划分出的流失和留存用户是不同的,对应的流失留存预测准确率也不同。
流失周期过短,流失预测的准确率低,因为定义为流失的用户中有大量实际留存的用户,只是其使用间隔长而已(比如以 1 周没登录就算流失,但实际上很多留存用户2~ 3 周才登录一次,也被划分成流失用户);同时周期过短,定义为留存的用户实际上后来也会流失。
因此,不合理的周期造成预测准确率低且不平衡,我们需要不断尝试周期划分,在保证整体准确率的情况下寻求流失与留存准确率最佳的平衡点,才能更为准确地同时预测流失及留存情况。
如果流失准确率有90%但留存只有50%,那么虽然我们预测流失的用户几乎都是真正会流失的,但可能只识别出了总体用户中一小部分流失用户,还有大量流失用户被划分在了留存用户中,导致留存准确率过低。
在这种情况下,选择恰当的定义方法显得至关重要。通过查阅资料,我们发现对流失比较经典的定义是“一段时间内未进行关键行为的用户”,关键点在于如何界定时间周期(流失周期)和关键行为(流失行为)。