软件测试技术之如何更加有效的分析A/B测试结果?
白羽 2018-08-14 来源 :网络 阅读 728 评论 0

摘要:本文将带你了解软件测试技术之如何更加有效的分析A/B测试结果?,希望对大家学测试技术有所帮助

        本文将带你了解软件测试技术之如何更加有效的分析A/B测试结果?,希望对大家学测试技术有所帮助


A/B测试的结果出来是不确定的,转化小组非常失望,他们本来认为这次改变可以提高营收,然而他们并不知道像营收这样的高阶指标依赖的是什么。
 
在一次试验完成之后,我们要分析是否还有更多我们可以从试验中学习的东西。这个过程叫试验后分析。
 
通过分离试验版本A的网站流量,我们可以清晰的看到某一个浏览器表现明显劣于其他:IE


来自IE的用户转化比其他浏览器平均转化低50%以上,同时产生1/3的每次交互收入(per session value)。但原始组的表现却不是如此。试验版本A出现了问题,测试代码里出现了错误。
 
分析显示,在修正了这个错误之后,转化率提升了13%,每次交互收入提升了19%。在修正之后试验版本A显著的胜出了。
 
这个案例体现了试验后分析的好处,它让我们拨开迷雾,防止由此导致的错误决策。下面我们来看一些转化率专家如何通过试验后分析进行正确决策。
 
我们的每个试验版本都是获胜版本吗?
 
第一个问题是:“我们每个试验版本都是获胜版本吗?”
 
当我们检查A/B测试的结果,有两种可能的情况:
试验结果是不确定的。没有试验版本优于原始版本
1个或多个试验版本统计显著的优于原始版本
转化率专家 Joel Harvey 描述了他的试验后分析过程:
 
“试验后分析”这个词其实不准确。大量的分析发生在试验准备阶段以及贯穿于整个A/B测试流程。来自一次试验的“试验后”洞察是下一次试验的“试验前”分析。因此为了让下一次试验得到好的结果,最好的方法是在上一次试验设定合适的指标。
 
因此,当你在查看某次A/B测试试验结果时,首先你要判断这次测试是否有优胜版本,劣势版本或者无法确定。要确保优胜版本的确是优胜的,主要观察几个核心指标:统计显著性,p-value,测试时长,样本容量等。如果检查过没有问题,下一步就是将该版本展示给全量用户,观测转化率的提升。
 
在我们确定优胜版本之后,将版本细分统计查看十分重要,细分包括但不局限于:
移动端 vs 非移动端
付费用户 vs 未付费用户
不同浏览器和设备
不同流量渠道
新用户 vs 老用户
 
运用一些分析工具,上面的细分统计是很容易做到的。对于细分之后的用户表现分析是至关重要的:跳出率如何?退出率如何?我们是否彻底改变了某类细分用户在漏斗中的通过流程?
Chris McCormick,PRWD 的优化负责人,描述了他的试验后分析过程:
 
当一次试验完成后,我们会进一步通过 GA 来分析结果。
 
对于任意一次试验,我们在开始的时候总是会设定“主要成功指标”。这些指标是我们想通过 GA 确认的并且通过作为跟客户交流的优先内容。当我们在整体层面了解了本次试验的表现后,便开始更多面的挖掘是否有某种倾向性或模式表现出来,比如:不同产品组合,新用户对老用户, PC 对 mobile ,等等。
 
在每次试验时,我们总是会尝试做一个粗略的 ROI 出来。大多数时候,我会通过分析前12个月的数据,再根据本次试验的提升得到这个 ROI 。对于用户来说就是一个大致估计:比如大约50k欧元的 ROI 。之所以是大致估计是因为对于一个试验来说,有太多的因素影响,我们不可能做到100%精确。试验不应该被当成一门精确的科学。
我们是否在犯第一类错误或第二类错误?
 
为了避免做决策时候犯错,我们应该更细致的分析试验结果。
 
通过确保样本数量足够,使用合适的A/B测试框架,我们可以尽量避免错误。Peep Laja 描述了他的判断:
 
首先我会检查是否有足够的样本,足够的样本可以确保试验结果无误。然后我会去检查A/B测试工具汇报的试验结果是否跟分析工具吻合:转化率,人均营收等。
 
运用分析工具,我尝试去理解为什么试验版本改变了用户行为:通过观察微转化(购物车添加,某些页面的访问等)和其他的指标,比如购物车价值,每次购买数量等。
 
如果样本数量足够大,我会去看试验结果在不同受众的表现,是否试验版本还是优于原始版本。当然受众的确定因人而异,我关注的受众有:新用户/老用户,流量来源,首次购买/反复购买。
关键受众表现如何?
在试验结果不确定时,我们需要看细分人群的表现。
 
举个例子,我们的某次试验结果是: Android 的用户喜欢试验版本,但 iOS 的用户更喜欢原始版本。二者互相抵消导致试验结果不确定。这种情况下,如果我们不进一步观察就会错过重要的信息。
 
受众的细分可能包括以下方面:
多次访问用户 vs 新访问用户
Chrome 浏览器 vs Safari vs IE
自然流量 vs 付费流量 vs 推荐流量
Email 流量 vs 社交媒体流量
主要产品购买 vs 非主要产品购买
主页访问 vs 内部访问
 
对于不同的行业,这些细分是不同的。这些细分为产生新的试验想法,甚至个性化体验提供了机会。了解不同受众的表现对于做好试验分析至关重要。但是要有主次之分,关于这点,Rich Page 是这么解释的:
 
要避免分析麻痹,即避免划分过多的受众或使用过多的分析工具。你可能会经常遇到矛盾的结果,但切记,相对于其他指标来说,营收总是最好的指标,否则再好的试验结果也没有意义。
 
不确定结果的试验时有发生,我们不能遇到这种情况就不管不顾。这种情况是一个非常好的机会去学习和建立下一次试验。比如,向用户展示原始版本页面和试验版本页面,收集他们为什么喜欢那个版本的意见。观察用户热图同样能够给你带来好的洞察。
来自 WiderFunnel 的 Nick So 谈论了他关于用户分割及A/B测试分析的看法:
 
除了一般的点通率、漏斗退出、转化率,其他的指标设定依赖于网站用户的特定业务环境。
 
对于做了很多邮件营销并且有很高用户复购的电子商务网站,我会关注流量区分:新用户和老用户。关注于某个用户分类的特征表现,你能够得到极大的提升。
 
有时处于个人喜好,我会关注那些看起来随机的指标,看能不能发现什么意想不到的特征。但要注意不要过于深陷不停的区分用户行为当中。
 
对于 B2B 的企业,你当然需要关注全用户生命周期和周期价值,这样才能决定哪个版本更好。在我的经验里,有很多次我都看到一个试验版本提高了用户注册量,但用户转化却非常的低,这会极大的增加销售成本。
Benjamin Cozon 描述了如何从用户体验入手,得到额外的洞察力:
 
我们必须明白测试的结束其实是更深层次分析的开始。
 
为什么这个版本得到了这样的转化率?为了回答这个问题,我们往往尝试去发现哪类用户类别对版本的变化最敏感。
 
我们得到这个答案的一个途径是观察数据的某些维度,这些维度可能是:
用户种类
新用户/老用户
获客渠道
着陆页种类
 
这种方法让我们了解到,经历不同流程的用户对于试验版本的反响。这些额外的洞察帮助我们建立了非常健壮的知识库,并且促进了我们在组织间的沟通。
试验版本对于线索质量有何影响?
营收是判断线索质量的最主要的指标,但只看营收总是存在一些问题,Ben Jesson 是这么描述的:
 
如果一个试验没有达到显著性,我们会马上关注下一个想法的测试。对于小众受众长久测试,并不会带来很大的收益,反而会增加复杂性。
 
对于优胜版本,如果能够做页面调查,那是无价的财富。这些调查能帮助你认清未来提升的机会。
 
线索质量很重要,我们从两个方面解决线索质量问题。一方面,定性分析:试验版本是否能从某个层面降低或提升线索质量?另一方面,定量分析:我们如何从数据角度判断线索质量?
 
你也许觉得衡量收入比衡量订单数更好。然而,从统计学角度来看,其实不然。一些随机的大的订单会极大的改变收入图标。一些人建议手工提出异常点,但如何定义异常点?为什么我们不关注他们?这些都是问题。如果试验版本并没有做影响订单量的改变,那么你就可以仅设置转化率为你的指标。
 
在一次成功的试验后,在数据库里记录下结果,按照以下分类:行业,浏览器种类,地理位置和转化目标。这样做对于项目组的价值是无尽的。
 
根据时间和地理位置分析A/B测试结果
 
转化质量是重要的,Theresa Baiocco 更进一步说明了这个问题:
 
对于主要目标是电话转化的生产线索公司,仅仅优化电话数量是不够的,必须要同时追踪和提升电话质量。如果你通过付费广告来获得这些电话,你需要考虑如何精打细算的获得高质量的电话,可以从以下受众分析:
每天广告展示小时数
每周广告展示天数
广告位置
地理位置等等
 
当测试电话时,你必须将电话软件追踪的数据与广告获得数据进行比较。比如,你想知道一周中的哪一天你获得5星质量电话的成本最低,首先你从电话追踪软件里获取关于5星质量电话的按天数据:


然后,检查从广告端获得的数据,如 Google AdWords 获取相同时间段内广告成本的数据。


最后,只需将成本除以电话数就可以得到一周的中的每一天,获得5星电话的成本分别是多少。


对于其他细分分析,比如:每天广告展示小时数,广告位置,每个月广告展示周数,地理位置等等,都可以运用类似的方法。通过这样的额外分析,你可以将你的广告预算精准定位到每一天,每一个时间段,每一个地点,通过更少的投入达到更高的通话质量。
关注意想不到的结果
结果不是凭空得出的。任何一次改变对网站都会产生一定的连锁反应,我们很容易忽视这种效果。
 
Craig Andrews 说明了他对于这种现象的看法:
 
在跟客户的交流中,我发现了一些异常现象,我也差点错过因为它只是活动的一个次级效果。只关注转化率的一个缺陷就是,无法衡量其他相关效应。
 
比如,我确信弹框可以提升转化,但是成本如何?对于未来用户对品牌的认知有什么影响?大多数人都希望建立品牌信任感。
 
我们帮客户发布了一个可下载内容,在这个过程中,我们最大的挑战就是说服用户使用更简洁的词汇、语句。用户担心改变他们以往的风格会造成用户的信任感流失。这个新内容最终大获成功,它比其他版本提升了28%的下载量。
 
但随后,我发现了一些其他现象。
 
下载量排名第2和第3的内容的转化率竟然也提升了很多,我们没有对他们做任何改变,只是改变了第一个版本的效果。
 
新设计的内容提升了在用户心中的品牌价值,从而连锁反应的提升了其他内容的转化。
测试结果同样可以拿来跟历史试验结果比较, Shanelle Mullin 说明了这个情形:
 
存档你已有的试验结果有两个好处。第一,你有一个清晰的试验表现记录,这对于和客户以及相关人员交流至关重要。第二,你可以用历史获得的经验发现更好的测试想法。
 
对于相关人员和用户,如果你能更清晰的表明试验项目的 ROI ,那么你就可能获得更多的预算和信任。
 
重要的是你存档什么信息。存档的试验信息应该包括:试验日期,试验受众 URL,试验截图,试验假设,试验结果,影响因素分析,试验链接,试验结果链接以及试验洞察。
 
为什么我们获得了这样的结果?
最后,我们需要回答这样一个问题,为什么这个版本胜出了?它告诉了我们哪些关于用户的信息?
 
回答这两个问题需要群策群力以及多加思考。这个过程有两个结果:
# 能够产生新试验的假设
# 让我们根据新的信息重新排列试验优先级

    
   
        
          

本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标软件测试之测试技术频道!

本文由 @白羽 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程