Skip to content

Commit

Permalink
Deployed 0f66a86 with MkDocs version: 1.6.1
Browse files Browse the repository at this point in the history
  • Loading branch information
zkep committed Feb 22, 2025
1 parent e0b5c08 commit 32a204f
Show file tree
Hide file tree
Showing 1,287 changed files with 29,122 additions and 40 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -6053,6 +6053,25 @@ <h2 id="_5">小结</h2>
<h2 id="_6">思考题</h2>
<p>这节课涉及的统计概念都是虽然经常听到,但是难理解的,你们在学习统计中有没有对这些概念的理解有独特的心得?可以拿出来分享给大家。</p>
<p>欢迎在留言区写下你的思考和想法,我们可以一起交流讨论。如果你觉得有所收获,欢迎你把课程分享给你的同事或朋友,一起共同进步!</p>
<div><strong>精选留言(15)</strong></div>
<ul>
<li><span>孙小军</span> 👍(13) 💬(18)<div>关于对p值的理解,想请问老师:

“当我们在 A&#47;B 测试中观测到“实验组和对照组指标不同”的概率(P 值)很大,比如 70%,那么在零假设成立时,我们观测到这个事件还是很有可能的。“ 不太理解这句,零假设成立的意思是实验组和对照组指标相同,但是观测得到两组的指标不同的概率是70%,这时为什么要接受零假设呢?</div>2020-12-24</li><br/><li><span>豆丁儿</span> 👍(2) 💬(1)<div>过来查缺补漏的,老师很专业,讲的很清楚</div>2021-04-06</li><br/><li><span>Dan</span> 👍(2) 💬(2)<div>老師您好,双尾检验可以帮助我们全面考虑变化带来的正、负面结果,那如何檢驗是正面還負面結果?一般來說來我們希望實驗組(Ex:新的推薦演算法)的結果比較好,為何AB test不常使用单尾检验?</div>2021-03-25</li><br/><li><span>西西</span> 👍(2) 💬(1)<div>如果不只两个实验可以用t或z检验吗?一个对照组两个实验组,用实验组分别和对照组做假设检验吗?</div>2020-12-16</li><br/><li><span>Geek_63ee39</span> 👍(1) 💬(5)<div>请问老师,原文中提到:“二项分布的总体方差的计算不需要知道总体中各个数据的值,可以通过样本数据求得总体方差”。比如“对某一内容曝光50次,其点击次数“这个随机变量服从二项分布,做了一次试验,观测到有5个人点击,那么总体方差等于多少,怎么计算?</div>2021-01-16</li><br/><li><span>皓昊</span> 👍(1) 💬(2)<div>老师,采用python 进行置信区间法检验,得到ci_low,ci_upp两个参数,这两个参数都是区间值,如下。这两个参数的区间该怎么理解呢。

ci_low,ci_upp=proportion_confint(counts,nobs,alpha=0.05,method=&#39;normal&#39;)
print(&#39;ci_low:{0},ci_upp:{1}&#39;.format(ci_low,ci_upp))
ci_low:[0.053833 0.04707099],ci_upp:[0.05815011 0.05117941]</div>2020-12-13</li><br/><li><span>Geek_0e2f02</span> 👍(1) 💬(1)<div>t检验就是小样本情况下的z检验,能用Z检验的地方都可以用t检验,可以这么理解吗,老师</div>2020-12-13</li><br/><li><span>Kendal</span> 👍(1) 💬(3)<div>后面会讲如何控制 alpha和beta么?比如不是常见的5%,20%。是通过样本数量来控制么?</div>2020-12-10</li><br/><li><span>Shehla</span> 👍(1) 💬(1)<div>非常好,逻辑清晰,地铁上听着也很方便,感谢</div>2020-12-10</li><br/><li><span>不知太平</span> 👍(0) 💬(2)<div>老师,你好。我工作中在做AB测试的时候,定的目标是实验组比对照组目标转化率高30%,实际发现30%这个数字是否合理很难确定。是不是说如果用假设检验验证的话,就不用定这个数值,只需要判断两组是否显著不同,如果是,且实验组转化率比对照组高,就可以认为实验组成功了?</div>2021-08-11</li><br/><li><span>API接口调用工程师</span> 👍(19) 💬(0)<div>是这样的 我认为作者应该把因果关系转换过来说。
我们在现实生活中已经观测到了A,B两种事物的样本统计值有一定差异,我们可以把这个事件命名为C。
但我们不知道他们所属于的总体是否有差异。
在这样的情况下,我们可以提出两种假设。
H0:总体是没有差别的 H1:总体是有差别的
那么p值计算的是 p(C|H0),即零假设成立时发生事件C的概率大小。现在我们已经知道C是一个已经发生的事件,如果我们计算出来的条件概率p(C|H0)=0.01,是说明这个事件是一件非常小概率的事件,不太可能发生的,我们此时应该拒绝原假设H0这种条件,认为C不是在这种条件下发生的。
引用:en.wikipedia.org&#47;wiki&#47;P-value</div>2021-10-18</li><br/><li><span>蝈蝈</span> 👍(2) 💬(0)<div>老师你好,在推荐算法的那个例子中,使用AB测试只能检验两个算法是否相同,如果最终推断结论是两个算法不同,那么如何判断哪个更好呢?直接根据点击率大小进行判断吗?</div>2022-04-16</li><br/><li><span>Geek_7d7659</span> 👍(0) 💬(0)<div>请教老师两个问题
1、核心指标人均收入,如果是AAB 或AABB 或ABBB实验,也是用T检验方法吗?
2、P和置信区间,如果P小于0.05 那么通过置信区间检验时也一定是显著吗?(想了解P值和区间区间在显著性判断时是否一定得到相同结论)</div>2025-02-15</li><br/><li><span>Geek_7d7659</span> 👍(0) 💬(0)<div>请教老师两个问题:
1、上面提到双样本检验,如果时看核心指标人均收入,实验方式为AAB 或AABB 或ABBB实验时,也是用T检验吗?</div>2025-02-15</li><br/><li><span>张沛</span> 👍(0) 💬(0)<div>T校验和Z校验的一些定义都没交代,就给出使用场景,看的是云里雾里,感觉组织顺序还是需要照顾下新手</div>2025-01-26</li><br/>
</ul>



Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -6081,6 +6081,27 @@ <h2 id="_7"><strong>小结</strong></h2>
<h2 id="_8"><strong>思考题</strong></h2>
<p>在某次A/B测试中,你是不是也遇到过没能得到显著结果的情况?你当时是怎么处理的,有没有从实验中获得一些宝贵的经验?</p>
<p>欢迎在评论区留言、讨论,也欢迎点击“请朋友读”,把今天的内容分享给你的同事、好友,和他一起学习、成长。好,感谢你的收听,我们下节课再见。</p>
<div><strong>精选留言(14)</strong></div>
<ul>
<li><span>Geek_0e2f02</span> 👍(10) 💬(1)<div>老师你好,我对分配流量这里有些疑问:
假设我们的新版app同时要上线3个功能,同时我们每天有10万流量,如果每个功能分开测,功能A实验组对照组都需要1万样本量,功能B需要2万样本量,功能C需要3万样本量。
1、首先,我们如何确定实验对象,是我们在我们的用户池里就随机抽样或者以某种方式先选出我们的实验对象,还是直接从我们每天的流量里随机分出一部分用户用于实验
2、假设我们的实验需要进行好几天,如果我们事先根据用户ID设定好他属于实验组还是对照组,那这个用户有可能会出现好几次,这样需要不需要去重,如果事先用户不设定好属于哪一组,那么他有可能同时在实验组和对照组,这种情况怎么处理呢
3、假设我们事先给用户设定好实验组或者对照组,假设我们的实验需要10万样本量,我们实验之前给对实验组、照组各选了20万用户,我们预计是够了,但是经过我们的一段时间的实验,发现怎么也达不到我们的需要的样本量,这20万用户中,可能只来了8万,还差2万,这种情况如何处理呢
4、我们同时上线3个功能,您上边说的是我们可以只有1个对照组,但是我举的例子是,每个实验需要的样本量是不一样的,这种情况下我们的实验应该如何设计呢,以需要最大的样本量3万为基础做实验吗,A&#47;B&#47;C功能都用3万样本。
5、最后,您讲的像这样多个功能一起上,需要一个对照组,3个实验组,还是相当于只是减少了对照组,实验组的数量并没有减少,我的疑惑是,能否实验组也变为一个,同时测这三个功能
谢谢老师,不知道我是否表述清楚.......</div>2021-01-09</li><br/><li><span>Marrbor</span> 👍(1) 💬(1)<div>PSM相关资料可以share一下吗?希望进一步了解

</div>2021-08-05</li><br/><li><span>Kennedy</span> 👍(0) 💬(2)<div>老师你好,为何Power 和 方差成反比呢? 综合方差和样本量成正比,样本量和Power成正比。</div>2021-08-30</li><br/><li><span>豆丁儿</span> 👍(0) 💬(2)<div>老师,提问1:这里只讲到了提高样本量来提高power,是假定第一类错误不变吗?计算样本量的公式中,明明两类错误都是会影响的呀</div>2021-04-13</li><br/><li><span>Pink泡芙_xue</span> 👍(0) 💬(2)<div>
您好,有什么办法可以看到或者打开文章中链接的内容吗。给个链接获取地址也行。想看下psm原理</div>2021-04-02</li><br/><li><span>李哲</span> 👍(2) 💬(2)<div>有以下疑问哇:
1.我们怎样判断测试结果不显著是因为两指标确实在统计意义上相同,还是因为测试的power不足。如果无法判断的话岂不是每个检测的结果我们都要按照本文的流程做相应的复盘;
2.如果是power不足,我们做优化的话,就是重新做一个ab测试吧?</div>2021-09-27</li><br/><li><span>Anymore</span> 👍(1) 💬(0)<div>cuped,分层抽样等都是可以用来减少指标方差的方法,提高灵敏度的同时,可以降低样本量的需求</div>2023-11-13</li><br/><li><span>Geek_9dceb7</span> 👍(1) 💬(1)<div>老师好,请问对于概率型指标,如何去除离群值</div>2022-04-27</li><br/><li><span>Geek_7d7659</span> 👍(0) 💬(0)<div>【变化需要条件触发。在被分配到实验组的所有用户中,只有满足一定条件的用户才会触发 A&#47;B 测试中的变化】
筛选后两组用户是否可能结构上不再同质?</div>2025-02-16</li><br/><li><span>Geek_7d7659</span> 👍(0) 💬(0)<div>【对于延长测试时间,你肯定不陌生,我在第 6 节课讲样本量估算时就讲过。每天产生的可以测试的流量是固定的,那么测试时间越长,样本量也就越大。所以在条件允许的情况下,可以延长测试的时间。】
延长测试时间具体指下面的哪种?
1、扩大样本数量
2、在原有样本数据的基础上延长样本的天数,这样样本可观测的天数增加</div>2025-02-16</li><br/><li><span>续费专用</span> 👍(0) 💬(0)<div>老是您好,为啥不先取出符合触发条件的用户再做分流呢?这样实验组和对照组的相似度会更高一些吧?</div>2023-11-21</li><br/><li><span>Renee 🐙</span> 👍(0) 💬(0)<div>老师我一直以为variance是指实验指标的variance,PSM只是将control和treatment两组之间的特征分布的差异减小了,按理说并没有减小实验指标的variance,请问能不能解答一下我的疑惑</div>2023-10-30</li><br/><li><span>Dried_mango_slices</span> 👍(0) 💬(0)<div>老师你好!我不是很明白为什么会出现样本量不够而导致实验结果不显著的情况。我的理解里样本量实在实验设计环节根据想要测定的Minimal Detectable Effect 和估计的方差而决定的。所以实验结果能保证得到测定MDE的样本量,所以为什么会有样本量不够的情况呢?
另一方面,如果因为认为样本量不够就继续跑实验,采更多的样本,这样会不会导致False Positive rate 升高呢?</div>2022-07-17</li><br/><li><span>两只月牙儿</span> 👍(0) 💬(0)<div>老师您好!对于短信或者电销实验的用户,需不需要将未触达用户去掉,只分析触达用户</div>2021-10-30</li><br/>
</ul>



Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -6004,6 +6004,17 @@ <h2 id="_6"><strong>小结</strong></h2>
<p><strong>思考题</strong></p>
<p>结合自己的经验,想一想过去有没有在A/B测试中遇到多重检验问题和学习效应?以及当时是如何处理的呢?</p>
<p>欢迎在评论区写下你学习本节课的收获和深度思考,如果今天的内容能帮你解答了一些困惑问题,也欢迎点击“请朋友读”,和他一起学习、成长。感谢你的收听,我们下节课再见。</p>
<div><strong>精选留言(12)</strong></div>
<ul>
<li><span>四月. 🕊</span> 👍(4) 💬(5)<div>“第四种形式,当 A&#47;B 测试在进行过程中,你不断去查看实验结果时。”
对于第四种形式的多重检验错误,在日常实现的时候我们会每天给出昨天测试结果,累加到之前的结果上进行计算,这样p值的不准确是只是因为现在没到样本量导致的现在这个p值不准,还是会影响到最后达到样本量的p值也不准确呢?</div>2021-01-07</li><br/><li><span>安和</span> 👍(2) 💬(1)<div>请问对于A&#47;B&#47;n 测试类的多重检验问题,若每个实验组都有个单独的对照组的情况和共用对照组的情况,都有相同的多重检验问题吗?</div>2021-01-02</li><br/><li><span>西西</span> 👍(1) 💬(1)<div>同样对多重检验问题有疑问,希望能够增加一些案例帮助说明。
开头的举例:至少出现一个第一类错误的概率是 64% &gt;&gt; 5%,所以多重检验问题的关键是:至少出现一次第一类错误就得到整体是**显著差异**的结论?
如果多次比较,每一次比较的结果都单独判断;或者如果样本量没到,没到之前只是看看,但并不影响得到最终结论,是不是就不是多重检验问题了?</div>2021-08-13</li><br/><li><span>贤者时间</span> 👍(1) 💬(2)<div>关于多重检验我有两个观点想跟老师交流一下:
1. 只要进行了多个AB测试(而不论是不是由文中提到的四种产生形式)就必然产生多重检验的问题,因为计算FWER的公式同样适用。举个例子,当公司有20个AB测试场景(对应着20个目标&#47;假设),其中出现错误的概率就很大了。而文中提到的解决办法事实上针对的是同一个目标或者同一个对照组的情景。
2. 基于1,我想到一个解决思路:条件允许的话,可以做相同的AB测试,每个测试犯弃真错误的概率是α,N个相同测试犯错的概率就是α的N次方了。可以极大减小犯错概率。而且适用于任何场景。不知老师怎么看?</div>2020-12-29</li><br/><li><span>那时刻</span> 👍(1) 💬(1)<div>老师提到的误区,感觉我们都曾遇到过,看着很有感触。

多重检验里,我们想要看 A&#47;B 测试中的变化对于各个国家的具体影响时,就会以国家为维度来做细分的分析。如果采用调整α的方法Bonferroni 校正,那么n的取值是什么?我的理解是,一般取top n的国家来看数据,n是top n的值。另外一种BH方法,设置不同的p值,是按照国家设置吗?</div>2020-12-29</li><br/><li><span>李哲</span> 👍(0) 💬(2)<div>多重检验错误的发生情况还是没有搞清楚。如果ab测试有多个实验组测试不同的指标,那么最终结果我只取某个指标对应的实验组和对照组进行分析,那还会存在多重检验的问题嘛</div>2021-07-30</li><br/><li><span>Geek_2ef9a5</span> 👍(1) 💬(0)<div>老师您好,关于多个指标的话也需要做p值的调整吗?比如我们主要研究转化率有没有因为某个改变而导致两组差异,次要要评价了比如点击率有没有差异。很多时候我都是直接使用0.05,去评价每个指标</div>2021-09-06</li><br/><li><span>Geek_7d7659</span> 👍(0) 💬(0)<div>比如7个实验组1个对照组,也是用T检验或者Z检验方法检验指标的显著性?</div>2025-02-16</li><br/><li><span>崇世轩人</span> 👍(0) 💬(0)<div>真正消除学习效应,延长多长时间怎么判断</div>2022-09-19</li><br/><li><span>9</span> 👍(0) 💬(1)<div>老师,如果我的ab测试会看总体的显著性,还会在多个维度上看显著性,比如在手机系统(ios android)分别看显著性,还会分别看TOP5国家的显著性情况。如果这样就会引起多重检验的问题了。 我想用Bonferroni 校正。 调整α时我的n,是考虑一共做了多少个实验(我一共做了8次显著性检验(总体一次,手机系统2次,国家5次),n=8),还是按照维度考虑呢,也就是做总体的显著性检验时 就用α;做手机系统的检验时 n=2; 做国家的检验时,n=5。</div>2022-07-12</li><br/><li><span>Geek_559df4</span> 👍(0) 💬(0)<div>老师,多重检验当样本量不够时,采用流量正交的方式有没有相关参考资料</div>2021-12-06</li><br/><li><span>志林</span> 👍(0) 💬(0)<div>为什么要去改变P值呢,不能通过置信区间,同正同负判断吗,这样就能知道 在95% 置信水平下,实验组优于还是劣于 base。</div>2021-09-11</li><br/>
</ul>



Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -5728,6 +5728,10 @@ <h1>导读 科学、规范的A B测试流程,是什么样的?</h1>
<p>如果你还没做过A/B测试,也没关系。我会结合实际案例,来给你深入讲解。如果有条件,学习完之后你就可以尝试做自己的第一个A/B测试啦!</p>
<p>最后,我还要说明一点。A/B测试的前提是数据,这里牵涉到一个公司的数据架构和埋点策略,更多的是工程和数据库建设的问题,不是我们A/B测试的重点。所以在接下来讲课的时候,我就假设我们已经能够追踪A/B测试所需要的数据了,至于如何追踪这些数据,如何埋点这种工程实施的细节我们这里就不展开讨论了。</p>
<p>好啦,了解了这些,就让我们正式开始A/B测试的旅程吧!</p>
<div><strong>精选留言(5)</strong></div>
<ul>
<li><span>梅不烦</span> 👍(1) 💬(2)<div>老师您的思维导图用的什么软件啊,很美观。我用的那个呈现比较丑😿</div>2020-12-12</li><br/><li><span>Marrbor</span> 👍(0) 💬(1)<div>第二步中的bootstrapping 目的是什么?验证AA吗?还是其它?</div>2021-07-26</li><br/><li><span>张浩_house</span> 👍(0) 💬(1)<div>做AB测试后,是不是需要根据选择的不通流量针对性的埋点了?通常实验是随机分配的流量,在统计指标的时候能够区分哪些统计指标是A实验的效果,哪些指标是B时刻的实验效果?</div>2020-12-13</li><br/><li><span>18041177287</span> 👍(0) 💬(0)<div>做数据分析统计方面的书籍或课程有推荐的吗?</div>2021-11-08</li><br/><li><span>Marrbor</span> 👍(0) 💬(2)<div>统计学的教程有推荐吗?</div>2021-08-09</li><br/>
</ul>



Expand Down
Loading

0 comments on commit 32a204f

Please sign in to comment.