网站关键词优化的步骤,百度快速收录提交工具,受欢迎的商城网站建设,建瓯建设局网站一、背景#xff1a;当“审判”成为科学
1.1 虚拟场景——法庭审判
想象这样一个场景#xff1a;有一天#xff0c;你在王国里担任“首席审判官”。你面前站着一位嫌疑人#xff0c;有人指控他说“偷了国王珍贵的金冠”。但究竟是他干的#xff0c;还是他是被冤枉的当“审判”成为科学
1.1 虚拟场景——法庭审判
想象这样一个场景有一天你在王国里担任“首席审判官”。你面前站着一位嫌疑人有人指控他说“偷了国王珍贵的金冠”。但究竟是他干的还是他是被冤枉的你需要做出审判。
• 如果你只是听到“民众都说他很可疑”就随便判有罪也许冤枉了一个无辜的人
• 如果你因为证据不够充分放任他走了而真凶恰好就是他那可怎么办
这时候作为审判官你要收集证据证人证言、现场线索并进行理性分析。你不会轻易下结论而是先假设他无罪原假设然后看证据有多强。若证据足够强大说明在“嫌疑人无罪”的情况下这么极端的指纹、目击等线索出现简直是“小概率事件”于是你认定他“极可能有罪”就推翻了无罪假设。 这便是“假设检验”的核心思想我们总是先假设“没有差异”“没有效应”就像嫌疑人无罪然后让数据“自己说话”看要不要推翻这个假设。 1.2 假设检验的现代发展
• 过去统计学家费雪Fisher等人在 20 世纪初确立了这套“原假设 vs. 备择假设 p 值 显著性水平”的理论框架。
• 现在在大数据时代我们依然需要这种方法来对数据做严谨推断比如互联网产品的A/B 测试、医药领域的疗效分析、金融风控决策等等。
• 原因不论数据多庞大随机性和噪声总在所以我们要有一把“判定差异是否超越随机”的尺子这就是假设检验。 二、假设检验原理、角色与流程
2.1 原假设、备择假设
1. 原假设Null Hypothesis
默认都是原假设即罪人没有罪需要p值低于阈值的时候我们才会推翻拒绝我们的原假设
• 嫌疑人无罪
• 两个方案无差异
• 新药无显著疗效……
一般总是表示“没有改变、没有差异、没有效果”。 2. 备择假设Alternative Hypothesis
• 嫌疑人有罪
• 两个方案的确有差异
• 新药确实起了作用…… 2.2 p 值出现极端证据的概率
• p 值p-value是指在原假设为真的前提下获得我们这么极端或更极端观测结果的概率。
• 如果 p 值很小比如 0.05这就是显著性水平 的常用阈值 0.05就意味着
• “在没有差异的情况下居然还能看到这么极端的数据太小概率了吧”
• 所以我们倾向于说“估计是原假设不对”即拒绝原假设。
就是他是好人的情况下出现这些不利极端证据概率也太小了吧所以我们认为他是坏人 2.3 Type I 与 Type II 错误
• Type I 错误错把一个无罪的人判了死刑原假设其实对但被我们拒绝
• Type II 错误把真正的罪犯当好人放了原假设其实不对但我们没拒绝
• 做实验或统计分析时我们也要小心平衡Type I 错误率和 Type II 错误率别因极度谨慎而漏掉真差异也别因过度敏感而冤枉“无差异”的情况。 三、A/B 测试让你的产品决策更像“法庭审判”
3.1 你在做的正是“统计审判”
互联网里每当你想更换按钮颜色、重新设计界面布局或者改进推荐算法时却不确定是不是更好——就能用A/B 测试来模拟“法庭审判”流程
1. 原假设新方案和老方案在关键指标点击率、转化率等上“无差异”
2. 备择假设新方案有更好的表现
3. 随机分配把用户随机分成两组一部分看 A另一部分看 B
4. 观察结果收集一段时间数据看 B 组指标是否明显高于 A 组
5. 检验若差异明显到“原假设难以成立”就说明新方案的确优于旧方案推翻原假设。 3.2 常见陷阱
• 样本量过小就好比证据太少判案没把握
• 多重测试一次试验比较很多方案就像同时审好几个案子可能在某个案件里意外得到“极端证据”
• 外部干扰如果不是随机分组、A/B 组用户画像差别太大就像找了一群偏见法官对审判结果会有偏颇。 四、t 检验如何量化“均值上的差异”
4.1 t 检验的来龙去脉
• 场景我想知道“两个组的平均值”到底差多少比如“男性与女性的平均身高差异”或者“A 组人群的日均观看时长 vs. B 组人群的日均观看时长”。
• 原理 • 分子是“两个平均值之间的差”分母是“这俩差值可能出现的标准误综合了方差和样本量”。
• 若这个 t 值很大表明相对随机波动而言均值差距太明显p 值就会小。 4.2 适合场合
1. 数据近似正态分布或者样本量足够大中心极限定理可以帮忙
2. 数值型指标且你关心“平均值”本身的差异
3. 如果两组是独立样本就用“独立样本 t 检验”若是一组人自己前后对比则用“配对 t 检验”。 4.3 t 检验代码 案例分析
案例1独立样本t检验
问题描述比较男性和女性的平均身高是否存在显著差异。
import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
male_heights np.random.normal(175, 7, 100) # 男性身高cm
female_heights np.random.normal(165, 6, 100) # 女性身高cm# 进行独立样本t检验
t_stat, p_value stats.ttest_ind(male_heights, female_heights)print(ft统计量: {t_stat:.2f})
print(fp值: {p_value:.4f})# 结果解读
alpha 0.05
if p_value alpha:print(拒绝原假设认为男性和女性的平均身高存在显著差异。)
else:print(无法拒绝原假设认为男性和女性的平均身高无显著差异。)输出 案例2独立样本t检验
问题描述 在A/B测试中评估新版本B是否显著提升了转化率。
import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
control np.random.binomial(1, 0.10, 1000) # 控制组转化率10%
treatment np.random.binomial(1, 0.12, 1000) # 试验组转化率12%# 计算转化率
control_rate np.mean(control)
treatment_rate np.mean(treatment)print(f控制组转化率: {control_rate:.2%})
print(f试验组转化率: {treatment_rate:.2%})# 进行独立样本t检验
t_stat, p_value stats.ttest_ind(treatment, control)print(ft统计量: {t_stat:.2f})
print(fp值: {p_value:.4f})# 结果解读
alpha 0.05
if p_value alpha:print(拒绝原假设认为新版本显著提升了转化率。)
else:print(无法拒绝原假设认为新版本未显著提升转化率。)输出 案例3药物疗效的配对样本t检验
问题描述 评估某药物在治疗前后患者的血压变化判断药物是否有效。
import numpy as np
from scipy import stats# 生成模拟数据
np.random.seed(0)
pre_treatment_bp np.random.normal(150, 10, 30) # 治疗前血压
post_treatment_bp pre_treatment_bp - np.random.normal(10, 5, 30) # 治疗后血压# 进行配对样本t检验
t_stat, p_value stats.ttest_rel(post_treatment_bp, pre_treatment_bp)print(ft统计量: {t_stat:.2f})
print(fp值: {p_value:.4f})# 结果解读
alpha 0.05
if p_value alpha:print(拒绝原假设认为药物显著降低了血压。)
else:print(无法拒绝原假设认为药物未显著降低血压。)输出 五、卡方检验处理“分类变量”就靠它
5.1 当你的证据是“频数”而非“均值”
• 如果你拿到的是“买 or 不买”这样的分类标签或者“一共投票给 A/B/C 的人数分别是多少”就不能简单地比较平均值。
• 这时要用卡方检验(Chi-Square)因为它专门对“观察到的频数”和“期望的频数”做比较。 5.2 原理简述 5.3 卡方检验代码
import numpy as np
from scipy.stats import chi2_contingency# 构建列联表
# 行性别男、女列购买是、否
data np.array([[30, 10],[20, 20]])# 进行卡方检验
chi2, p, dof, expected chi2_contingency(data)print(f卡方统计量: {chi2:.2f})
print(fp值: {p:.4f})
print(期望频数:)
print(expected)# 结果解读
alpha 0.05
if p alpha:print(拒绝原假设认为性别与购买决策存在关联。)
else:print(无法拒绝原假设认为性别与购买决策无关联。)输出 六、再回到法庭如何让判决更高效
1. 注意样本量别审太少证据就想定罪也别没完没了地搜证耽误时间。
2. 明确检验方法是要比较数值平均还是比较分类频数选对 t 检验 or 卡方检验。
3. 控制误差率 设多少怎么平衡漏判与冤判
4. 多重比较调整若你要审好几件案子或 A/B 测试好多种版本要做相应方法调整避免“捡到极端结果就说差异大”。 七、总结只要有决策就可能需要假设检验
从审判一个嫌疑人是否有罪到互联网 A/B 测试中判断“新老方案孰优孰劣”再到科研里探讨“实验组与对照组”效果差异我们都能看到假设检验的身影。它让我们在随机干扰中保持理性用t 检验检查数值均值用卡方检验衡量分类差异用A/B 测试来做商业产品优化。 文章小结
1. 假设检验就像法庭审案“无罪”假设先行数据若够极端就能推翻
2. A/B 测试互联网“快速试验”神器
3. t 检验比较“两组均值”时最常用
4. 卡方检验用来判断分类/频数的差异或关联度。 希望通过这个“法庭审判”比喻让你更好理解为何需要假设检验以及如何把它用在各种实际场景上。本文若能带给你启发或快乐请不吝在 一键三连点赞、收藏、关注并评论分享哦让更多人知道“统计思维”才是我们在复杂世界里做出理性决策的秘密武器。 参考阅读
• Fisher, R. A. (1925). Statistical Methods for Research Workers.
• Montgomery, D. C. (2017). Design and Analysis of Experiments.
• Pearson, K. (1900). On the criterion… (The seminal paper on Chi-Square test). —— 全文完 ——
感谢阅读期待你的点赞 关注 评论 收藏 转发我们下期见