网易首页 > 网易号 > 正文 申请入驻

正态分布、单 (双) 样本 T 检验

0
分享至

本次来说说连续变量与分类变量(二分)之间的检验。

通俗的来讲,就是去发现变量间的关系。

连续变量数量为一个,分类变量数量为两个。

总体:包含所有研究个体的集合。

样本:经过抽样总体中的部分个体。

均值:变量的数值之和除以变量的个数。

极差:变量的最大值与最小值之差。

方差标准差反映数据的离散程度,其值越大,数据波动越大。

/ 01 / 正态分布

在实际情况里,总体的信息往往难以获取,所以需要抽样,通过样本来估计总体。

点估计和区间估计是通过样本来估计总体的两种方法。

那么样本是否能够代表总体就是关键点,样本需要具有代表性。

点估计:用样本统计量去估计总体参数。

区间估计:不同于点估计,能够提供待估计参数的置信区间和置信度。

区间估计用到了中心极限定理,表现为如果抽样多次,每次抽样都有一个均值,产生的多个均值服从正态分布。

就可以利用正态分布的性质,推断出样本均值出现在某区间范围的概率。

正态分布:关于均值左右对称的,呈钟形。且均值和标准差具有代表性。均值=中位数=众数。

在现实生活中,男女身高(性别有影响需区分开)、体重、考试成绩都是属于正态分布。

影响它们的变量都是独立互不影响的。

接下来对豆瓣电影TOP250里的电影评分进行分析。

首先读取数据。

import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns
import pandas as pd

# 读取文件
df = pd.read_csv('douban.csv', header=0, names=["quote", "score", "info", "title", "people"])
dom1 = []
# 清洗数据,获取国家列,1为中国,2为外国
for i in df['info']:
country = i.split('/')[1].split(' ')[0].strip()
if country in ['中国大陆', '台湾', '香港']:
dom1.append(1)
else:
dom1.append(0)
df['country'] = dom1

生成电影评分直方图,观察其是否符合正态分布。

# distplot:集合功能,kde:显示核密度估计图,fit:控制拟合的参数分布图形,本次为拟合正态分布
sns.distplot(df.score, kde=True, fit=stats.norm)
plt.show()

运行代码后得到下图,发现电影评分分布近似正态分布。

生成电影评分QQ图,观察电影评分与正态分布的接近程度。

# qqplot检验数据是否服从正态分布
sm.qqplot(df.score, fit=True, line='45')
plt.show()

运行代码后得到下图,其中样本点越靠近红色线说明变量越趋近正态分布,结论显而易见。

区间估计,计算95%保证程度下的区间估计范围。

# 标准差
se = df.score.std() / len(df) ** 0.5
# 均值下限
LB = df.score.mean() - 1.98 * se
# 均值上限
UB = df.score.mean() + 1.98 * se
print(LB, UB)
# 得到的结果
8.782710866637895 8.849289133362106

即在95%的置信度下,电影评分的总体均值位于区间「8.7827-8.8492」内。

定义函数,计算不同置信度下的置信区间。

def confint(x, alpha=0.05):
"""计算不同置信度下的置信区间"""
n = len(x)
xb = x.mean()
df = n - 1
tmp = (x.std() / n ** 0.5) * stats.t.ppf(1-alpha/2, df)
return {'Mean': xb, 'Degree of Freedom': df, 'LB': xb-tmp, 'UB': xb+tmp}

result = confint(df.score, 0.05)
print(result)
# 得到的结果
{'LB': 8.782886780076549, 'UB': 8.849113219923453, 'Degree of Freedom': 249, 'Mean': 8.816}

即在99%的置信度下,电影评分的总体均值位于区间「8.7828-8.8491」内。

/ 02 / t检验

01 假设检验

在研究变量时,对分布的性质进行一定的假设,然后通过抽样来检验假设是否成立。

这似乎与我们中学时代的反证法有点类似,假设需要证明的东西成立,然后去反推。

其中实际抽样结果与假设的差异程度可以用概率值表示,为「p-value」。

概率值越大意味着越无差异,越接近。

人为设定一个「p-value」的阈值将差异程度判断为「有差异」或「无差异」,这个阈值就是「显著性水平」。

目前接触的原假设都是设置为等值假设,本次假设电影评分均值为8.8。

显著性水平的设置根据样本容量,本次取显著性水平为0.05。

最后的结论就是「p-value」值小于显著性水平时,差异明显,有理由拒绝原假设。

「p-value」值大于显著性水平时,差异较小,那么就不能拒绝原假设。

这里书本没有对「p-value」如何查表取值详细解说,需要百度查询。

02 单样本t检验

单样本t检验是最基础的假设检验,其利用来自总体的样本数据,推断总体均值是否与假设的检验值之间存在显著差异。

P值大于显著性水平,则无法拒绝原假设。

P值小于显著性水平,则拒绝原假设。

下面在Python中进行单样本t检验,使用电影评分数据,假设均值为8.8分。

# stas:列联表
d1 = sm.stats.DescrStatsW(df.score)
print('t-statistic=%6.4f, p-value=%6.4f, df=%s' %d1.ttest_mean(8.8))
# 得到的结果
t-statistic=-2.0223, p-value=0.3422, df=249.0

P值为0.3422,如果规定显著性水平为0.05,那么就无法拒绝原假设。

即电影评分均值为8.8分的原假设成立。

03 双样本t检验

双样本t检验是检验两个样本均值的差异是否显著。

常用于检验某二分类变量区分下的某连续变量是否有显著差异。

本次使用豆瓣电影TOP250中中外国家电影评分数据。

研究电影评分受国家的影响是否显著(之前分析的结论是没什么影响)。

# 对数据分组汇总
print(df['score'].groupby(df['country']).describe())

得到结果如下,发现均值还是有一点点差异的。

接下来用双样本t检验来看这种差异是否显著。

在进行双样本t检验前,有三个基本条件需要考虑。

①观测之间独立(本次满足)

②两组均服从正态分布(本次满足)

①两组样本的方差是否相同(需检验)

上面的结果已经包含了样本评分均值的方差了,可是书里却说还需要进行方差齐性分析。

这一点不是很理解,就当多学点东西吧。

方差齐性检验的原假设为两组数据方差相同。

# levene:方差齐性检验
country0 = df[df['country'] == 0]['score']
country1 = df[df['country'] == 1]['score']
leveneTestRes = stats.levene(country0, country1, center='median')
print('w-value=%6.4f, p-value=%6.4f' %leveneTestRes)
# 得到的结果
w-value=0.5855, p-value=0.4449

P值为0.4449,若以0.05为显著性水平,则无法拒绝原假设。

即中国电影评分和外国电影评分的方差是相同的

因此进行方差齐性的双样本t检验。

# equal_var=True:两组数据方差齐性
print(stats.stats.ttest_ind(country0, country1, equal_var=True))
# 得到的结果
Ttest_indResult(statistic=0.9331710237657628, pvalue=0.3516393015610625)

P值为0.35,若以0.05为显著性水平,则无法拒绝原假设。

说明中国电影评分和外国电影评分无显著差异

/ 03 / 总结

学习这一部分内容,最大的困惑就是「p-value」的取值。

书上没讲明白如何用公式确定其值,只是通过Pyhton直接结算得出结果。

网上查取的资料也是零零散散,解释的不够全面。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
于娜退圈十年罕露面,又白又壮双下巴抢镜,肚腩凸出胖到不敢认

于娜退圈十年罕露面,又白又壮双下巴抢镜,肚腩凸出胖到不敢认

秋姐居
2026-05-20 19:34:08
霍尔木兹海峡,重大消息!油价跳水7%,黄金白银直线拉升,美股半导体集体狂飙,ARM大涨16%

霍尔木兹海峡,重大消息!油价跳水7%,黄金白银直线拉升,美股半导体集体狂飙,ARM大涨16%

21世纪经济报道
2026-05-20 23:43:19
马刺主帅:失误太多显然不是赢球的模式,伤病让我们压力巨大

马刺主帅:失误太多显然不是赢球的模式,伤病让我们压力巨大

懂球帝
2026-05-21 13:54:16
于文华:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

于文华:一婚下嫁李凡,三拒尹相杰,再婚嫁小伙,不生孩子也幸福

飘飘然的娱乐汇
2026-05-18 20:05:05
为什么75寸电视才2500?不是买不起,是真的没必要买

为什么75寸电视才2500?不是买不起,是真的没必要买

老特有话说
2026-05-18 16:32:15
黄仁勋送饮料给一个女生,为什么连问了两次人家:你喜欢养乐多吗

黄仁勋送饮料给一个女生,为什么连问了两次人家:你喜欢养乐多吗

西楼知趣杂谈
2026-05-19 06:57:24
她是著名主持,退休四年尝试跨界,60岁至今未婚未育与狗相伴

她是著名主持,退休四年尝试跨界,60岁至今未婚未育与狗相伴

白面书誏
2026-05-20 13:27:01
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
这真是玩手机玩的,8岁女孩吃饭姿势怪异,网友:怎么不抽她?

这真是玩手机玩的,8岁女孩吃饭姿势怪异,网友:怎么不抽她?

蝴蝶花雨话教育
2026-04-14 10:47:08
穆里尼奥回归皇马!夏窗三剑齐发,伯纳乌迎变革风暴

穆里尼奥回归皇马!夏窗三剑齐发,伯纳乌迎变革风暴

海阔山遥YAO
2026-05-20 21:53:46
欧联之王 54岁埃梅里连创5大纪录+比肩穆帅 夺冠后被球员扛起庆祝

欧联之王 54岁埃梅里连创5大纪录+比肩穆帅 夺冠后被球员扛起庆祝

我爱英超
2026-05-21 06:38:29
国足能进2030世界杯吗?国际足联暗下结论:已无限趋近于零

国足能进2030世界杯吗?国际足联暗下结论:已无限趋近于零

纵拥千千晚星
2026-05-21 02:43:50
开始收网!菲律宾抓69名中国人同一天,中国海警编队冲向中业岛

开始收网!菲律宾抓69名中国人同一天,中国海警编队冲向中业岛

浪子阿邴聊体育
2026-05-20 12:30:19
海南一儿童吃手撕肉干碎渣掉地上,蚂蚁群啃食后短时间内集体死亡,“零食配料中有亚硝酸钠对蚂蚁来说超量”

海南一儿童吃手撕肉干碎渣掉地上,蚂蚁群啃食后短时间内集体死亡,“零食配料中有亚硝酸钠对蚂蚁来说超量”

大象新闻
2026-05-20 20:46:05
张雪机车车队聚餐照片流出!一个个笑容满面,瓦嫂嘴角根本压不住

张雪机车车队聚餐照片流出!一个个笑容满面,瓦嫂嘴角根本压不住

火山詩话
2026-05-19 19:22:02
对普京访华,特朗普只用了一句话评价,全世界都看出他的真实心思

对普京访华,特朗普只用了一句话评价,全世界都看出他的真实心思

暮雪无痕
2026-05-21 13:40:11
穆里尼奥还没上任就炸锅!皇马更衣室彻底分裂!姆巴佩被无视

穆里尼奥还没上任就炸锅!皇马更衣室彻底分裂!姆巴佩被无视

奶盖熊本熊
2026-05-21 04:41:15
赵箫泓:好不容易从杀人犯演成影后、却在电影马上上映前全网被封

赵箫泓:好不容易从杀人犯演成影后、却在电影马上上映前全网被封

乡野小珥
2026-05-21 06:43:09
“见过最廉价的兜底”,一份趁热吃的山姆烤鸡,让家长被全网群嘲

“见过最廉价的兜底”,一份趁热吃的山姆烤鸡,让家长被全网群嘲

妍妍教育日记
2026-05-20 16:49:27
真被默克尔说中了!俄乌冲突最大输家已出现:不是俄罗斯不是美国

真被默克尔说中了!俄乌冲突最大输家已出现:不是俄罗斯不是美国

刘森森
2026-03-23 16:22:08
2026-05-21 17:04:49
数据不吹牛 incentive-icons
数据不吹牛
趣味+实用数据分析
415文章数 4499关注度
往期回顾 全部

科技要闻

好到离谱也不够!英伟达交出816亿美元营收

头条要闻

特朗普称将与赖清德交谈 外交部表态

头条要闻

特朗普称将与赖清德交谈 外交部表态

体育要闻

常住人口7000的小镇,拥有了一支德甲球队

娱乐要闻

反转!金秀贤与金赛纶未成年时交往不实

财经要闻

英伟达业绩超预!指引再新高仍不够亮眼

汽车要闻

26.98万起步 看小鹏GX如何诠释一车多能以及满配的科技与豪华

态度原创

亲子
本地
家居
旅游
时尚

亲子要闻

妈妈太卷儿女都不顾儿女身心健康是特别无奈的,做爸爸的太心疼还没办法

本地新闻

用云锦的方式,打开江苏南京

家居要闻

风格碰撞 个性与艺术

旅游要闻

雨后莒南:梯田如锦 云影天光入画来

全网首档挑战Al设备拍摄短剧现场直播!

无障碍浏览 进入关怀版