样本量计算器
找出样本量
该计算器计算满足所需统计约束的最小必要样本数。
找出误差幅度
这个计算器给出观察或调查的误差范围或置信区间。
在统计学中,通常通过研究人口中有限数量的个体来推断人口信息,即人口是抽样的,并假设样本的特征代表整个人口。对于下文,假设存在这样的个体群体, p的人与其他人是不同的 1-p 以某种方式;例如, p 可能是棕色头发的人的比例,而其余的 1-p 有黑色、金色、红色等。因此,要估计 p 在人群中,样本 n 可以从人群中抽取个体,样本比例, p̂,针对棕色头发的样本个人进行计算。不幸的是,除非对全部人口进行抽样调查,否则估计 p̂ 很可能不等于真正的价值 p,因为 p̂ 受到采样噪声的影响,即它取决于被采样的特定个体。然而,抽样统计可以用来计算所谓的置信区间,它是估计值接近程度的指示 p̂ 是真实值 p。
随机样本的统计
给定随机样本中的不确定性(即预期比例估计值, p̂是真实比例的一个很好的近似值,但并不完美 p)可以概括为这样的估计 p̂ 正态平均分布 p 和方差 磷/氮。有关样本估计值呈正态分布的原因,请研究 中心极限定理。如下文所定义的,置信水平、置信区间和样本大小都是相对于该采样分布计算的。简而言之,置信区间给出了一个大约为 p 其中估计 p̂ “很可能”是。置信度给出了这种“可能性”有多大& ndash例如,95%的置信水平指示预期估计 p̂ 在于95%随机样本的置信区间。置信区间取决于样本大小, n (样本分布的方差与成反比 n,这意味着估计值更接近真实比例,因为 n 增加);因此,也可以设置估计中可接受的误差率,称为误差容限, &ε;,并求解所选置信区间小于所需的样本大小 e;一种称为“样本量计算”的计算方法
可信度
置信水平是对样本在选定置信区间内准确反映被研究人群程度的确定性的度量。最常用的置信水平为90%、95%和99%,根据所选的置信水平,每个置信水平都有其相应的z得分(可使用公式或广泛可用的表格找到,如下所示)。请注意,使用z得分假设采样分布呈正态分布,如上文“随机样本的统计数据”中所述。假设一个实验或调查重复多次,置信水平实质上表示重复测试的结果区间包含真实结果的时间百分比。
可信度 | z得分() |
0.70 | 1.04 |
0.75 | 1.15 |
0.80 | 1.28 |
0.85 | 1.44 |
0.92 | 1.75 |
0.95 | 1.96 |
0.96 | 2.05 |
0.98 | 2.33 |
0.99 | 2.58 |
0.999 | 3.29 |
0.9999 | 3.89 |
0.99999 | 4.42 |
置信区间
在统计学中,置信区间是总体参数可能值的估计范围,例如40 ^ 2或40 ^ 5%。以常用的95%置信水平为例,如果对同一总体进行多次采样,并在每次进行区间估计,在大约95%的情况下,真实总体参数将包含在区间内。请注意,95%的概率是指估计过程的可靠性,而不是指特定的时间间隔。一旦计算出区间,它将包含或不包含感兴趣的总体参数。影响置信区间宽度的一些因素包括:样本大小、置信水平和样本内的变异性。
根据标准偏差是否已知或较小样本(n)等因素,有不同的公式可用于计算置信区间<30) are involved, among others. The calculator provided on this page calculates the confidence interval for a proportion and uses the following equations:
在哪里
z 是z分数 p̂ 是人口比例 n 和 “不” 样本大小 普通 是人口数量 |
在统计学中,总体是一组与给定问题或实验相关的事件或元素。它可以指一组现有的对象、系统,甚至是一组假想的对象。然而,最常见的是,人口用来指一群人,无论他们是一家公司的员工人数,某个地理区域的某个年龄组的人数,还是任何给定时间大学图书馆的学生人数。
需要注意的是,当考虑有限的人群时,需要对等式进行调整,如上所示。这 (N-N)/(N-1) 有限总体方程中的项被称为有限总体校正因子,它是必要的,因为不能假设样本中的所有个体都是独立的。例如,如果研究人群中有10个人在一个房间里,年龄从1岁到100岁不等,其中一个人的年龄为100岁,那么下一个人的年龄很可能更小。有限总体校正因子考虑了诸如此类的因素。下面是一个计算无限人群置信区间的例子。
例句:假设Q公司有120名员工,其中85人每天都喝咖啡,求Q公司每天喝咖啡的真实比例的99%置信区间。
样本量计算
样本量是一个统计学概念,涉及确定统计样本中应包含的观察或重复次数(用于估计现象可变性的实验条件的重复次数)。这是任何实证研究的一个重要方面,需要根据样本对总体做出推断。从本质上讲,样本量用于代表任何给定调查或实验中选择的部分人群。要执行此计算,请设置误差范围, &ε;或者样本估计值偏离真实值所需的最大距离。为此,使用上面的置信区间公式,但将符号右侧的项设置为等于误差幅度,并求解样本大小的最终公式。 n。计算样本量的公式如下所示。
在哪里
z 是z分数 &ε; 是误差幅度 普通 是人口数量 p̂ 是人口比例 |
例如:确定必要的样本量,以估计在美国超市购物的95%置信水平和5%误差范围内认为自己是素食者的人的比例。假设人口比例为0.5,人口数量无限制。记住这一点 z 对于95%的置信水平是1.96。请参考置信度部分提供的表格 z 一系列置信度的分数。
因此,对于上述案例,至少需要385人的样本量。在上面的例子中,一些研究估计大约有6%的美国人认为自己是素食主义者,所以不是假设0.5 p̂,将使用0.06。如果已知某天进入某家超市的500人中有40人是素食者, p̂ 那么就是0.08。