NoteDeep

基本概念

指标:观察指标,由研究目的确定分观察对象的内在属性特征或其相关的影响因素。
变量:观察变量,一般特指用于数学、统计或软件计算的分析指标。
影响变量:自变量,自身变化并影响结果变量变化的量。
结果变量:因变量,受到影响变量的影响而变化的量,看作影响变量变化的结果。
总体:所有观察对象的某个观察指标的全部观察值。
样本:从总体中随机抽样获得的部分观察对象的变量值,样本中变量值得个数称为样本含量。
同质:指研究对象具有相同或相近的性质、条件或影响因素。
变异:同质研究对象的某些研究特征又具有差异性。
参数:是描述研究总体特征的指标。用希腊字母代表,如:总体均数、总体率π、总体标准差等。
统计量:是根据样本的变量值计算的、描述样本特征的指标。用拉丁字母代表,如:样本均数x、样本率p、样本标准差S等。
本质差异:指不同的研究因素影响或作用于不同的研究总体,导致不同总体参数之间或相应样本统计量之间存在的差异。
抽样误差:指由于随机抽样的原因引起的样本统计量与总体参数或不同样本统计量之间的差异。
引起抽样误差的直接原因是随机抽样,内在原因是总体中个体间的变异。因为个体变异的绝对性,所以抽样误差不可避免,但抽样误差的大小可用统计学方法予以估算。
频率( frequency)是在有限少量次数如几次或几十次试验中,某现象出现的次数与总试验次数的比值。
概率( probability)是在无限多次试验中,某现象出现的次数与总试验次数的比值,或者说是频率的极限值。它反映某一事件发生的可能性大小,常以符号P表示,P越接近1表示该事件发生的可能性越大,P越接近0表示该事件发生的可能性越小。

学习统计学的方法

PDTRS
目的purpose
数据库database
类型types of variable
变量之间的关系relationship of varibles
软件softwork



变量之间关系分析

1.统计描述
数值变量的统计描述:指计算数值变量观察值的均数、标准差、倒数,以及将观察值转换成分组频数表即频数分布表数据,制作直方图。
分类变量的统计描述:指将分类变量观察值的观察值转换成分类频数表、制作直条图,计算对应的率、构成比、相对比等。
2.统计推断:应用统计学的抽样数据假设演绎的推理方法,对总体参数进行区间估计假设检验的过程。
判断准则:小概率事件不可能发生原理
思维方法:反证法,首先作出反设:与求证命题相反的假设;然后归谬:以反设作为条件,推理导出矛盾;最后下结论:说明反设不成立,命题成立。
统计学上将差异分为抽样误差和本质差异,差异有统计学意义指假设检验拒绝了抽样误差,接受了本质差异;差异没有统计学意义指不拒绝抽样误差,而拒绝了本质差异。由于抽样研究中抽样误差绝对存在,其大小可以估计,所以统计学上首先提出无效假设H0,即不同样本之间存在的差异有抽样误差所致,与本质差异无关或无太大关系,然后根据分析目的和给出的统计条件,选定具体的统计计算方法,计算H0不被拒绝的概率P值。若P≤α(0.05或0.01),根据小概率事件实际不可能发生原理,本次抽样的差异不是有抽样误差所致,即拒绝H0,接受H1;若P>α,根据该原理,没有理由认为差异不是由抽样误差引起,故不拒绝H0,而拒绝H1。
两类错误:第一类——误诊,P≤α,拒绝H0时,犯第一类错误,称α错误或假阳性,即H0实际是正确的,但被拒绝了,此差异由抽样误差引起;第二类——漏诊,P>α,不拒绝H0时,犯第二类错误,称β错误或假阴性,即H0实际不正确,但没被拒绝。

单一变量的统计描述

单一数值变量统计描述:用明确的计算公式和直观图表方式,展示某一数值变量的数值特征和分布特征。数值特征主要指变量值的集中趋势(均数、几何【平均数、中位数)和离散趋势(标准差、极差、四分位数间距),分布特征指变量值分布的正态性、偏态性、对称性,用频数表数据、绘制频数分布图。
单一分类变量统计描述:用明确、直观的计算和图表等方式展示某一分类变量的分布特征,率、构成比、相对比、动态数列、分类频数表和频数分布图。

单一变量的统计推断

比较变量所来自的总体与某已知总体相应参数的不同,作出差异是否具有统计学意义推断结论的检验方法。
单一二项分类变量:比较单样本率与总体率的比较,其目的是从已知样本数据出发来判断样本率(实际上是样本所来自的总体率)是否与已知总体率相符。
单一多项无序分类变量:比较单一样本构成比与某总体构成比,从已知样本数据出发判断样本构成比是否和已知总体构成比相符。



评论列表

    基本概念
    学习统计学的方法