环球微速讯：变量是什么(统计学变量可分为哪几类)

你在学习统计学的时候，可能过于注重分析方法的运用，而忽略了数据收集和整理的重要性。一般来说，统计分析最重要的一步，其实就是把数据整理成便于分析的数据形式，比如下表:

虽然上表全是数字，但是可以回答很多问题。比如:大家都多大了？什么程度？婚姻状况如何？就业情况怎么样？家里有几口人？

(资料图片)

这些问题的答案是我们考察对象的一系列特征或属性，统计学上称之为变量，即上表顶行的条目名称。统计学初学者一定要训练自己用“变量”来表达自己。

每个被考察的对象称为一个观察单元(案例或观察)，变量是观察单元的一些特征或属性。变量的具体值称为“变量值”。

所以上表中一系列问题对应的变量有:年龄、学历、婚姻状况、就业情况、家庭规模、ABO血型等。

进一步的观察表明，一些变量的值，如年龄和家庭规模，是具体和有意义的值。而洪都博客学历、婚姻状况等一些变量的值虽然用数字表示，但其含义只是一个“代号”，背后需要具体的词语来定义和解释，比如“0=未婚，1=已婚”的规定。

因此，年龄、家庭规模等变量的值是定量的、有意义的，我们称之为数量变量)；。

而学历、婚姻状况、就业状况等变量的值是定性的，主要起象征作用，称为定性变量。

另一方面，为了对定性变量进行统计处理，往往需要对其进行编码，比如“0代表男性，1代表女性”。因此，在实际的统计工作中，要避免输入汉字，而要注意转换成相应的数字。

甚至可变的名字，比如上面提到的“编号、年龄、学历等。”，尽可能用英文或汉语拼音表示，以避免统计软件出错。

进一步思考会发现，年龄、人口等变量一般是单位的，不同人的年龄差异理论上可以无限小，比如1年、1个月、1天、1小时、0.1小时、0.01小时...

因此，理论上，年龄变量的取值范围可以取任何正实数。注意，它不是正整数。比如一个人的年龄可以记录为17.55岁，也就是说年龄是17岁6个月18天。甚至可以利用出生时间的信息精确到更小的时间单位(比如“分、秒”)。所以这类变量被称为连续变量，主要是因为理论上它的取值范围是连续的。

相反，家庭人口的变量是另一种连续变量，即离散变量，因为不同家庭的人口只能相差0，1，2，而不能相差1.1，1.2等。，其取值范围是不连续的，不连续的。

这样，一般只有数量变量分为连续和离散，即一个数量变量要么是连续的，要么是离散的。

相比较而言，虽然定性变量在数据表达上类似于离散变量，但由于它们只具有“代号”的意义，一般不被视为离散变量。

另外，定性变量的值往往表现为不重叠的类别(所以定性变量也叫分类变量)，这些类别有时会有细微的差别。

比如学历等定性变量的取值为“文盲、小学、初中、高中……”，透露出一种等级或秩序感，所以也叫有序分类变量，意思是其取值的类别之间存在程度上的差异。

另一个常见的例子是“满意度”，包括“非常不满意、不满意、一般、满意、非常满意”。这种有序的分类变量给人一种“半定量”的感觉，也称为“等级变量”；

另一方面，另一类定性变量，即无序分类变量，其值没有差异，如性别、血型等。

无序分类变量按取值可分为二项式分类变量和多分类变量。比如性别(一般)只分两类，所以叫两类，而血型很多，可以叫多类。

要明确各种变量的含义，还需要了解各种类型的变量是可以转换的。

比如血压值一般记为定量变量，但其可按照一定的临床标准，将其转换为定性变量，例红豆博客如根据血压值分为：正常血压（收缩压

廊坊生活网>关注