亦称“虚设变量”,或称“名义变量”、“哑变量”。反映质属性的一个人工变量。是量化了的质变量,通常取值为0或1。在虚拟变量的设置中,基础类型、肯定类型取值为1,比较类型、否定类型取值为0。模型中引入虚拟变量的作用:分离异常因素的影响、检验不同属性类型对因变量的作用、提高模型的精度。
虚拟变量dummy variables
有许多例子可以说明一个样本可以分成两段或更多段,使得一些(或所有)位置参数都有所不同。常见的有季节模型,其中解释变量对一年的季节有不同的影响;还有对地理区域有行为差别的模型;允许在反常时期(如战争年份)有不同响应系数的模型;以及对基于定性因素(如性别,种族,受教育程度及婚姻状况等)的个体有不同行为参数的模型等等。
具体地,考虑线性统计模型
yt=β0+β1x1t+…+βkxkt+et
t=1,…,T (1)
其中x
1t,…,x
kt是非随机的,e
t~N(0,σ
2)。
为了简单而又不失一般性,假设观测值是有序的,使得参数结构对观测值t=1,…,T
1(第一样本段)与t=T
1+1,…,T(第二样本段)不同。
为允许截距对不同样本段可以不同,定义一个虚拟变量

然后,可以重新将统计模型写为:
yt=β0+δDt+β1x1t+…+βkxkt+et
t=1,…,T (3)
除了截距参数可能有差别外,也可允许一部分(而非全部)斜率参数可变化。为了简单起见,不妨设x
1t的斜率变化。这样,模型相应变为:
yt=β0+δ1Dt+β1x1t+δ2x1tDt
+…+βkxkt+et
t=1,…,T (4)