变量分类

Stata中的数值型变量分类神器--recode

u200bu2003u2003初识recode命令,我以为它就是个改缺失值的小能手。我们常常看见它是这样出现的: u200bu2003u2003它的作用等效如下: u200bu2003u2003再识recode,才发现这个小命令没那么简单!掌握了recode,处理起数值型变量不是一般地溜!好东西就要分享,接下来,我就给大家全面解析recode命令。 u200bu2003u2003recode命令的完整语法如下: u200bu2003u2003其中, varlist 是指我们想改变的一到多个变量; erule 是我们指定的改变规则,形式为 新值=旧值 。可以同时指定多个规则,每个规则用小括号括起来,用空格分隔; if 和 in 是条件和范围筛选语句,可以根据目的自由添加;最后是一些重要的 options 选项,后面会具体介绍。 u200bu2003u2003注意:在recode命令中的1/5和Stata数列表示中的1/5不同。数列表示中1/5指1,2,3,4,5这5个整数,但在recode命令中1/5包括1到5闭区间内全部实数。 u200b u2003u2003此外,我们还可以用min和max来代表数值,且在等号左边和右边均可。 u200bu2003u2003为了更好说明含关键词的规则形式,我们先用input命令输入一些变量与数值: u200bu2003u2003并且为了更好展示效果,插播一下,介绍两个简单但十分重要的选项: u2003u2003首先是 generate() 选项,用于生成新变量的变量名。其次是 prefix() 选项,用于添加新变量前缀。如果不使用这两个选项,我们使用recode命令时就会使初始数据产生改变,带来很多不方便,因此 强烈推荐 在使用recode命令时添加这两个选项之一。 u200b u2003u2003例如:将原始数据中的1到5改为0,并将改变后的数值储存在一个由原变量名称添加前缀"new_"的新变量中。 u200bu2003u2003此时,数据集如图所示: u200bu2003u2003recode命令中的规则指定是有序的。从左到右的规则中,一旦一个值在前面已经被指定做出某种改变了,在后面的规则中如果再次指定这个值,会被忽视。以刚刚的数据为例: u200bu2003u2003在recode命令中,如果添加if或in语句限定了观测值改变范围,在产生的新变量中,范围外的数值将会变为缺失值。例如,指定前三行的数值进行相应改变: u200bu2003u2003观察数据集可发现,前三行外的数值全部变成了缺失值。这时加上copyrset选项,就会将范围外的观测值原样复制到新变量中。 u200bu200bu2003u2003label()选项可以说是recode命令的灵魂,正是因为有label()选项,recode才可无愧于分类神器这个称号。在之前的推文 让你的数据一目了然--label命令介绍 中,我们介绍过如何使用label命令来给值贴标签。一般分为两步走,先用label define 定义值标签,再用label value 贴标签。而recode命令中,简单一行命令就可以搞定这两步! u200b u200bu2003u2003下面我们以Stata提供的网络数据集来介绍一下recode命令中的label()选项: u200bu2003u2003查看repair这个值标签的内容。 u200bu2003u2003直接在每个规则指定后面用双引号添加新标签内容,并且在最后添加label()选项为新标签命名即可: u200bu200bu2003u2003今天对recode命令的介绍就到这里了,快去动手试试分类你的数值型变量吧!
此后故乡只2023-06-13 07:33:001

R语言基础包应用ifelse函数对变量分类并进行因子化(factor)

用法如下 ifelse.(conditions, true, false, na = NA) 简单展示如下
可桃可挑2023-06-12 07:09:391

心理学自变量分类中的作业变量有什么例子

心理学实验中的条件反射实验 实验内容:敲三角铁,喂狗,敲三角铁,狗流口水,如果你想知道敲三角铁的次数对实验有没有影响 那么你每次实验敲三角铁的次数就是自变量,是你自己可以控制的因素 次数改变对狗的影响,就是因变量,是由自变量改变造成的变化
余辉2023-06-11 08:32:431

求教:因变量是连续变量,自变量分类变量,用什么方法

如果自变量里面的分类变量是只有两个分类的,那你就把它跟其他定量自变量一起挪到自变量对话框就可以的如果分类变量超过两个分类,有3个或以上时,需要实现设定哑变量或者是叫做虚拟变量。这个需要自己重新编码,就是把每个分类单独一列,该项选择了就编码成1,其他的是0然后把这些单独设置的全部一起移入自变量对话框跟定量自变量一起做回归就好了
gitcloud2023-06-09 07:58:071

求教:因变量是连续变量,自变量分类变量,用什么方法

如果自变量里面的分类变量是只有两个分类的,那你就把它跟其他定量自变量一起挪到自变量对话框就可以的如果分类变量超过两个分类,有3个或以上时,需要实现设定哑变量或者是叫做虚拟变量。这个需要自己重新编码,就是把每个分类单独一列,该项选择了就编码成1,其他的是0然后把这些单独设置的全部一起移入自变量对话框跟定量自变量一起做回归就好了
tt白2023-06-09 07:58:041

数据分析中的变量分类

数据分析中的变量分类数据分析工作每天要面对各种各样的数据,每种数据都有其特定的含义、使用范围和分析方法,同一个数据在不同环境下的意义也不一样,因此我们想要选择正确的分析方法,得出正确的结论,首先要明确分析目的,并准确理解当前的数据类型及含义。统计学中的变量指的是研究对象的特征,我们有时也称为属性,例如身高、性别等。每个变量都有变量值,变量值就是我们分析的内容,它是没有含义的,只是一个参与计算的数字,所以我们主要关注变量的类型,不同的变量类型有不同的分析方法。变量主要是用来描述事物特征,那么按照描述的粗劣,有以下两种划分方法:按基本描述划分【定性变量】:也称为名称变量、品质变量、分类变量,总之就是描述事物特性的变量,目的是将事物区分成互不相容的不同组别,变量值多为文字或符号,在分析时,需要转化为特定含义的数字。定性变量可以再细分为:有序分类变量:描述事物等级或顺序,变量值可以是数值型或字符型,可以进而比较优劣,如喜欢的程度:很喜欢、一般、不喜欢无序分类变量:取值之间没有顺序差别,仅做分类,又可分为二分类变量和多分类变量 二分类变量是指将全部数据分成两个类别,如男、女,对、错,阴、阳等,二分类变量是一种特殊的分类变量,有其特有的分析方法。 多分类变量是指两个以上类别,如血型分为A、B、AB、O【定量变量】:也称为数值型变量,是描述事物数字信息的变量,变量值就是数字,如长度、重量、产量、人口、速度和温度。定量变量可以再细分连续型变量:在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如身高、绳子的长度等。离散型变量:值只能用自然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值,这种变量的取值一般使用计数方法取得。按照精确描述划分【定类变量】测量事物类别或属性,各类支架没有顺序或等级,实际上也就是上面说的无序分类变量,所包含的数据信息很少,只能计算频数和频率,是最低层次的一种变量【定序变量】测量事物之间的等级或顺序,就是上述的有序分类变量,由于它的变量值可以是数值型或字符型,并且可以反映等级之间的优劣,除了可以计算频数和频率之外,还可以计算累计频率,因此数据包含的信息多于定类变量。【定距变量】测量事物的类别或顺序之间的间距,它不但具有定类和定序变量的特点,还能计算类别之间的差距,可以进行加减运算,数据包含的信息高于前两种【定比变量】 测量事物类别比值,和定距变量相比,它不但可以进行加减运算,还可以进行乘除运算,包含的数据信息最多,是最高级的变量。上面这四种变量可以从浅到深精确的描述事物,四种变量级别从低到高,高层次变量可以向低层次转化,代价是损失部分数据信息,但是低层次变量无法向高层次转化,这会得出错误结果。按照变量的取值划分前面两种分类方法都是从变量对事物的描述角度出发进行分类,一旦对事物描述确定下来,那么变量的取值也就相应确定下来了,比如定性变量的取值只能是某属性下的计数,比如人数、客户数等,因此只能取特定的值,数值是离散的。而定量变量可以取某属性下的任意值,变量值即可连续也可离散,比如身高、体重、销售额等。连续型数值和离散型数值的分析方法是不同的,因此从统计学角度,又经常划分为连续型变量和定性变量(分类变量)关于变量的类型及取值方法,可以归纳为下表以上是小编为大家分享的关于数据分析中的变量分类的相关内容,更多信息可以关注环球青藤分享更多干货
meira2023-06-06 07:59:311