处理异常数据(可批量,缩尾或直接删除),stata怎么
winsor var1, gen(var11) p(.05) 先安装这个命令后可以直接用
大家在写论文时可能经常会遇到大数据样本中异常数据批量剔除的问题,本文在于向大家推荐在Stata中运用winsorize方法,来对数据进行处理(缩尾使数据平滑,或直接删除),经试验有效,希望有所帮助。
材料/工具
Stata(网上有面安装款,解压能直接运行),实验数据
比如对变量size在1%的水平下进行winsorize处理,并生成新变量size_w,命令为winsor size,gen(size_w) p(0.01),像这些比较基础的问题一把都可以直接搜到答案的
方法
打开stata,在命令行输入ssc install winsor2, replace,自动安装 winsor2
一个分类进行描述统计的命令(sum的进阶版): tabstat price weight length, by(foreign) stat (me sd N) nototal longstub 按照foreign分类,对 price weight length进行描述统计,统计量分别包括me(均值) sd(标准差) N(样本数) 星号不
准备数据(注意输入格式)
如果要对多个变量缩尾,例如下。对一个变量缩尾也是一样。 local vlist "roe size lev" foreach v of local vlist{ winsor `v', gen(`v'_w) p(0.01) }
导入数据File-Inport
winsor var1, gen(var11) p(.05) 先安装这个命令后可以直接用
输入命令winsor2 变量名 变量名, replace cuts(1 99),此条命令是先找到各个变量的1%,99%所对应的分位数,比如对于变量ac1,其分位数分别为a、b,那么将数据中小于a的数替换成a,将大于b的数替换成b,原始数据直接变为新数据,这样就是缩尾,使数据平滑(口径为1%)。若输入命令winsor2 变量名 变量名, replace cuts(1 99) trim,则不替换,将小于a和大于b的直接删除
stata数据分析。 在规定条件下,传感器校准曲线与拟合直线间的最大偏差(ΔYmax)与满量程输出(Y)的百分比,称为线性度(线性度又称为“非线性误差”),该值越小,表明线性特性越好。表示为公式如下: δ=ΔYmax/ Y*100%? ±1%表示最大偏差ΔYmax为
最后一张图显示的是命令winsor2 ac1 ac2, replace cuts(1 99) trim命令的执行结果,大家看到数据表中的“.”,即是删除完异常值后的结果,批量处理后可以File-Export将数据导出,在Excel上排序后即可将其删除(或在STATA上用其他命令也可)
比如对变量size在1%的水平下进行winsorize处理,并生成新变量size_w,命令为winsor size,gen(size_w) p(0.01),像这些比较基础的问题一把都可以直接搜到答案的
扩展阅读,以下内容您可能还感兴趣。
怎么在stata中将数据缩尾10%处理?最好写出程序代码,O(∩_∩)O谢谢!
winsor var1, gen(var11) p(.05)
先安装这个命令后可以直接用本回答被提问者和网友采纳
所有连续变量进行1%缩尾处理是什么意思?
stata数据分析。
在规定条件下,传感器校准曲线与拟合直线间的最大偏差(ΔYmax)与满量程输出(Y)的百分比,称为线性度(线性度又称为“非线性误差”),该值越小,表明线性特性越好。表示为公式如下:
δ=ΔYmax/ Y*100%?
±1%表示最大偏差ΔYmax为满量程输出Y的±1%
拓展:其他相关精度误差定义如下:
1.绝对误差:实测值与理想值之差;
2.相对误差:被测点的绝对误差与被测点的理想值之比;
3.引用误差:被测点的绝对误差与基准值(量程)之比;
4.基本误差:在标准条件下,基准值(量程)范围内的引用误差;
5.线性误差:实测曲线与理想直线之间的偏差;
6.精度:由传感器的基本误差极限和影响量(如温度变化、湿度变化、电源波动、频率改变等)引起的改变量极限确定。
7.线性范围:传感器在线性工作时的可测量范围。
stata中的数据缩尾调整怎么弄?具体的程序是什么?
help winsor
怎样用STATA对数据进行Winsorize
比如对变量size在1%的水平下进行winsorize处理,并生成新变量size_w,命令为winsor size,gen(size_w) p(0.01),像这些比较基础的问题一把都可以直接搜到答案的
STATA中如何将foreach循环和缩尾处理结合起来一次性对多个变量进行缩尾
一个分类进行描述统计的命令(sum的进阶版):
tabstat price weight length, by(foreign) stat (me sd N) nototal longstub
按照foreign分类,对 price weight length进行描述统计,统计量分别包括me(均值) sd(标准差) N(样本数)
星号不知怎么一并加进去,你检测完手工加吧……追问我不是要做描述统计啊。。。