SPSS statistics介绍

IBM SPSS Statistics

SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。
2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。具体的收购方式为,IBM将以每股50美元的价格进行收购,该交易将全部以现金形式支付,预计于年底前完成。SPSS称将在2009年10月2日召开特别股东大会,投票表决有关将该公司出售给IBM的交易。如今SPSS已出至版本22.0,而且更名为IBM SPSS。
2014年,IBM推出其旗舰统计分析软件IBM SPSS Statistics的最新版本IBM SPSS Statistics 22.0。新版本在原软件的基础上,融合了多项业界领先的统计分析技术,增加了新的功能模块,大大提高了简便性和个性化,进一步贴近用户需求。SPSS统计分析软件是一款按照功能模块x进行配置的软件产品,主要包括SPSS Statistics Base模块和其它一系列扩充功能模块,每个独立扩充功能模块均可在SPSS Statistics Base模块基础上,为其增加某方面的分析功能。
SPSS Statistics 22.0全模块软件包括如下主要15个功能模块:

 

SPSS Statistics Base

SPSS Advanced Statistics

 

SPSS Bootstrapping

SPSS Categories

 

SPSS Complex Samples

SPSS Conjoint

 

SPSS Custom Tables

SPSS Data Preparation

 

SPSS Decision Trees

SPSS Direct Marketing

 

SPSS Exact Tests

SPSS Forecasting

 

SPSS Missing Values

SPSS Neural Networks

 

SPSS Regression

1. SPSS Statistics Base

必需的基础模块,管理整个软件平台,管理数据访问、数据处理和输出,并能进行很多种常见基本统计分析。基本统计分析功能包括描述统计和行列计算,还包括在基本分析中最受欢迎的常见统计功能,如汇总、计数、交叉分析、分类比较、描述性统计、因子分析、回归分析及聚类分析等等。具体如下:

  •  数据访问、数据准备、数据管理与输出管理;
  •  描述统计和探索分析:频数、描述、集中趋势和离散趋势分析、分布分析与查看、正态性检验与正态转换、均值的置信区间估计;
  •  交叉表:计数;行、列和总计百分比;独立性检验;定类变量和定序变量的相关性测度;
  •  二元统计:均值比较、T检验、单因素方差分析;
  •  相关分析:双变量相关分析、偏相关分析、距离分析;
  •  线性回归分析:线性回归、Ordinal回归—PLUM、曲线估计;
  •  非参数检验:单一样本检验、双重相关样本检验、K重相关样本检验、双重独立样本检验、K重独立样本检验;
  •  多重响应分析:交叉表、频数表;
  •  预测数值结果和区分群体: K-means聚类分析、分级聚类分析、两步聚类分析、快速聚类分析、因子分析、主成分分析;
  •  判别分析;
  •  尺度分析;
  •  报告:各种报告、记录摘要、图表功能(分类图表、条型图、线型图、面积图、高低图、箱线图、散点图、质量控制图、诊断和探测图等); 
  •  数据管理、数据转换与文件管理。

2. SPSS Advanced Statistics

在分析数据时,除了基本的数据分析外,如果还想建立分析过程数据,就需要使用Advanced Models,为顺序结果建立更灵活、更成熟的模型,在处理嵌套数据时得到更精确的预测模型,可以分析事件历史和持续时间数据。具体功能包括:广义线性模型(GZLMS)、广义估计方程(GEES)、混合模型、一般线性模型(GLM)、方差成分估计、MANOVA、Kaplan-Meire估计、Cox 回归、多因子系统模式的对数线性模型、对数线性模型、生存分析。
其中一般线性模型 (General Linear Model─GLM)为描述一个结果变量和一组影响变量之间的关系提供了更多的灵活性,模型包括线性回归、ANOVA、ANCOVA、MANOVA和MANCOVA。GLM也包含重复测量、混合模型、Post Hoc检验、重复测量的Post Hoc检验、四种类型的平方和、边缘期望值配对比较、处理复杂的缺失单元及储存设计矩阵和结果数据。

3. SPSS Categories

Categories是优秀的对应分析程序,用启发性的二维图和感知图让您清晰地看到数据中的关系,使您可以更完整和方便地分析数据。Categories提供非线性主成分分析来描述数据,并用图标清楚地展示数据中的关系,展示并分享动态、交互的分析结果,让您从分类数据中得到更丰富的信息。使用Categories,您可以从大量变量或二维及多维表格中了解重要讯息。通过类似传统的回归分析、主成份分析及典型相关分析,帮您处理和了解顺序及名义数据可视化地探索您的多变量分类数据。
对应分析用于分析二维列联表或可以表示为二维表格的数据,比如课程偏好和习惯性选择数据间的关系。使用对应分析和分类回归分析过程,您可以把分析结果用表格、图形和独特的“枢轴表”来展示。 
最优尺度回归用一个优化的尺度量化分类变量,得到一个优化的转换变量线性回归方程。我们还可以用这个回归的结果方程来预测这三个变量的任意组合所影响的工作满意度。
还可以应用齐性分析(homogeneity analysis),又称多重对应分析,来分析分类多变量数据矩阵。齐性分析类似于对应分析,但不限于两个变量。齐性分析用为记录和分类变量赋予数值的方法来量化名义数据,在低维度空间中表述两个或多个名义变量之间的关系。例如,您可以用齐性分析来图形化地显示工作种类、少数民族种类和性别之间的关系。我们可以发现在少数民族种类和性别变量中存在歧视,但工作种类变量中不存在歧视现象。
PROXSCAL帮您把观测数据分配到"概念空间"的具体位置,您可以在低维度空间描述相似性和不相似性,以便对变量间的关系有一个"空间位置"的理解。

4. SPSS Complex Samples

如果使用了特别复杂的抽样方案,该模块可以计算复杂样本的统计数据,得到更精确的结果。它拥有专门的规划工具和统计方法,提供各种向导来制定取样方案或详细定义样本,并提供专门的技术来解决样本设计以及相伴标准误差,能够减少得出错误或误导性推论的风险。Complex Sample将抽样设计融入调查分析之中,对复杂抽样数据的总体得到更加有效的统计推论,对于调查、市场、民意研究人员或者社会科学家来说是必不可少的统计工具。

5. SPSS Conjoint

SPSS Conjoint是包含三个相互关联过程的一个系统,用于进行全特征联合分析。联合分析使研究人员了解消费者的偏好,或在一定产品属性及其水平条件下的产品评定。联合分析考虑研究时应包括的产品属性、考虑属性水平、产品卡片的数量,用正交设计生成一个包含适量产品卡片的正交主效果片段因子设计。Conjoint帮助市场研究人员和新产品开发部门了解在消费者心目中什么产品属性是重要的,了解最偏爱的属性水平是什么,进行定价研究,进行品牌价格研究。在产品投入大批量生产之前进行这些研究,以避免可能的失误。

6. SPSS Custom Tables

Tables提供35种单元和摘要统计量,能够更方便地显示多重序列数据,它能串接所有的维度,以在同一表格中显示包含不同统计量的各种变量。Tables用更深入的分析,轻松地处理复选题与缺失值,用包括所有统计量、易于理解的表格来展现分析结果,通过完整的表格控制权,研究人员还可以自制表格,创造优美外观。SPSS Tables广泛应用于调查研究和市场研究等领域,可以完成很多“中国式报表”。
SPSS直观的图形化界面使您在制表的时候不需凭猜测进行操作,使用鼠标拖放的方式和预览的功能,使您能够在点击"OK"之前,对于将制成的表格结构了然于胸。使用交互界面制表非常简单容易。首先,你可以预览,并进行修改;其次,您能够分辨分类变量和连续变量,并立刻得到关于数据结构的信息;您甚至只需轻点鼠标即可更改变量类型。制表时,只需将您需要的变量拖放入表格预览窗口(Table preview builder),您不需要写复杂的语法,也不再需要与难用的对话框打交道。并且您可以轻松地将变量从行拖到列,以实现变量的精确定位。只要您做出改动,表格的结构立刻发生变化,呈现于您的面前,您能够立刻看到改动的效果。您可以直接在表格预览窗口对变量进行添加、交换或嵌套的操作,也可一隐藏统计量标签。您也可以在看到所有变量的前提下,将结构庞杂的表格变得更简练。

7. SPSS Data Preparation

利用SPSS Statistics Data Preparation,您可以获得多个简化数据准备过程的程序。这个附加模块使您能够在预处理数据时轻易地识别虚假的和无效观测、变量、和数据值;确认可疑的或者残缺的案例;查看数据缺失模式;描述变量分布以备分析;更准确地应用针对于分类变量的算法;还可以用为分类变量而设计的运算法则来做更多精确的工作。使用Data Preparation,可以迅速找到多元的极端值,执行数据检验,为建模预处理数据。

8. SPSS Decision Trees

Decision Trees模块基于数据挖掘中发展起来的树结构模型对分类变量或连续变量进行预测,可以方便、快速的对样本进行细分。它可直接在SPSS STATISTICS内做分类区分,用Syntax撰写或用XML来储存设定。使用Classification Trees还可建立决策树来确认分组并预测结果,利用直觉式的树形图,颜色分类图,和表格协助研究人员轻松确认和评估区隔。它提供四种强大的决策树算法(CHAID、Exhaustive CHAID、CART和QUEST),提供训练数据及测试数据的模型评估比较,提供Gain、Response、Index、Profit、ROI图,帮助评估风险及效益。

9. SPSS Exact Tests

为了确定现有变量之间的关系,研究人员经常首先查看交叉表和非参数检验中的p-值。如果数据符合假设条件,用传统的计算方法是可以的。但是,如您的数据属于小样本或零星的数据,又将您的资料细分到多个类别,或您的数据变量中有超过百分之八十的观测值集中在某一类别,传统方法算出的答案便会不正确。传统情况下,要得到更好正确的结论,每一单元需要有五个以上数据,SPSS STATISTICS Exact Tests为您解除了这种限制。
超过30个精确检验涵盖了小型或大型数据集所有的非参数和分类数据问题。包括独立或相关样本的单样本、两样本和K-样本检验,拟合度检验,RxC列联表独立性检验和联合测度检验等。无论您的数据结构为何,SPSS STATISTICS Exact Tests 都能给您正确的p-值,为您提供可信赖的结果。如果您需要做调查研究、医学研究、生物统计、社会科学研究、市场调查或各类的实验,您需要使用SPSS STATISTICS Exact Tests。

10. SPSS Missing Values

缺失数据会带来偏差或错误的分析结果,简单代入法或者简单的回归法都不能正确地填补缺失值,SPSS STATISTICS Missing Values Analysis帮助研究人员在分析过程中排除数据中隐含的偏差,得出更精确的结论。
Missing Values Analysis用六种灵活的诊断报告来评估缺失值是否会影响分析结论,更好地了解它们的特性。它通过快捷地诊断缺失值,得到更精确的摘要统计量,方便地用估计值替换缺失值,得到精确的结论。

11. SPSS Neural Networks

神经网络是一种模拟人类大脑处理信息的方式的简化算法模型。通过多个神经元层的输入输出运算给出一个判断结果。和传统的模型不同,每个神经元节点内部运算是一个黑箱,我们能清晰获得的是结果而不能精确了解内部的过程。
通常在神经网络中有三个部分:一个输入层;一个或多个隐藏层;一个输出层。这些单元通过可变的连接强度(或权重)连接。输入数据显示在第一层,其值从每个神经元传播到下一层的每个神经元。最终从输出层中输出结果。
神经网络可检查输入的记录,并为每个记录生成预测,通过预测结果正确与否进行判断和调整,在达到某个标准之前,神经网络可以进行自学习来不断改进模型,此过程会不断重复,持续提高其预测准确度。
神经网络执行预测分析的能力不逊于其它传统技术,并且只需很少的统计或数学知识即可进行应用。神经网络对字段类型没有限制,可以处理多种类型的格式。能够广泛应用于各种领域进行预测分析,如银行保险的欺诈判断,客户的反馈判断等等。
神经网络是一种综合了多种技术的新型算法技术。您可以利用SPSS STATISTICS Neural Networks模块,以全新的方式探索数据。

12. SPSS Bootstrapping

SPSS STATISTICS Bootstrapping模块可以让您更有效的使用小样本量的数据,通过数据自身重采用的功能,让用户可以模拟大样本情况下的采样结果,从而对数据结构特征和偏差有更直接的认识。
当某些参数估计或者假设检验值得怀疑时,也可以使用该功能进行直接采用,从而以一种更加直观的方式来执行结果的检查。

13. SPSS Regression

大量的非线性建模工具、多维尺度分析帮助研究人员进行非线性回归分析。它将数据从数据约束中解放出来,方便地把数据分成两组,建立可控制的模型及表达式进行非线性模型的参数估计,能够建立比简单线性回归模型更好的预测模型。
多项式逻辑斯谛回归(MLR)帮助您建模分析哪些因素可以用于预测客户会购买产品A、产品B还是产品C,使您不再局限于是/否的二分类问题。二元逻辑斯谛回归(BLR)帮助您找到最好的模型来预测二元的结果,如"选"或"不选"。它在每一步骤中提供多种方式来选择能最好地预测响应变量的主效应和交互效应。Probit和Logit响应模型用于分析对某一刺激(如,药物剂量、价格和激励机制)的响应力度。Probit过程通过Logit或Probit估算导致一定响应比例所需的刺激强度。

14. SPSS Forecasting

Forecasting是目前功能最强的时间序列分析工具,是分析历史资料、建立模型与预测未来事件的强有力的工具,能帮助研究人员做更好的预测。Forecasting利用完备的时间序列提高预测能力,包括多重曲线拟合、平滑以及自回归方程估计。利用专家建模器,可自动从ARIMA和指数平滑模型中选择最佳拟合您的时间序列和因变量的模型,避免反复选择模型的工作。Forecasting使用这些高级建模技术,用深入的建模支持、丰富的诊断方法、图形界面使分析变得简单容易。预测模块提供了一流的评估过程,用简单、有效的平滑技术进行高质量的预测,使用SPSS STATISTICS Forecasting可完成多种任务,包括生产管理、数据处理、预算管理、公共政策研究等。

15. SPSS Direct Marketing

Direct Marketing主要用来处理市场直销中的一些分析需求。目前提供RFM客户评分,客户分群,目标客户轮廓概括,客户响应评分,不同营销行为响应测量等模型。SPSS STATISTICS将直销中常用的分析定制为不同的模块,市场研究人员可藉由Direct Marketing模块,以简单的方式进行简易直觉的分析,锁定高价值顾客,来进行各种营销分析。
RFM是客户价值分析的一种常用方法,此方法使用客户的购买时期,购买频率和消费金额数据对客户进行一些区隔和客户价值分析。
客户分群根据客户的不同特征,将客户划分成不同的特征群体。可用来进行市场细分和客户分群。
目标客户轮廓概括,用来概括某种不同目标划分(是否购买某产品)的客户群的特征,帮助快速掌握不同客户的特征。
客户响应评分,可以根据不同的特征群来判断客户某种行为的倾向,并给与倾向性的评分。