SPSS Modeler介绍

IBM SPSS Modeler

IBM SPSS Modeler原名Clementine,在2009年SPSS 被IBM收购后对产品的性能和功能进行了大幅度的改进和提升,IBM SPSS Modeler是一个业界领先的数据挖掘平台。SPSS Modeler强大的数据挖掘功能将复杂的统计方法和机器学习技术应用到数据当中,帮助客户揭示了隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式和趋势,让客户始终站在行业发展的前端,显著的投资回报率使得SPSS Modeler在业界久负盛誉。
SPSS Modeler提供一系列的数据挖掘技术,它可以满足任何数据挖掘应用。您可以从多种算法中选择来进行预测、聚类、关联、分类等。
说明: 1-auto-classifier730x426.jpg
   

数据探索类模

数据挖掘过程中通常包括上百个或者上千个变量。结果,在模型建模过程中大量的时间和精力都被花在检验模型中包括哪些变量。
“特征选择”节点能够帮助减少对决策影响不大的不必要变量,创建一组更容易管理的、对决策直接相关的模型属性集合;
“主成分/因子分析”算法也提供了强有力的数据简化技术,来简化数据的复杂度。
“异常侦测算法(Anomaly Detection)”能从群体的行为规则的差异中侦测出不寻常的事例。这种算法用来在数据分析探索阶段快速侦测不寻常的事例,从而满足数据审核的要求。

决策树模型

决策树模型允许您开发分类系统,此分类系统可以基于一组决策规则来预测或分类未来的观测值。如果将数据分成您关注的类别(例如,高风险和低风险贷款、用户和非用户、投票人和非投票人或细菌类型),则您可以使用自己的数据来构建规则,借此对新案例或旧案例进行准确性最大的分类。例如,可以基于年龄和其他因素构建对信用风险或购买意向进行分类的树。SPSS Modeler提供多种算法支持决策树分类。

决策列表

决策列表模型的目的在于找到一组有独特行为模式的人。例如:高概率购买某种商品的人。一个决策列模型包含了一组决策规则。一条决策规则就是一条“如果—结果”的条件,里面包含了两部分:前提条件和结果。您可以通过归纳的规则进行相应的决策,如重点营销高概率购买人群。

神经网络模型

神经网络是功能强大的一般函数预测器,可用于分类建模。

最近相邻元素模型

最近相邻元素分析”是根据观测值与其他观测值的类似程度分类观测值的方法,既可以用于类别目标也可用于连续变量的分类。

聚类模型 

聚类模型主要用来确定相似记录的组并根据它们所属的组来为记录添加标签。不需事先了解组信息及组特征即可完成该操作。事实上,甚至无法确切知道要查找多少个组。

关联性分析模型

SPSS Modeler可以通过Apriori、GRI及CARMA三种算法发现关联规则。
若数据呈现序列性,则可采用“序列”节点发现连续数据或面向时间的数据中的模式。

时间序列分析模型

时间序列算法集成了指数平滑、单变量ARIMA和多变量ARIMA算法来预测基于时间序列的数据。SPSS Modeler提供“专家模式”,自动侦测和评估出使用哪种算法能够得到最精确的预测结果。这种方式能够减少用户在模型训练中的误差和调试的时间。在所有情况下,专家模式都能给出一个匹配程度最好的模型。

其它统计分析与数据挖掘模型

SPSS Modeler还提供线性回归、逻辑回归、广义线性模型、判别分析、Cox 回归SVM(Support Vector Machines)、贝叶斯网络等多种算法。

简洁直观的模型评估

SPSS Modeler提供的评估图包括:收益图表、提升图表、投资回报图表、利润图表、响应图表。评估图表还可以被累积,累积图表通常可以使模型的整体运行状态变得更佳。此外,还可以利用SPSS Modeler输出面板中的分析、矩阵、统计等节点输出表格、统计量等对模型进行评估。