[求助]数据挖掘中决策树的生成算法
哪位大哥知道决策树的生成算法有哪些,急!回复:(angle)[求助]数据挖掘中决策树的生成算法
<DIV ><H1align=center>选择正确的挖掘工具</H1>
<P>蔡伟杰 <a href="mailtcaiweijie528@yahoo.com" target="_blank" ><I>caiweijie528@yahoo.com</I></A></P>
<P><B>选择数据挖掘技术的两个步骤:</B></P>
<P>1) 将商业问题转化成一系列数据挖掘的任务。</P>
<P>2) 理解可以获得的数据的信息:内容、字段类型、记录之间的关系。</P>
<P>将商业问题转化数据挖掘的任务</P>
<P> 主要是六种任务:分类,估值,预测,篮子分析,聚集,描述。</P>
<P> 一个例子:分析客户流失的原因。任务就是分类,但是可以采用的技术有很多:MBR,GA,连接分析,决策树,神经元网络。从中选择了决策树,是因为分完类之后,我们需要知道每个类的流失的原因。</P>
<TABLE cellSpacing=0 cellPadding=0 border=1>
<TR>
<TD class=Normal vAlign=top width=81>
<P>技术</P></TD>
<TD class=Normal vAlign=top width=81>
<P>分类</P></TD>
<TD class=Normal vAlign=top width=81>
<P>估值</P></TD>
<TD class=Normal vAlign=top width=81>
<P>预测</P></TD>
<TD class=Normal vAlign=top width=81>
<P>篮子分析</P></TD>
<TD class=Normal vAlign=top width=81>
<P>聚集</P></TD>
<TD class=Normal vAlign=top width=81>
<P>描述</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>统计技术</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>关联规则</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>MBR</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>GA</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>聚集检测</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>连接分析</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>决策树</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>神经元网络</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81>
<P>是</P></TD>
<TD class=Normal vAlign=top width=81></TD></TR></TABLE>
<P><B>对可以挖掘的数据进行分析:</B></P>
<P>可能影响技术选择的一些数据性质</P>
<P>1)是种类字段占优势</P>
<P>2)是数值字段占优势</P>
<P>3)每个记录都有大量的字段(独立)</P>
<P>4)多个目标字段(非独立)</P>
<P>5)记录是变长的</P>
<P>6)有时间顺序的数据</P>
<P>7)自由文本数据</P>
<P><B>种类字段:</B></P>
<P> 关联分析和连接分析只适用于种类字段。</P>
<P> 决策树也可以很容易的用于种类字段。但是有一个忠告:就是当种类的值较多的时候,效果可能就会比较的差,当然如果限制分支的个数的时候,决策树的效果还是不错的。</P>
<P> 神经元网络:可以将种类字段转化成数值字段,但是这样就给种类字段强加了一个先后次序。也可以将种类字段作为多个输入,但是当值很多时,这种方法就成问题了。</P>
<P><B>数值字段:</B></P>
<P><B> </B>神经元网络将所有输入转化到0—1之间。</P>
<P> MBR和聚集检测通过距离函数来处理数值字段。</P>
<P>决策树可以通过splitter数值来处理。</P>
<P> 对于关联分析,必须将数值变量区间化成种类变量。但是区间的选择是一个很困难的问题。</P>
<P><B>记录中的字段很多:</B></P>
<P> 神经元网络和MBR技术会受其影响,关联规则挖掘也会受影响。</P>
<P> 而决策树受其影响的程度就比较的小。</P>
<P><B>多个依赖变量:</B></P>
<P> 神经元网络是最佳的选择。</P>
<P><B>变长记录:</B></P>
<P> 只有关联规则和连接分析可以直接处理。</P>
<P> 对于其他的技术,数据需要一些处理。可以生成一些统计字段;将一条记录拆分成几条记录,每个含有记录号。</P>
<P><B>有时间顺序的数据:</B></P>
<P> 神经元网络,关联规则对时间顺序的数据的处理能力比较的好。</P>
<P> 决策树也能处理时间顺序,但是需要的数据准备就相对的比较的多一点。</P>
<P><B>自由文本:</B></P>
<P> MBR。</P>
<P><B>数据挖掘技术卡:</B></P>
<TABLE cellSpacing=0 cellPadding=0 border=1>
<TR>
<TD class=Normal vAlign=top width=81></TD>
<TD class=Normal vAlign=top width=81>
<P>模型易理解性</P></TD>
<TD class=Normal vAlign=top width=81>
<P>模型易训练性</P></TD>
<TD class=Normal vAlign=top width=81>
<P>模型易实施性</P></TD>
<TD class=Normal vAlign=top width=81>
<P>通用性</P></TD>
<TD class=Normal vAlign=top width=81>
<P>有用性</P></TD>
<TD class=Normal vAlign=top width=81>
<P>产品可获得程度</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>统计</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>关联规则</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A+</P></TD>
<TD class=Normal vAlign=top width=81>
<P>D</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>MBR</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>C</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>GA</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>C-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B+</P></TD>
<TD class=Normal vAlign=top width=81>
<P>C</P></TD>
<TD class=Normal vAlign=top width=81>
<P>C</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>聚集检测</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B+</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B+</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>连接分析</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>C</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>D</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B</P></TD>
<TD class=Normal vAlign=top width=81>
<P>C+</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>决策树</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A+</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B+</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A+</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B+</P></TD></TR>
<TR>
<TD class=Normal vAlign=top width=81>
<P>神经元网络</P></TD>
<TD class=Normal vAlign=top width=81>
<P>C-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>B-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A-</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A</P></TD>
<TD class=Normal vAlign=top width=81>
<P>A</P></TD></TR></TABLE>
<P><B>几种方法的混合使用:</B></P>
<P><B>如何选择数据挖掘软件包:</B></P>
<P>1) 卖主提供有哪些数据挖掘技术</P>
<P>2) 在数据大小,用户数,字段数,硬件方面的伸缩能力</P>
<P>3) 有哪些硬件、软件平台的产品是现在就有的?</P>
<P>4) 是否提供对数据库和文件的透明访问?</P>
<P>5) 是否能有效的利用您的网络能力?</P>
<P>6) 是否提供多层的用户界面?</P>
<P>7) 是否对生成的结果有一个很好的解释?</P>
<P>8) 是否支持是图形化、可视化的,有没有报表工具?</P>
<P>9) 是否能处理不同的数据类型?</P>
<P>10) 是否容易使用?</P>
<P>11) 产品支持和顾问的方便程度?</P>
<P>12) 是否容易整合在一起?</P>
<P>13) 卖主的信用度如何?</P></DIV>
页:
[1]