【博电竞】人工智能之C4.5算法

前言:人工智能机器学习相关算法内容,在请求公众号“技术优化生活”之前与文章相关。

博电竞

博电竞官网网址|前言:人工智能机器学习相关算法内容,在请求公众号“技术优化生活”之前与文章相关。人工智能的机器学习主要有三类。1)分类2)回归3)聚类。今天我们集中讨论c 4.5算法。

前一句说明Quinlan(悉尼大学)明确提出了ID3算法[参考人工智能(41)],但由于ID3算法在实际应用中没有问题,Quinlan明确提出了ID3的改进算法-C4.5算法。C 4.5算法是Quinlan明确提出和开发的,是生成决策树[参考人工智能(23)]的算法。该算法是Quinlan以前开发的ID3算法的扩展。

C 4.5算法生成的决策树可用于分类目的,因此算法也可用作统计分类。C 4.5算法与ID3算法一样,用于信息熵的概念,与ID3一样,通过自己的学习数据创建决策树。ID3算法用于信息熵的变化值,C 4.5算法用于信息增益吻率。

在决策树结构过程中,扩展分支。一些元素较少的节点可能会使结构的决策树过度适应环境,因此,如果不考虑这些节点,可能会更好。非分布式数据可以废弃,非原始数据可以废弃。

C4.5算法概念:C4.5算法基于ID3算法,由Quinlan明确提出,用于构建决策树。C 4.5算法是用作分解决策树的经典算法。用于机器学习和数据挖掘分类问题的一系列算法。

其目标是监督自学。也就是说,每个元组都可以描述为属于一个物理地址的类别之一的属性值集。通过自学找到属性值到类别的同构关系。此同构可分类为新类别未知的实体。

C 4.5算法改进:C 4.5算法是ID3算法的扩展和优化,C 4.5算法主要改进了ID3算法。1)通过信息增益亲因率自由选择分化属性,解决了ID3算法分化属性的严重不足。2)将连续属性线性化,解决ID3算法无法处理连续数据丢失的问题。3)扩展结构决策树,然后扩展修剪工人,解决问题ID3算法中经常出现的过度数值问题。

博电竞官方网

4)必须处置具有缺陷属性值的教育数据。C 4.5算法的本质:ID3使用的信息增益测量。属性值较多的Feature没有较小的信息增益,因此优先选择属性值较多的Feature。信息增益反映的同等条件后,不确定性增加的程度,分配越厚,数据集的确定性就越高。

也就是说,条件熵越小,信息增益越大。防止这一严重不足的一个措施是使用信息增益比率(gainratio),而不是不使用信息增益自由选择Feature。增益比例通过引入“分化信息”(Splitinformation)这个项目来惩罚更多的功能,而分化信息取决于功能分化数据的宽度和均匀分布(类似于在煎饼上均匀分配鸡蛋的感觉)。区分信息公式:信息增益比率公式:但是,如果Di的大小与D的大小相似,则使用启发式思维来防止分割信息(D,A)0GainRatio(D,A)这些属性。

C 4.5算法流程:C 4.5算法不是算法,而是一组算法。C 4.5算法还包括非修剪C 4.5和C 4.5规则。

C 4.5可以按连续变量的大小从小到大排序需要处置的样本(对应于根节点)或样本子集(对应于子树),以处理交叉属性值。2)假设与此属性对应的其他属性值共N个,那么总共有N个吗?1可能的候选分割阈值点,每个候选的分割阈值点值是上述已排序属性值中两个前后相互因素的中点,根据此分割点,将原始倒数属性除以线性属性(例如,BooL属性)。

3)使用信息增益比率自由选择最佳区分。另外,C 4.5算法可以处理缺陷值。1)这是市内最罕见的值。

2)根据节点的示例,如果此属性值经常出现,则市内的概率3)销毁有缺陷值的样品。C 4.5算法使用PessimisticErrorPruning(PEP)修剪方法。PEP修剪方法是Quinlan明确提出的,是根据修剪前后的错误率来判断子树的阴影是否展开的自上而下修剪方法,因此不需要分离修剪数据集。C 4.5优势:1)通过信息增益亲和率的自由分化属性,解决了ID3算法中使用通过信息增益自由选择多个属性值的属性作为区分属性的严重不足。

2)如果连续属性线性化,ID3算法无法处理连续数据丢失,C 4.5算法必须处理线性和连续两种属性类型。3)结构决策树后扩展修剪(PEP)操作者(ID3算法中没有),解决问题ID3算法中经常出现的过度数值问题。

博电竞

4)需要处置具有缺陷属性值的培训数据。5)生成的分类规则更容易解释,准确度更高。C 4.5缺点:1)在结构根源过程中,需要多次连续扫描和排序数据集,因此算法老化。2)计算包含相互属性值的培训样本时,算法效率低下。

博电竞

3)算法在自由选择区分属性时,不考虑条件属性之间的相关性,只能计算每个条件属性和决策属性之间的希望信息,从而影响属性自由选择的准确性。4)算法只适用于需要在内存中等待的数据集。培训集太大,无法保存在内存中时,程序无法正常工作。

C4.5适用于场景。C4.5算法具有平稳的配置,可处理连续属性,避免数字、准确性、适用范围等优点,并可用于分类或返回,是实用的决策树算法。C 4.5算法被广泛应用于机器学习、科学知识发现、财务分析、遥测图像分类、生产生产、分子生物学、数据挖掘等领域。

结论:C4.5算法是Quinlan基于ID3算法明确提出的。C 4.5算法是ID3算法的扩展,对ID3算法进行了改进和优化。

一系列算法,用于机器学习和数据挖掘的分类问题。C 4.5算法不是算法,而是算法集。

C 4.5算法的目标是通过自学找到属性值到类别的同构关系,该同构可以分类为新类别的未知实体。C 4.5算法遍布全球,备受关注。C 4.5算法被广泛应用于机器学习、科学知识发现、财务分析、遥测图像分类、生产生产、分子生物学、数据挖掘等领域。

本文来源:博电竞官网网址-www.mylemonadeshop.com

相关文章

网站地图xml地图