网站的加盟代理网站开发 外包公司
2026/5/21 13:52:08 网站建设 项目流程
网站的加盟代理,网站开发 外包公司,python开发一个wordpress,wordpress 不同分类一、决策树模型决策树#xff08;Decision Tree#xff09;是一种经典的监督学习算法#xff0c;主要用于分类和回归任务。其核心功能是通过递归地将数据集划分为更纯净的子集#xff0c;来构建一个树状模型#xff0c;从而实现预测和决策。这里有一个数据集#xff0c;通…一、决策树模型决策树Decision Tree是一种经典的监督学习算法主要用于分类和回归任务。其核心功能是通过递归地将数据集划分为更纯净的子集来构建一个树状模型从而实现预测和决策。这里有一个数据集通过耳朵脸部是否有胡须来判断是否是猫决策树模型如下其他决策树模型二、决策树的构建步骤确定根节点使用特征专注于左子树确定左子树的起始节点直到分出全是猫的集合之后左子树结束迭代接着同上构建右子树三、决策树决策点构建方法1.如何选择节点特征来进行分割关键选择的决策点特征可以将集合以最大纯度划分2.何时停止分割达到叶节点直到节点中数据全为同一类限定树的最大深度进一步分割的信息增益小于某个阈值节点例子数量低于某个阈值四、纯度的测量——熵熵函数为H(p1)上图坐标图横轴为p1纵轴为熵值这里p1我们设置为集合中的猫所占整体的比例以下是熵函数的表达五、选择分割信息增益信息增益衡量的是在决策树中通过分割获得的熵减少量我们对集合做不同的决策分割计算左右子树的熵值进一步对其利用固定公式求加权平均再利用根节点本身的熵值减去所得到的值就是熵减量也就是信息增益p表示左分支中正样本比例w表示左分支样本占全部样本比例六、独热编码对于一个特征有多个取值情况我们需要对这个特征的不同取值进行编码1代表符合特征0代表不符合这样就能对“耳形”特征进行编码这就是独热编码对于连续值特征其本质也是通过计算信息增益来判断分割效果取连续值特征的某一个值来进行计算即可其余步骤同离散值特征的使用七、回归树将决策树应用与回归问题中在构建过程中我们不在尝试减少熵值反而我们尝试减少所选择特征分割的到的集合中的连续值的方差在这里我们要计算加权平均差我们选择加权平均差减少最多的为最佳分割特征八、决策树的集成1.集成决策树单个的决策树在解决实际问题时对数据十分敏感当其中一个数据发生改变时可能会引起特征分裂发生改变。为了解决这个问题我们需要构建多个决策树如图所示构建的三颗决策树得到不同结果让后让树进行投票其中判断是猫的数目更多所以最终结果就是猫构建多个决策树会使得你的决策树算法更加鲁棒2.有放回采样我们将构建多个与原始训练集略有不同的随机训练集如下将10只猫狗放入样本袋中随机抽取作为一个训练集中的训练样本有放回采样可以保证我们样本的随机性以及“一致性”3.随机森林树首先构建一个B个决策树的集成树里面每个决策树的数据集来自于有放回抽样得到的数据集对上面的集成树进行修改尝试在每个节点随机化特征选择得到随机森林例如当到了某一个点有n个特征可以选择进行分裂时我们可以从n个特征集合里面随机选择kn很大时k一般取根号n个特征作为我们的分裂备选然后选择这k个特征中信息增益最高的作为分裂特征。这样就可以得到随机森林算法。算法的优势是在进行抽样时就已经模拟了一部分的数据变化意味着数据集的一些小的改动并不会太大影响整个随机森林算法的结果。九、XGBoostXGBoost 本质上是梯度提升框架的工程优化版本其基本思想是序贯集成多个弱学习器通常为CART回归树每个新树通过拟合前序模型的负梯度残差来逐步降低整体损失。类似于刚才的集成树的做法只是在训练第二个决策树时这里采用的训练数据集更有可能选择之前的决策树分类错误的样本而不是1/m即将更多的注意力放在尚未处理好的例子子集上并使用下一个决策树来尝试处理这些问题。XGBoost就是这样一个算法它内置了正则化以防止过拟合。下面是代码实现XGBoost的示例十、决策树VS神经网络1、决策树和集成树在表格结构化数据上表现良好不建议用于非结构化数据图像、音频、文本速度快小型决策树可能具有人类可解释性2、神经网络在所有类型的数据上表现良好包括表格结构化数据和非结构化数据可能比决策树慢可与迁移学习一起使用当构建多个模型协同工作的系统时可能更容易将多个神经网络组合在一起

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询