上市公司网站建设wordpress外观小工具
2026/5/21 17:46:39 网站建设 项目流程
上市公司网站建设,wordpress外观小工具,深圳设计装修公司哪家好,网站开发建设协议一、决策树的基本定义决策树通过对训练样本的学习#xff0c;并建立分类规则#xff0c;然后依据分类规则#xff0c;对新样本数据进行分 类预测#xff0c;属于有监督学习。核心#xff1a;所有数据从根节点一步一步落到叶子节点。根节点#xff1a;第一个节点。 非叶子…一、决策树的基本定义决策树通过对训练样本的学习并建立分类规则然后依据分类规则对新样本数据进行分类预测属于有监督学习。核心所有数据从根节点一步一步落到叶子节点。根节点第一个节点。非叶子节点中间节点。叶子节点最终结果节点。二、决策树的分类标准1.ID3算法。衡量标准熵值表示随机变量不确定性的度量或者说是物体内部的混乱程度。熵熵值越小该节点越“纯”。1天气的划分属性熵熵值计算5/14*0.9714/14*05/14*0.9710.693则信息增益为0.940-0.6930.247天气的信息增益为0.247依次算出其他的信息增益从大到小依次作为根节点在决策树算法中信息增益是特征选择的一个重要指标。它描述的是一个特征能够为整个系统带来多少信息量熵用于度量信息不确定性减少的程度。如果一个特征能够为系统带来最大的信息量则该特征最重要将会被选作划分数据集的特征。2.C4.5算法。衡量标准信息增益率。信息增益率特征A对训练数据集D的信息增益比g(D,4)定义为其信息增益g(D,A)与训练数据集D的经验熵H(D)之比C4.5算法是一种决策树生成算法它使用信息增益比gainratio来选择最优分裂属性具体步骤如下1、计算所有样本的类别熵H)。2、对于每一个属性计算该属性的熵【也为自身熵】Hi)。3、对于每一个属性计算该属性对于分类所能够带来的信息增益GiH-Hi)。4、计算每个属性的信息增益比gain ratioGi/Hi)天气的信息增益为0.247天气的自身熵值5天晴天、4天多云、5天有雨。信息增益率0.247/1.577 0.15663.CART决策树。衡量标准基尼系数基尼指数Gini(D)表示集合D的不确定性基尼指数Gini(D,A)表示经Aa分割后集合D的不确定性基尼指数值越大样本集合的不确定性也就越大这一点与熵相似。青年(5人2人贷款)的基尼系数非青年10人7人贷款的基尼系数三、决策树剪枝剪枝为了防止过拟合预剪枝策略1.限制树的深度2.限制叶子节点的个数以及叶子节点的样本数3.基尼系数四、决策树回归树模型解决回归问题的决策树模型即为回归树。特点必须为二叉树1.计算最优切分点因为只有一个变量所以切分变量必然是x可以考虑如下9个切分点[1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5]11.5切分点的计算将数据分为第一部分15.56和后面第二部分2计算损失C15.56C21/9(5.75.916.46.87.058.98.799.05)7.5Loss (5.56-5.56)^2 (5.7-7.5)^2(5.91-7.5)^2…(9.05-7.5)^2 15.723再从分开的两部分数据找到最优切分点五、决策树APIclasssklearn.tree.DecisionTreeClassifier(criterion’gini’,splitter’best’,max_depthNone,min_samples_split2,min_samples_leaf1,min_weight_fraction_leaf0.0,max_featuresNone,random_stateNone,max_leaf_nodesNone,min_impurity_decrease0.0,min_impurity_splitNone,class_weightNone,presortFalse)1.criterion :gini or entropy 【采用基尼系数还是熵值衡量,默认基尼系数】2.splitter: best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中数据量大的时候【默认best无需更改】3.max_features:表示寻找最优分裂时需要考虑的特征数量默认为None表示考虑所有特征。log2sqrtN 特征小于50的时候一般使用所有的 【默认取所有特征无需更改】4.max_depth: 表示树的最大深度5.max_leaf_nodes 最大叶子节点数6.min_samples_split 表示分裂一个内部节点需要的最小样本数默认为2六、AUC性能测量在机器学习中性能测量是一项基本任务。因此当涉及到分类问题时我们可以依靠AUC - ROC曲线。当我们需要检查或可视化多类分类问题的性能时我们使用AUC曲线下面积ROC接收器工作特性曲线。它是检查任何分类模型性能的最重要评估指标之一。TPR为召回率FPR为FP/TNFPy_probatr.predict_proba(x_test) ay_proba[:,1] from sklearn.metrics import roc_curve, auc # 得到不同阈值的roc # 计算ROC曲线的点 fpr,tpr,thresholdsroc_curve(y_test,a)#用来计算不同阈值下的fpr和tpr, auc_resultauc(fpr,tpr) # 绘制ROC曲线 plt.figure() plt.plot(fpr,tpr,colordarkorange,lw2,labelROC curve(area%0.2f)%auc_result) plt.plot([0,1],[0,1],colornavy,lw2,linestyle--)#函数来绘制一条从点(o,o到点 plt.xlim([0.0,1.0]) plt.ylim([0.0,1.05]) plt.xlabel(FalsePositive Rate) plt.ylabel(True Positive Rate) plt.title(Receiver Operating Characteristic) plt.legend() plt.show()通过roc_curve函数来计算不同阈值下的fpr和tpr再通过auc函数填入fprtpr来计算AUC七、随机森林1.集成学习1.集成学习的含义集成学习是将多个基学习器进行组合来实现比单一学习器显著优越的学习性能。2.集成学习的代表bagging方法:典型的是随机森林boosting方法:典型的是Xgbooststacking方法:堆叠模型3.集成学习的应用1分类问题集成。2回归问题集成。3特征选取集成。2.随机森林特点1数据采样随机2特征选取随机3森林4基分类器为决策树优点1.具有极高的准确率。2.随机性的引入使得随机森林的抗噪声能力很强。3.随机性的引入使得随机森林不容易过拟合。4.能够处理很高维度的数据不用做特征选择。5.容易实现并行化计算。缺点当随机森林中的决策树个数很多时训练时需要的空间和时间会较大。12345

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询