2026/4/5 17:08:54
网站建设
项目流程
国外网站查询,免费营销培训,网站建设培训需要多少钱,企业产品推广策划方案7.1 机器学习基本框架:数据、假设空间、学习算法与评估
机器学习赋予计算机从经验数据中学习并改进其性能的能力,而无需进行明确的、基于规则的编程。其所有理论与应用均建立在一个统一的形式化框架之上,该框架包含四个核心要素:数据、假设空间、学习算法和评估。本节旨在…7.1 机器学习基本框架:数据、假设空间、学习算法与评估机器学习赋予计算机从经验数据中学习并改进其性能的能力,而无需进行明确的、基于规则的编程。其所有理论与应用均建立在一个统一的形式化框架之上,该框架包含四个核心要素:数据、假设空间、学习算法和评估。本节旨在系统阐述这一基本框架的逻辑内涵及其相互作用,为深入理解后续章节的各类模型与算法奠定基础。7.1.1 数据:学习的源头与基础数据是机器学习过程的起点与驱动力。通常,一个数据集D DD由m mm个独立同分布的样本构成,每个样本由一个特征向量x i \mathbf{x}_ixi和一个可能的标签y i y_iyi组成,记为D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D = \{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), ..., (\mathbf{x}_m, y_m)\}D={(x1,y1),(x2,y2),...,(xm,ym)}。7.1.1.1 特征与表示特征向量x i ∈ X \mathbf{x}_i \in \mathcal{X}xi∈X是对现实世界对象或事件的数字化表示,其所在集合X \mathcal{X}X称为特征空间。特征工程的目标是构造一个能够有效支撑学习任务的X \mathcal{X}X。例如,在图像识别中,x i \mathbf{x}_ixi可能是一个由像素值组成的张量;在自然语言处理中,它可能是一个词袋向量或词嵌入序列。特征的质量直接影响学习任务的性能上限,即“垃圾进,垃圾出”原则。7.1.1.2 标签与任务定义标签y i ∈ Y y_i \in \mathcal{Y}yi∈Y定义了学习的目标。根据Y \mathcal{Y}Y的形式,机器学习任务主要分为:监督学习:Y \mathcal{Y}Y是一个离散的有限集合(分类)或连续区间(回归)。例如,手写数字识别中y i ∈ { 0 , 1 , . . . , 9 } y_i \in \{0,1,...,9\}yi∈{0,1,...,9},房价预测中y i ∈ R + y_i \in \mathbb{R}^+