监督式机器学习是机器学习和人工智能的一种基本方法。它使用标记数据训练模型,每个输入都有相应的正确输出。这个过程就像老师指导学生一样——因此被称为“监督式”学习。在本文中,我们将探讨监督式学习的关键组成部分、所使用的不同类型的监督式机器学习算法,以及一些实际案例。
什么是监督机器学习?
正如我们之前所解释的,监督学习是一种机器学习,其中模型在标记数据上进行训练——这意味着每个输入都与正确的输出配对。模型通过将其预测与训练数据中提供的实际答案进行比较来进行学习。随着时间的推移,它会自我调整以最大限度地减少错误并提高准确性。监督学习的目标是在输入新的、未见过的数据时做出准确的预测。例如,如果一个模型被训练来识别手写数字,它将利用它学到的知识来正确识别以前从未见过的新数字。
监督学习可以应用多种形式,包括监督学习分类和监督学习回归,使其成为人工智能和监督数据挖掘领域的关键技术。
监督式机器学习的一个基本概念是从样本中学习类别。这需要为模型提供已知正确标签的样本,例如,通过展示猫和狗的带标签样本来学习对猫和狗的图像进行分类。然后,模型学习每个类别的显著特征,并运用这些知识对新图像进行分类。
监督机器学习如何工作?
监督学习算法由输入特征和相应的输出标签组成。该过程通过以下方式进行:
训练数据:为模型提供训练数据集,其中包括输入数据(特征)和相应的输出数据(标签或目标变量)。
学习过程:算法处理训练数据,学习输入特征和输出标签之间的关系。这是通过调整模型参数来最小化预测值与实际标签之间的差异来实现的。
训练完成后,使用测试数据集对模型进行评估,以衡量其准确率和性能。然后,通过调整参数并使用交叉验证等技术来平衡偏差和方差,从而优化模型性能。这确保了模型能够很好地泛化到新的、未见过的数据。
总之,监督机器学习涉及在标记数据上训练模型以学习模式和关系,然后使用这些模式和关系对新数据做出准确的预测。
让我们了解如何在数据集上训练监督机器学习模型以学习输入和输出之间的映射函数,然后使用学习到的函数对新数据进行预测:
在上图中,
训练阶段包括向算法输入标记数据,其中每个数据点与其正确的输出配对。算法学习识别输入和输出数据之间的模式和关系。
测试阶段包括向算法提供新的、未见过的数据,并评估其根据学习模式预测正确输出的能力。
机器学习中的监督学习类型
现在,监督学习可以应用于两类主要问题:
在训练模型时,数据通常按 80:20 的比例分割,即 80% 作为训练数据,其余作为测试数据。在训练数据中,我们将 80% 的数据作为输入和输出。该模型仅从训练数据中学习。我们使用不同的监督学习算法(我们将在下一节详细讨论)来构建模型。让我们首先通过下表了解分类和回归数据:
以上两幅图均已标记数据集,如下所示:
图 A:这是一个购物商店的数据集,可用于根据顾客的性别、年龄和薪资预测其是否会购买特定产品。
输入:性别、年龄、薪资;
输出:购买,即 0 或 1;1 表示顾客会购买,0 表示顾客不会购买。图 B:这是一个气象数据集,用于根据不同的参数预测风速。
输入:露点、温度、气压、相对湿度、风向;
输出:风速
监督学习的实践示例
以下是各个行业中监督机器学习的一些实际示例:
银行欺诈检测:利用历史交易数据的监督学习算法,使用合法和欺诈交易的标记数据集训练模型,以准确预测欺诈模式。
帕金森病预测:帕金森病是一种影响神经系统和神经控制的身体部位的进行性疾病。
客户流失预测:使用监督学习技术分析历史客户数据,识别与流失率相关的特征,以有效预测客户保留率。
癌细胞分类:根据癌细胞的特征进行监督学习,识别癌细胞是“恶性”还是“良性”。
股票价格预测:应用监督学习来预测购买特定股票是否有用的信号。
监督机器学习算法
监督学习可以进一步分为几种不同的类型,每种类型都有其独特的特点和应用。以下是一些最常见的监督学习算法类型:
线性回归:线性回归是一种监督学习回归算法,用于预测连续输出值。它是监督学习中最简单、应用最广泛的算法之一。
逻辑回归:逻辑回归是一种监督学习分类算法,用于预测二元输出变量。
决策树:决策树是一种树状结构,用于对决策及其可能的结果进行建模。树中的每个内部节点代表一个决策,而每个叶节点代表一个可能的结果。
随机森林:随机森林同样由多棵决策树组成,它们协同进行预测。森林中的每棵树都基于不同的输入特征和数据子集进行训练。最终的预测是通过汇总森林中所有树的预测得出的。
支持向量机 (SVM):SVM 算法创建一个超平面,将 n 维空间划分为不同的类别,并识别新数据点的正确类别。有助于创建超平面的极端情况称为支持向量,因此得名支持向量机。
K 最近邻(KNN): KNN 的工作原理是找到与给定输入最接近的 k 个训练示例,然后根据这些邻居的多数类或平均值来预测其类别或值。KNN 的性能会受到 k 值的选择以及用于测量接近度的距离度量的影响。
朴素贝叶斯算法:朴素贝叶斯算法是一种监督机器学习算法,它基于应用贝叶斯定理,并做出“朴素”假设,即在给定类标签的情况下,特征彼此独立。
让我们在表格中总结监督机器学习算法:
机器学习中的监督学习类型根据您要解决的问题和您正在处理的数据集而有所不同。分类问题的任务是将输入分配到预定义的类别,而回归问题则涉及预测数值结果。
训练监督学习模型:关键步骤
监督学习的目标是很好地泛化到未知数据。训练监督学习模型涉及几个关键步骤,每个步骤都旨在使模型能够根据标记数据做出准确的预测或决策。以下是训练监督机器学习模型的关键步骤:
数据收集和预处理:收集由输入特征和目标输出标签组成的带标签数据集。清理数据、处理缺失值并根据需要缩放特征,以确保监督学习算法的高质量。
分割数据:将数据分为训练集(80%)和测试集(20%)。
选择模型:根据问题类型选择合适的算法。这一步对于人工智能中有效的监督学习至关重要。
训练模型:向模型提供输入数据和输出标签,使其通过调整内部参数来学习模式。
评估模型:在未见的测试集上测试训练后的模型,并使用各种指标评估其性能。
超参数调整:使用网格搜索和交叉验证等技术调整控制训练过程的设置(例如学习率)。
最终模型选择和测试:使用最佳超参数在完整数据集上重新训练模型,并在测试集上测试其性能,以确保部署准备就绪。
模型部署:部署经过验证的模型来对新的、未见过的数据进行预测。
通过遵循这些步骤,可以有效地训练监督学习模型来处理各种任务,从从示例中学习一类到在实际应用中做出预测。
监督学习的优点和缺点
监督学习的优势
监督学习的强大之处在于它能够准确预测各种应用的模式并做出数据驱动的决策。以下列出了监督学习的一些优势:
监督学习擅长准确预测模式和做出数据驱动的决策。
标记的训练数据对于监督学习模型有效地学习输入输出关系至关重要。
监督机器学习包括监督学习分类和监督学习回归等任务。
应用包括图像识别和自然语言处理等复杂问题。
建立评估指标(准确度、精确度、召回率、F1 分数)对于评估监督学习模型性能至关重要。
监督学习的优势包括创建复杂的模型来对新数据进行准确的预测。
监督学习需要大量标记的训练数据,其有效性取决于数据质量和代表性。
监督学习的缺点
尽管监督学习方法有诸多优点,但监督学习也存在明显的缺点:
过度拟合:模型可能过度拟合训练数据,由于在监督机器学习中捕获噪声,导致新数据的性能不佳。
特征工程:提取相关特征至关重要,但可能很耗时,并且需要监督学习应用领域的专业知识。
模型中的偏见:训练数据中的偏见可能会导致监督学习算法中的不公平预测。
对标记数据的依赖:监督学习严重依赖于标记训练数据,而获取这些数据的成本高昂且耗时,这对监督学习技术构成了挑战。
结论
监督学习是机器学习的一个强大分支,它围绕着从训练期间提供的样本中学习特定类别展开。通过使用监督学习算法,可以训练模型基于标记数据进行预测。监督机器学习的有效性在于它能够从训练数据推广到新的、未知的数据,这使得它在从图像识别到财务预测等各种应用中都具有不可估量的价值。
了解监督学习算法的类型以及监督机器学习的维度,对于选择合适的算法解决特定问题至关重要。随着我们不断探索不同类型的监督学习并不断完善这些监督学习技术,监督学习在机器学习中的影响将日益增强,并在推进人工智能驱动的解决方案中发挥关键作用。