监督学习的重点是围绕使用算法来预测结果的输入和输出变量。如果一个新的输入变量出现在画面中。机器学习中的线性回归算法是一种监督学习技术,用于逼近映射函数以获得最佳预测。在本文中,我们将了解机器学习的线性回归。
回归的主要目标是构建一个有效的模型,从一堆属性变量中预测相关属性。回归问题是当输出变量是实数或连续值时,即工资、重量、面积等。
我们也可以将回归定义为一种统计方法,用于住房、投资等应用。它用于预测因变量和一对自变量之间的关系。让我们来看看各种类型的回归技术。
线性回归分类:
1、简单线性回归
最有趣和最常见的回归技术之一是简单线性回归。在此,我们根据自变量预测因变量的结果,变量之间的关系是线性的。因此,线性回归这个词。
2、多项式回归
在这种回归技术中,我们将原始特征转换为给定次数的多项式特征,然后对其进行回归。
3、支持向量回归
对于支持向量机回归或 SVR,我们确定一个具有最大边距的超平面,使得最大数量的数据点在这些边距内。它与支持向量机分类算法非常相似。
4、决策树回归
决策树既可以用于回归,也可以用于分类。在回归的情况下,我们使用ID3算法(Iterative Dichotomiser 3)通过减少标准差来识别分裂节点。
5、随机森林回归
在随机森林回归中,我们集成了几个决策树回归的预测。现在我们了解了不同类型的回归,让我们详细了解一下简单的线性回归。
什么是线性回归?
简单线性回归是一种回归技术,其中自变量与因变量具有线性关系。图中的直线是最佳拟合线。简单线性回归的主要目标是考虑给定的数据点并绘制最佳拟合线以尽可能以最佳方式拟合模型。
在继续讨论线性回归算法的工作原理之前,让我们先看一下简单线性回归中的一些重要术语。
线性回归术语
在继续学习线性回归算法之前,需要熟悉以下术语很重要。
成本函数
最佳拟合线可以基于下面给出的线性方程
- 要预测的因变量用 Y 表示。
- 接触y轴的线由截距b 0 表示。
- b 1是直线的斜率,x 代表决定 Y 预测的自变量。
- 结果预测中的误差由 e 表示。
成本函数为 b 0和 b 1提供最佳可能值,以便为数据点制作最佳拟合线。我们通过将此问题转换为最小化问题来获得 b 0和 b 1的最佳值。在这个问题中,实际值和预测值之间的误差被最小化。
我们选择上面的函数来最小化误差。我们对误差求平方并对所有数据点的误差求和,即数据点总数之间的划分。然后,产生的值提供所有数据点的平均平方误差。
它也被称为 MSE(均方误差),我们改变 b 0和 b 1的值,使 MSE 值稳定在最小值。
梯度下降
理解线性回归的下一个重要术语是梯度下降。 它是一种更新b 0和b 1值以减少MSE的方法。这背后的想法是不断迭代 b 0和 b 1值,直到我们将 MSE 减小到最小值。
为了更新 b 0和 b 1,我们从成本函数中获取梯度。为了找到这些梯度,我们对 b 0和 b 1取偏导数。这些偏导数是梯度,用于更新 b 0和 b 1的值。
较小的学习率接近最小值,但在学习率较大的情况下需要更多的时间。花费的时间更快,但有可能超过最小值。现在我们已经了解了线性回归中的术语,让我们来看看线性回归在机器学习中的一些优点和缺点。
优点和缺点
线性回归用例
- 销售预测
- 风险分析
- 住房应用,预测价格和其他因素
- 预测股票价格、投资评估等的金融应用
线性回归背后的基本思想是找到因变量和自变量之间的关系。它用于获得以最小误差预测结果的最佳拟合线。我们可以在简单的现实生活中使用线性回归,比如根据学习时间和其他决定性因素预测 SAT 分数。
考虑到这一点,让我们看一个用例。
用例 - 实现线性回归
该过程按以下步骤进行:
- 加载数据
- 探索数据
- 切片数据
- 训练和拆分数据
- 生成模型
- 评估准确性
让我们深入了解实现线性回归的每个步骤的细节。
1. 加载数据
我们可以从 sklearn(scikit-learn) 数据集模块中已经存在的基本糖尿病数据集开始,开始我们的线性回归之旅。
输出:
2. 探索数据
加载完数据后,我们可以通过使用以下代码简单地检查标签来开始探索。
输出:
上面的代码给出了数据集中的所有标签,在此之后,我们可以对数据进行切片,以便我们可以在最后绘制线条。我们还将使用所有数据点,现在,我们将从数据中切分第 2 列。
输出:
在这一步之后,我们将数据拆分为train和test集。
3. 拆分数据
下一部分涉及生成模型,其中包括从 sklearn 导入 linear_model。
4. 生成模型
为了评估模型的准确性,我们将使用来自 scikit-learn 的均方误差。
5. 评估
输出:
为了更清楚地了解数据点在图表上的样子,让我们也绘制图表。
输出:
为了在这种情况下获得更准确的模型,我们可以使用整个数据而不仅仅是第 2 列。这将提供如下所示的准确性:
输出:
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.