线性回归在几次点击与BigML仪表板beplay2网页登陆

发布的

这是我们的第三篇文章线性回归系列.beplay2网页登陆BigML将线性回归引入仪表盘,这样您就可以在强大的可视化的帮助下解决回归问题,检查和分析结果。线性回归不仅是最著名的,也是最容易理解的监督学习算法之一。它起源于统计学,但也在机器学习中得到了很多应用。

在这篇文章中,我们将带你走过线性回归入门的常见步骤:

1.上传你的数据

和往常一样,先将数据上传到BigML账户。beplay2网页登陆beplay2网页登陆BigML提供了几种方法来实现这一点,你可以拖放一个本地文件,将BigML连接到你的云存储库(例如,S3桶),或者复制粘贴一个URL。beplay2网页登陆BigML自动识别字段类型。也可以通过单击源配置选项来配置字段类型和其他源参数。

2.创建一个数据集

在源视图中,使用1-click数据集选项来创建数据集,这是您的数据的结构化版本,可以被机器学习算法使用。

blog-dataset.png

在数据集视图中,您将能够看到字段值的摘要、单变量统计信息和字段直方图,以分析数据分布。这个视图对于查看数据中的任何错误或不规范非常有用。您还可以根据多个条件筛选数据集,并根据需要使用不同的预定义操作创建新字段。

blog-dataset-summary

一旦你的数据干净并且没有错误,你可以将你的数据集分成两个不同的子集:一个用于训练你的模型,另一个用于测试。使用不同的数据来训练和评估您的模型,以确保它能很好地针对不可见的数据进行泛化,这是至关重要的。您可以使用BigML 1-click选项轻松地分割数据集,该选项随机留出80%的实例用于beplay2网页登陆训练,20%用于测试。

blog-dataset-split.png

3.创建线性回归

现在,您已经准备好使用您的训练数据集创建线性回归了。您可以使用1-click线性回归选项,它将使用默认参数值创建模型。但是,如果您是一个更高级的用户,并且您觉得调整线性回归参数很舒服,那么您可以通过使用configure Linear Regression选项来做到这一点。

下面的列表给出了每个配置参数的简要总结。如果你想了解更多有关他们的信息,请浏览线性回归的文档

  • 目标字段:选择需要预测的字段。默认情况下,BigML将beplay2网页登陆采用数据集中最后一个有效字段。记住,它必须是数字的!
  • 默认的数值:如果你的数字字段包含缺失的值,你可以很容易地用字段的平均值,中值,最大值,最小值或零替换它们。默认情况下是不活动的。
  • 重量字段:使用给定字段的值设置实例权重。weight字段中的值指定当将该行包含到模型的训练集中时,该行应该被复制的次数。
  • 偏见:包含或排除线性回归公式中的截距。在大多数情况下,使用它会产生更好的结果。默认情况下是活动的。
  • 字段的编码:选择最适合你的分类字段的编码选项。beplay2网页登陆BigML将自动将类别值转换为0 -1变量,以支持非数字字段作为输入,这是一种称为虚拟编码的方法。或者,您可以从两种其他类型的编码中选择:对比编码或其他编码。您可以在文档中找到每种方法的详细解释。
  • 抽样方案如果你有一个非常大的数据集,你可能不需要所有的实例来创建模型。beplay2网页登陆BigML允许您在模型创建时轻松取样您的数据集。

在性能方面,线性回归的重点是是否包括或排除偏差项。所有其他参数也取决于数据、域和您试图解决的用例。很自然地,您希望了解您的模型的优缺点,并反复尝试不同的特性和配置。要做到这一点,下一点中解释的模型可视化将非常有用。

4.分析你的结果

创建了线性回归之后,您可以使用BigML的可视化功能深入研究模型结果,并查看您的特性对模型预测的影响。beplay2网页登陆

beplay2网页登陆BigML提供了一个1D图表、一个部分依赖图(PDP)和一个系数表来分析结果。

1D图表和PDP

1D图表和PDP都提供了可视化的方法来分析一个或多个领域对预测的影响。

对于1D图表,您可以在x轴上选择一个数字输入字段。在右边的预测图例中,当您将鼠标移到图表区域上时,您将看到客观场预测。图中还可以用蓝色显示95%的预测区间。这意味着,对于x轴上的任意给定点,其y值将以95%的概率在这个蓝色范围内。您可以选择显示或隐藏间隔频带。

blog-lnr-1d.png

对于PDP,您可以选择两个输入字段,数字的或分类的,每个轴一个,目标字段的预测将绘制在彩色热图图中。

blog-lnr-pdp.png

通过使用预测图例下面的表单设置其余输入字段的值,您将能够检查多个字段对预测的组合交互。

系数表

beplay2网页登陆BigML还提供了一个表来显示线性回归学习到的系数。正系数表示输入域与目标域正相关,负系数表示负相关。

blog-lnr-table.png

5.评估线性回归

像任何监督学习方法一样,线性回归需要评估。只需单击“1-click”菜单中的“evaluate”选项,BigML将自动选择您为测试留出的数据集的剩余20%。beplay2网页登陆

blog-lnr-evaluate.png

要分析的结果性能指标与预测连续值的任何其他回归模型相同。

你会得到三个回归测量在绿色方框直方图:平均绝对误差,平均平方误差和R平方。默认情况下,BigML还beplay2网页登陆提供其他两种类型模型的度量,以便与您的模型性能进行比较。其中一种方法使用均值作为预测,另一种方法预测目标域范围内的一个随机值。至少,你会期望你的模型能超过这些较弱的基准。您可以选择隐藏其中一个或两个基准。

blog-lnr-evaluation-measures.png

有关回归度量的完整描述,请参阅相应的文档

6.作出预测

在Bibeplay2网页登陆gML中,您可以批量预测新的单个实例或多个实例。

单一的预测

单击Predict选项并设置输入字段的值。

blog-lnr-predict.png

将显示一个包含所有输入字段的表单,并且您将能够为新实例设置值。在视图的顶部,您将看到随着您更改输入字段值,客观字段预测也会发生变化。

blog-lnr-prediction-form.png

批处理的预测

使用“1-click”菜单中的“Batch Prediction”选项,并选择包含您希望知道目标字段值的实例的数据集。

blog-lnr-batchpredict.png

您可以配置批量预测的几个参数,例如在批量预测输出数据集和文件中同时包含置信区间和预测区间的选项。当批量预测完成后,您将能够下载CSV文件并查看输出数据集。

blog-lnr-batchprediction-output.png

如果你想了解更多有关线性回归的知识,请访问我们的发布页面了解如何在BigML仪表盘和BigML API中使用线性回归。beplay2网页登陆

一个评论

留下一个回复

请在下面填写您的详细信息或点击图标登录:

功能
WordPress.com的标志

你正在使用你的WordPress.com帐户进行评论。注销/改变

谷歌图片

你在用你的谷歌账号评论。注销/改变

Twitter图片

你在用你的推特账号评论。注销/改变

Facebook的照片

你在用你的Facebook账号评论。注销/改变

连接到% s