给你的预测一些信心- BigML.com的官方博客beplay体育官网网站beplay2网页登陆

预测并不是一项非常精确的活动。如果你想知道的话完全明天会发生什么事，你得等到后天。然后它被称为“报告”。它有一个明显的缺点，就是通过一份报告，你几乎无法预测昨天发生了什么。如果你想更好地为未来所发生的事情做好准备并付诸行动，你就必须预测并接受预测伴随着不确定性。

beplay2网页登陆BigML刚刚发布了新功能，以支持您处理这种不确定性。当您探索您的预测模型并浏览导致预测的各种决策路径时，您现在可以看到我们对它是正确预测的信心有多大。在每个节点上，我们将向您展示：

支持此节点的实例数
这在你的全部训练数据中占多大比例
该节点上所有值的分布
该节点的实际预测
对于分类树，节点处预测的置信水平
对于回归树，为节点处预测的预期误差

最后这两个，置信水平“和”预期的错误来帮助你衡量你的预测有多确定。两个值都基于两个源。首先，他们考虑阶级的分布在该节点。例如，如果十个实例通过一个节点，七个“是”和三个“否”，则预测将为“是”，但置信度低于所有十个实例均为“是”时的置信度。其次，置信度考虑预测所基于的实例数．对于一个预测类，只有10个实例时的不确定性要比有1000个实例时高。因此，当预测基于更多的实例时，信心就会更高。

使用这些数字，我们可以围绕每个节点上的一些统计数据创建“置信区间”。这样做的目的是为了给出一个可能会低估模型性能的数字。所以我们对于分类树的置信值本质上意味着“BigML是beplay2网页登陆相当肯定这个节点的预测是正确的至少这个百分比的时间”。类似地，回归树的预期误差意味着在这个节点上的平均预测误差为几乎肯定比简而言之，这些数字都是对真相的悲观估计。

当然，这些数字也有一些常见的警告。如果你训练你的模型，比如，旧金山的汽车销售，然后用它来预测α,密歇根,你刚刚毁了一切．可信度和误差，就像模型的其他部分一样，只有当训练数据与测试数据“有些相似”时才有用(在统计学中，我们会说数据必须来自相同的分布)。

那么什么是“自信”呢?

信心告诉我们模型在某个节点预测正确的类有多确定。它是一个介于0%和100%之间的值：“预测的质量没有任何保证”：“预测是绝对确定的”。完整的技术定义是：“分类置信度是威尔逊分数间隔(95%置信度)关于节点的预测与节点实例之一的类匹配的概率”。我们要记住信心越高越好。

让我们看两个鸢尾模型的例子，该模型预测了三种鸢尾中的一种。

对该节点的预测是物种“iris versicolor”。52个实例到达该节点，“iris versicolor”类48个实例和“iris virginica”类4个实例。该预测的置信度为81.82%，预测类的出现率较高（52个中的48个）且实例数量可观。

该节点根据三个实例预测“iris virginica”。两个实例的类别为“iris virginica”，一个实例的类别为“iris versicolor”。置信度仅为20.76%，主要是因为支持该预测的实例数量较少，但也因为此处的大多数类别为2/3，而之前的案例具有更强的maj奥利蒂。

回归树的“错误”如何?

对于预测数字而不是类的回归树，给出一个错误来表示不确定性。当节点预测一个值的误差为9.01时，这意味着预测的平均误差可能在目标的9.01之内。请记住，这是一个平均值，因此，虽然单个预测可能比真实目标偏离9.01以上，但平均而言，您可能会做得更好。

错误的例子:

对于该节点，基于275个实例，树预测值为10.09，预期误差为9.01。

预期的错误可能不是最有用的。您可能会遇到其他问题，比如“这个节点上的目标值可能的范围是多少?”或“此节点上的目标大于某个值的概率是多少?”，甚至是“我的错误更可能偏向预测的一侧吗?”为了帮助回答这些问题，该弹出窗口还显示了这275个实例的分布情况。当您将鼠标移到它上时，您将看到直方图中每个方框中的值。

对你的预测充满信心

这些功能增加了您的洞察力，并帮助您处理使用预测分析带来的不确定性。如果您对改进我们的服务有疑问或想法，我们将感谢您的反馈。

8评论

Pingback：我会回家过圣诞节的，晚一点。«BigML.com的官方博客beplay体育官网网站beplay2网页登陆
Pingback：使用交互式过滤器在决策树中寻找有趣的模式«BigML.com的官方博客beplay体育官网网站beplay2网页登陆
plottiti 说:

2014年1月4日上午10:08

我怎样才能对可下载的模型(例如ruby)有信心?

回复
plotti 说:

2014年1月4日上午10:08

我如何才能获得对可执行模型（例如ruby）的信心？

回复
1. beplay2网页登陆bigmlcom 说:
  
  2014年1月4日下午5:33
  
  与其使用web版本，不如下载它们以编程方式建模，然后在本地具体化模型。例如，使用Python你可以这样做:
  
  从bigmbeplay2网页登陆l.api导入bigml
  从bigmbeplay2网页登陆l。模型导入模型
  
  api=Bibeplay2网页登陆gML（）
  远程_模型=api.get_模型（'model/52c7b3f90c0b5e6475000f07'））
  本地_模型=模型（远程_模型）
  局部_模型。预测（{}，_置信度=True）
  [u 'false ", 0.61665, [[u 'false ', 500], [u 'true, 268]], 768)
  
  你会得到预测，信心，分布和总数。
  
  json版本的模型在树的每个节点上都有分布和可信度。
  
  希望有帮助！
  
  请与我们联系https://beplay2网页登陆bigmlinc.campfirenow.com/f20a0或者给我们发邮件support@beplay2网页登陆beplay体育官网网站bigml.com为更快的支持。
  
  最好的,旧金山
  
  回复
Jaime 说:

2018年9月26日上午8:28

有人能给我解释一下预期误差的定义吗?我不明白那是什么。

回复
1. atakancetinsoy 说:
  
  2018年9月26日下午4时41分
  
  嗨，詹姆-
  你可以参考这里的Dashboard文档第1.2.7节了解详细的解释:https://static.beplay2网页登陆beplay体育官网网站bigml.com/pdf/BigML_Classification_and_Regression.pdf?ver=ff12bfb
  
  回复
  1. Jaime 说:
    
    2018年10月1日下午5:30
    
    非常感谢，这对我帮助很大

留下一个回复取消回复

在这里输入您的评论。。。

在下面填写详细信息或单击图标登录：

电子邮件（必选）(地址从未公开)

的名字（必选）

网站

您正在使用您的WordPress.com账户进行评论。(注销/改变)

您正在使用您的Google帐户进行评论。(注销/改变)

你在用你的推特账号评论。(注销/改变)

您正在使用您的Facebook帐户评论。(注销/改变)

取消

正在连接到%s

分享:

是这样的:

Relacionado

留下一个回复取消回复