机器学习生命周期

发布时间：2021-04-11 17:43:13 所属栏目：评论来源：互联网

导读：何系统一样，即使已部署的ML模型也需要监视，维护和更新。您不能只是部署ML模型而忘了它，而是期望它在其余时间中能够像在现实世界中的测试集上一样工作。当您发现模型中的偏差，添加新数据源，需要其他功能等时，部署在生产环境中的ML模型将需要更新。这使

何系统一样，即使已部署的ML模型也需要监视，维护和更新。您不能只是部署ML模型而忘了它，而是期望它在其余时间中能够像在现实世界中的测试集上一样工作。当您发现模型中的偏差，添加新数据源，需要其他功能等时，部署在生产环境中的ML模型将需要更新。这使您重新回到数据，模型和评估周期。

截至2021年，深度学习在十多年来一直很重要，并帮助使ML成为市场的领先和中心。机器学习行业蓬勃发展，开发了无数产品来协助机器学习模型的创建。ML生命周期的每一步都有一些工具，您可以使用它们来加快流程，而不会成为没有ML项目的公司之一。

下一节将深入探讨ML生命周期的每个阶段，并重点介绍流行的工具。终目标是建立高质量的模型，但是训练一个好的模型的生命线在于传递的数据的数量，更重要的是质量。

ML生命周期中与数据相关的主要步骤是：

数据收集-无论质量如何，都收集尽可能多的原始数据最后，无论如何，仅注释其中的一小部分，这是大部分成本的来源。当模型性能出现问题时，可以根据需要添加大量数据，这很有用。

公开数据集列表

定义注释模式-这是生命周期数据阶段最重要的部分之一，通常会被忽略。构造不佳的注释架构将导致类和边缘情况的模棱两可，从而使训练模型更加困难。

例如，对象检测模型的性能在很大程度上取决于大小，位置，方向和截断等属性。因此，在注释期间包括对象大小，密度和遮挡之类的属性可以提供创建模型可以学习的高质量训练数据集所需的关键元数据。

Matplotlib，Plotly —绘制数据的属性
Tableau-更好地了解您的数据的分析平台

数据注释-注释是一次又一次地执行几个小时的相同任务的乏味过程，这就是为什么注释服务是一项蓬勃发展的业务的原因。结果是注释者可能会犯许多错误。尽管大多数注释公司保证最大错误百分比(例如最大错误为2%)，但更大的问题是注释架构定义不正确，导致注释者决定以不同的方式标记样本。注释公司的质量检查团队很难发现这一点，这是您需要检查的事情。

Scale, Labelbox, Prodigy—流行的注释服务
Mechanical Turk —众包注释平台
CVAT — DIY计算机视觉注释
Doccano — NLP特定注释工具
Centaur Labs —医疗数据标记服务

改善数据集和注释-尝试改善模型性能时，您可能会在这里花费大部分时间。如果您的模型正在学习但表现不佳，那么罪魁祸首几乎总是一个训练数据集，其中包含偏见和错误，这些偏见和错误正在为模型创建性能上限。改善模型通常涉及诸如硬样本挖掘(添加与模型失败的其他样本相似的新训练数据)，基于模型学习到的偏差重新平衡数据集，更新注释和模式以添加新标签并优化现有标签的方案。。

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

攀上元宇宙的高枝，虚	亚马逊Echo部门高管加
荣耀60Pro首发体验拍	鼓励科研人员把更多时