公众号:AI前线
作者 | Ben Schreck、Max
KanterKalyan 等
译者 | Liu zhiyong
编辑 | Natalie Cai
AI 前线导读:以往当企业想用机器学习解决问题时,他们往往需要一个团队。即使是一个非常简单的问题,也需要多位数据科学家、机器学习专家以及领域专家共同商定优先事项并交换数据和信息。这个过程往往效率低下,需要数月时间才能获得结果。并且这也只能解决当下的问题。下一次再出现问题时,企业必须重复上述过程。有什么办法解决这一窘境吗?Accenture 和脱胎于 MIT 的 Feature Labs 提供了解决方案,让我们来看看。
更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
机器学习可以为广泛的行业带来真真切切的商业价值——前提是机器学习已经真正地投入使用。尽管学者们在机器学习中获得了许多新发现,新的研究论文表明了什么是可能的,并且有越来越多的可用数据,为了解决实际的商业问题,企业正在努力部署机器学习。简而言之,大多数企业之所以存在差距,并不是因为机器学习不起作用,而是企业不知道要怎么用机器学习。
企业要如何做,才能减小这种执行差距?在最近的一个项目中,我们阐述了如何做到这点的原则。我们使用机器学习为经验丰富的专业人员增强能力,在这种情况下,允许项目经理提前做好由数据驱动的业务决策。如此做,我们证明了:从机器学习中获得价值,并非使用最前沿的模型才行,而是让机器学习变得更容易部署。
AI 担任项目经理
像 Accenture 这样的技术服务提供商开展多个软件项目,他们经常面临的一个共同挑战是,在事后发现问题,然后要求进行调查,以确定根本原因。这是一项乏味的任务,当上百个项目同时发生问题的情况下,这一任务可能会变得难以逾越。一个积极的解决方案可以节省时间,并减少首次出现问题的风险。我们的团队决定解决这个问题,通过查找复杂的数据量中的模式,构建机器学习模型,并利用它们来预测关键问题的发生。我们努力所做的这一切,称之为“AI 项目经理”。
AI 前线注:Accenture 是一个管理咨询、信息技术和业务流程外包的跨国企业。2015 年 Accenture 在 55 个国家、200 多个城市有超过 38 万 4 千名员工,营业额约 329 亿美元,是世界上最大的管理咨询企业和《财富》世界 500 强企业之一(2009 年排名第 348 位)。Accenture 通过企业策略、业务流程、信息技术和人员组织的紧密结合,帮助客户实现具有深远意义的变革,提高客户的绩效水平,并以出众的领导能力、成功决心、专业服务和质量承诺在客户中享有盛誉,其客户包括《财富》世界 500 强中超过八成的跨国企业、各国政府机构以及军队。
AI 项目经理是人类项目经理的强力助手,利用软件项目中的历史数据,AI 项目经理可以训练基于机器学习的模型,提前数周的时间来预测问题是否可能发生。作为一个测试案例,我们决定利用我们构建的机器学习模型来预测软件项目针对一系列交付指标的性能。
训练模型
为训练这个模型,我们先整理了过去三年数千个项目的历史数据,包括数以百万计的记录。该模型识别了可能表明项目性能即将出现问题的危险信号,包括日益增长的解决 bug 所花费的平均时间,以及积压处理和解决时间。最重要的是,它能够提前预测潜在的风险——在我们这次案例中,提前了四周。这多出来的时间,服务提供商团队可以确定即将出现问题的性质,并采取补救措施防止该问题发生。AI 项目经理基本上就是一个早期预警系统,人类项目经理才能承担更多有价值的商业任务。
模型一旦交付,部署团队就开始将它应用到模型以前未曾发现的传入数据。观察了几个月的数据之后,模型的表现稳定,于是我们有信心在几个项目中使用这个模型。目前,AI 项目经理(已通过交付项目测试并集成到 Accenture 的自动化平台 MyWizard)每周提供预测,在 80% 的时间都准确地预测了危险信号,有助于提高与项目交付相关的关键绩效指标。
AI 前线注:MyWizard 是 Accenture 于 2016 年推出的智能自动化平台,这一平台涵盖了系统集成以及应用软件开发与管理两大内容,为客户提供更智能、更创新且更高效的应用软件服务。MyWizard 平台汇集了 Accenture 众多独有的行业资源,包括智能和数据分析工具与方法,以及来自 Accenture 合作伙伴的工具。借助 Accenture MyWizard,企业能够实现日常任务型工作的自动化,将工作效率提升最高达 60% 左右,从而使其能专注于更具战略意义的工作。
这个项目的下一步将使用相同的数据创建模型,以预测成本超支、交付进度延迟以及对组织业务绩效至关重要的项目执行的其他关键方面。
完成胜过完美
当我们构建机器学习模型时,我们惊讶地发现,并没有任何宣传最广泛的数据科学工具(如深度学习、AutoML、创造 AI 的 AI 等)需要它来发挥作用。事实上,它们也不会帮助我们实现关键目标。相反,我们最大的需求,是健壮的软件工程实践、领域专家得以进入正常水平的自动化,以及能够支持全面模型测试的工具。
我们预期其他企业也许会得益于这些经验,于是我们将这些经验组织成一个新的机器学习范式,称之为 ML 2.0。这个框架中的关键步骤在这篇论文 Machine learning 2.0 Engineering data driven AI products 中有所阐述,并且得到了开源工具 Featuretools 的支持。
AI 前线注:Featuretools 是一个执行自动特征工程的框架。它擅长于为深度学习把互相关联的数据集转换为特征矩阵。
GitHib:https://github.com/featuretools/featuretools/特征工程是构建任何智能系统的必要部分。特征工程是将原始数据转化为特征,更好表示预测模型处理的实际问题,提升对于未知数据的准确性。它是用目标问题所在的特定领域知识或者自动化的方法来生成、提取、删减或者组合变化得到特征。特征工程是一门艺术也是一门科学,这就是为什么数据科学家在建模前通常花 70% 的时间用于准备数据。
机器学习的新范式四个最重要的方面如下:
快速进程: ML 2.0 可帮助用户通过七个精确步骤,将原始数据表示转换到已部署的模型。因此,一支四人小组能够在八周以内开发出概念验证并部署必要的模型。而这在旧范式下是不可能实现的,旧范式需要昂贵的投入,比如为发现模型而构建的一次性软件,以及效益无法量化的算法。
领域专家更广泛的参与: 领域专家确定关键变量,比如,哪些特定事件会对项目绩效构成风险;该项目在多大程度上能够预测信息的价值,以及过去哪些项目应该用于训练该模型。ML 2.0 为领域专家提供了一个预测工程工具,他们因此才能设置关键参数,并确保该模型能够产生商业价值。
自动特征工程: 机器学习过程中一个重要部分是特征工程,它涉及使用领域知识从原始数据中提取模式或特征。领域专家通常比机器更擅长提出具备预测能力的模式,比如,增加出票平均响应时间可能最终导致项目绩效不佳。但是,需要使用自动化软件工具来计算、提取这些特征。我们使用了 Featuretools,这是一款由 DARPA 赞助的、Feature Labs 创建的开源库,我们有三个人管理这款工具。这款工具推荐了 40000 种模式,领域专家将其缩减到 100 个最有希望的模式。
AI 前线注:Feature Labs 于 2015 年秋天成立,由 Veeramachaneni 和 Kanter 创建,该企业的业务是将数据分析技术的商业化。
Kanter 现在是企业的首席执行官,Benjamin Schreck 是首席数据科学家。官网:https://www.featurelabs.com/
智能模型测试: 就像大多数领域专家一样,软件项目经理需要通过多轮验证,并在实际场景中完成测试新模型,才会有足够的信心进行部署。ML 2.0 内置的自动化测试套件可以让部署团队灵活地模拟数据的先前状态,添加开发过程中被隐藏的数据,并在几个时间点上进行自己的测试,这包括在部署时进行实时测试。
预测能力是一种竞争优势
如果企业要从机器学习中获得真正的价值,他们不仅要关注技术,还要关注过程。机器学习专家需要意识到尖端科学与组织真正能够实现针对实际问题的工作模型的能力之间的差距。对机器学习而言,缩小实施差距需要一种新方法,其中就有许多有趣的技术问题。
ML 2.0 将机器学习置于业务功能的核心,而不是将其作为单独的研发活动,从而有助于将机器学习的潜力转化为切实的业务成果。这么做,直接影响了组织如何运营业务、如何创造新的收入来源、如何重新设想他们的产品和服务、如何提高运营效率、重新定义员工队伍等等。今天,企业不仅要回答如下问题:我们是否达到了本季度的销售目标?我们是否达到了目标受众?我们的广告支出是否达到目的?相反,他们还想知道未来可能会发生的事,他们希望能够快速简便地做出由数据驱动的预测决策,而这就是 ML 2.0 给我们的承诺。