公众号/AI前线
作者 | Martin Casado 等
译者 | 刘志勇
如今,对软件开发者群体而言,数据的意义不亚于传统源代码。
目前,众多 AI 企业(以及相关投资方)都在软件开发层面押下重注,认为 AI 业务将在纯技术之外,给软件厂商带来深远影响。但是,究竟是什么样的影响,很多 AI 企业自己也说不太清楚。
为什么 AI 公司很少极速扩张?
大多数情况下,AI 企业的经济结构与传统软件行业存在巨大差异。有时候,AI 厂商的表现更像是传统服务公司,其典型特征包括:
由于需要大量使用云基础设施与人力支持,因此运营毛利率始终较低;
极端案例往往带来大量棘手难题,导致 AI 解决方案的可扩展性遭遇挑战;
随着 AI 模型商品化以及数据网络效应带来的挑战,维持市场优势的能力一直偏弱。
虽然资本界对 AI 技术颇为看好,但 AI 企业的财务数据不是那么令人满意,这类企业的毛利率通常在 50% 到 60% 之间浮动,明显低于 SaaS 业务的 60% 到 80%。
早期私人资本的注入虽然能在短时间内掩盖这种收益低下的问题,但 再有激情、再愿意用增长换盈利的投资方,也无法承受长期不赚钱的局势。 更可怕的是,目前并没有出现能够完全解决问题的长期产品设计或者上市优化策略。
正因如此,AI 公司很少像传统企业那样扩张,至于不太赚钱的原因,我们接下来将逐一探讨。当然,我们的目标绝不是建立新的范式,而是帮助运营者以及对 AI 业务有兴趣的朋友了解 AI 技术的经济前景与战略方向,希望能给大家的企业规划带来些许启示。
软件 + 服务 =AI?
软件的好处是一次生产、随意销售,这为整个行业带来了引人注目的业务收益,包括可观的收入、极高的(60% 到 80%,甚至更高)毛利率,以及超越线性的扩展轨迹(相对罕见,但确实有不少厂商凭借网络效应或者规模效应完成飞跃式发展)。
软件企业具有强大的优势维持能力,凭借丰富的知识产权储备(通常体现为代码),原本的优势将得以长期存续。
相比之下,服务产业则走向完全相反的极端。服务业的每个新项目都需要指派专门的人员,且产品只销售一次、无法复制。结果就是,这类厂商的收入往往是非线性的,毛利率较低(30% 至 50%),且规模扩展大多严格遵循线性轨迹。最后,优势维持能力相对偏弱,厂商只能控制自身品牌或者现有客户,但知识产权的缺失很难不断吸金。
如今的 AI 企业,正越来越多将软件业务与服务业务结合在一起。
大多数情况下,AI 应用程序在使用感受与直观判断上都类似于普通软件,这类产品依靠常规代码完成用户交互、数据管理或者系统集成等任务。区别在于,AI 应用程序的核心是一组经过训练的数据模型。这些模型能够解释图像、转录语音、生成自然语言并执行其他复杂任务。对这类模型的维护有时更像服务行业——需要针对特定客户投入大量成本,而且成本支出远远超过正常的支持性开销。
这种动态特征的存在,从各个角度影响着 AI 业务的面貌与开展方式。相较于传统软件业务,由于需要大量使用云基础设施与人力支持,因此运营毛利率始终较低。
云基础设施是一笔巨大的成本
在以内部软件为主导的旧时代,产品交付的核心在于摆脱并淘汰物理运输载体。
无论是在服务器上还是台式机内,软件的运行成本都将由买方承担。如今,SaaS 成为新的销售形势,运行成本则重新回到供应商手中。大多数软件厂商每月都需要支付大量 AWS 或者 Azure 账单:软件要求越高,账单金额就越高。
事实证明,AI 技术的要求确实不低:
训练一套 AI 模型可能需要耗费数十万美元(或者更高)的计算资源。尽管可以将其理解为一次性成本,但由于 AI 模型接纳的数据始终随时间推移而变化(这种现象被称为“数据漂移”),因此模型的重复训练应该被视为一种持续性成本。
模型推理(在生产环境中生成预测结果的过程)在复杂度方面,同样远远高于传统软件。与直接从数据库内读取数据相比,执行一连串矩阵乘法显然需要更高的数学运算。
AI 与传统软件相比,AI 应用程序需要处理的更多是图像、音频或者视频等富媒体类别。这类数据消耗的资源明显高于常规存储资源,处理成本更高,而且往往因领域不同而有所差别,应用程序可能需要处理大量文件,才能从中找到相关片段。
根据 AI 厂商们的实际反馈,与传统基础设施相比,云计算的运营复杂度更高、成本更可观,而且往往缺少在全球范围内轻松扩展 AI 模型的理想工具。结果就是,相当一部分 AI 厂商不得不定期在不同云服务区域间迁移训练完成的模型,用高昂的运营成本换取模型的可靠性、性能表现以及合规性。
总而言之,这部分因素导致 AI 厂商往往需要将全部成本中的 25% 甚至更高花在云资源身上。在极端情况下,面对极复杂任务的初创企业甚至发现,在某些模型数据中采取手动处理反而成本更低。
当然,大家可以选择专用 AI 处理器压低成本。这类 AI 处理器能够高效执行计算任务,从而通过优化技术(例如模型压缩及交叉编译)降低所需算力水平。
然而,这种优化思路的效率曲线并不明确。在相当一部分应用领域中,我们需要成倍增长的处理强度与数据量来换取更高的准确性。正如前文提到,这意味着模型的复杂度也会以惊人的速度增长,而处理器显然跟不上这种需求提升。
自 2012 年以来,训练前沿 AI 模型所需要的计算资源增长了 30 万倍,而英伟达 GPU 的晶体管数量仅增长了 4 倍左右。分布式计算无疑是解决此类难题的有效方式,但这解决的主要是速度问题,而非成本问题。
引入“人工操作”,成本高昂
这种包含人工操作的系统主要分为两种形式,而且二者都会严重影响大部分 AI 初创企业的毛利率水平。
第一:当前大部分前沿 AI 模型的训练过程,都涉及对大型数据集的手动清洁与标记。
整个过程费力、成本高昂,同时也成为 AI 技术广泛推广的最大障碍之一。另外如上所述,即使模型部署完成,训练也仍然没有结束。为了保持较好的准确度,企业需要持续捕捉并标记新的训练数据,并将其反馈至系统中。虽然漂移检测与主动学习等技术能在一定程度上减轻压力,但统计数据显示,大部分厂商都需要把总体成本中的 10% 到 15% 投入这一过程(通常不被计入核心工程资源)。这方面的成本支出,往往远高于传统软件行业中的 bug 修复与功能补充工作。
第二:对于大部分任务,特别是需要大量认知推理操作的任务,AI 系统还是需要人类操作者的介入。
举例来说,社交媒体企业会雇用数千名人工审核员,负责增强 AI 审核系统的判断准确度。大部分无人驾驶汽车系统也包含远程操作员,基于 AI 技术的医疗设备同样需要与作为联合决策者的医生随时交互。随着我们对现代 AI 系统的功能及表现愈发了解,不少初创企业正在采用这种人类加机器的业务运营方式,同时把这部分内部服务与预期成本纳入纯软件形式的 AI 产品当中。
随着 AI 模型性能的提升,未来系统开发对人工干预的依赖性有望不断下降。不过彻底摆脱人类介入恐怕仍不现实。无人驾驶汽车等应用场景过于复杂,现有 AI 技术还没有能力实现全面自动化。此外,AI 系统中的安全、公平与信任问题同样有赖于人工监督的支持,美国、欧盟以及其他多个国家和地区正着手制定 AI 法规,相信其中会着力强调这方面要求。
随着 AI 模型性能的提升,未来系统开发对人工干预的依赖性有望不断下降,不过彻底摆脱人类介入仍不现实。
即使某些任务最终实现了全面自动化,我们也不太清楚这到底能帮企业提高多少利润。AI 应用程序的基本功能在于处理输入数据流,并生成相应的预测结果。因此,AI 系统的运营成本集中体现在处理数据量的函数身上。某些数据点需要人工处理(成本相对高昂),其他数据点则由 AI 模型自动处理(成本相对低廉,至少希望如此)。但归根结底,每条输入都必须经过处理,不是人工、就是自动。
因此,到目前为止,我们已经探讨了两大成本类别,分别为云计算与人工支持。减少其中一项,往往会导致另一项直线上升。虽然两个成本方程式都有优化空间,但不管怎么优化,都暂时没办法达到与 SaaS 业务相似的极低成本水平。
AI 系统的扩展比预期困难
对于 AI 企业来说,寻找适合市场需求的产品要比传统软件业务难得多。特别是在对接了 5 到 10 家理想客户之后,大家会发现 ML 团队的工作积压情况愈发严重,客户部署计划难以为继,极大的工作强度甚至让企业无法拓展新的业务。
总体来看,造成这种局面的罪魁祸首是那些难以避免的极端状况。大部分 AI 应用程序都拥有着开放的接口,能够处理噪音比例颇高的非结构化数据(例如图像或者自然语言)。用户则对产品缺乏直觉,更糟糕的是,他们会假设自己选择的 AI 产品拥有等同甚至超越人类的能力。 两相结合,极端状况必将出现:我们开发的 AI 产品中,将有 40% 到 50% 的功能仅仅是为了服务这些极端状况而存在。
换句话说,用户可以也必然会把几乎所有内容,都一股脑塞进 AI 应用程序当中。
应对这种复杂的需求往往非常费力。由于潜在输入范围太过广泛,每一套新的客户部署方案都可能生成前所未有的数据。即使是看似需求相同的客户(例如,两家汽车制造商都希望利用 AI 实现缺陷检测),实际需要的训练数据也可能有所不同。
一位 AI 厂商创始人将这种现象称为 AI 产品的“时间成本”。她的公司在面对每一位新客户时,都会进行专门的数据收集与模型微调。如此一来,他们就能观察客户数据的分布情况,同时在部署前消灭部分极端状况。
但这种解决思路是有代价的:企业的团队与财务资源被牢牢捆绑在一起,直至模型的准确性达到可接受的水平。训练期的持续时间也往往难以预测,因为无论团队如何努力,也很难找到快速获取训练数据的可行途径。
AI 初创企业花在产品部署方面的时间与资源,往往远超最初的预期。要命的是,提前发现实际需求根本就不现实,因为传统的原型设计工具(例如模型、原型设计或者 Beta 测试)往往只覆盖最常规的流程,而无法触及极端状况。
与传统软件一样,整个评估流程在早期客户群体中耗时最长。但与传统软件不同的是,AI 应用程序的评估流程不一定能随时间推移而缩短。
AI 业务可持续运营仍是未解之谜
伟大的软件企业源于稳固坚实的市场优势,而优势中最可靠的部分包括网络效应、高迁移成本以及规模经济。
当然,这些对 AI 企业也并非不可企及。竞争优势的基础通常表现为卓越的产品技术。第一家能够开发出复杂软件的厂商,一定能够快速建立起品牌形象并享受一段垄断式的美好时光。
在 AI 领域,技术的差异化却很难实现。新的模型架构主要源自完全开放的学术环境。所有企业都能够从开源库中获取参考实现方案(预训练模型),并通过模型参数自动优化打造出只属于自己的成果。数据是 AI 系统的核心,但这类资源却通常被掌握在客户手中,并被后者以商品的形式往来交易。
随着市场的发展成熟,AI 成果的价值会逐步下降,而且网络效应也相对较弱。在某些情况下,我们甚至观察到 AI 业务中的数据馈送出现了规模越大、成本效益越差的情况。另外,随着模型成熟度的提升,每种新的极端案例都会带来更高的解决成本,因为它们只能解决极少部分客户的一丁点需求。
但这里需要强调,我们并不是说 AI 产品的优势稳定性就一定比纯软件产品低。 只不过对于 AI 企业而言,这种稳定性绝对不像很多人想象的那么牢固。从保持优势的角度出发,AI 很可能只是对接底层产品与数据的通道,并没那么特别。
给创始人的实用建议
在我们看来,AI 企业要想取得长期成功,最关键的工作就是应对挑战,同时充分利用服务与软件层面的优势。秉承这一思路,创始人们可以采取多种手段推动现有或者后续 AI 应用方案的蓬勃发展。
尽可能消除模型复杂性。我们观察到,只要一家初创企业能够在全体客户之间共享哪怕少部分模型(一组特定通用模型),主干运营成本就会远低于只能为每家客户单独训练模型的厂商。
这种“同一模型”策略更易于维护,并且能够更快适应新客户的需求,同时也能成就更加简单高效的工程组织结构。此外,“同一模型”策略还有助于降低数据流水线长度并减少训练任务的重复运行,借此显著改善云基础设施使用成本。
虽然还不足以彻底解决 AI 业务的高成本问题,但这种签订协议前尽可能多了解客户需求及其数据的方法确实有效。有时候,新客户明显会给机器学习工程带来巨大负担,但在大多数情况下,我们只需要对模型进行些许微调,只涉及少数几套模型甚至是几项参数。
认真审查并收缩问题领域,借此降低数据复杂性。从本质上讲,将人力劳动转化为自动化形式绝非易事。不少企业发现 AI 模型的最低可行任务范围局限性很强,远低于他们的预期。例如,某些 AI 团队并不会宣扬自己掌握了处理一切常规文本的能力,而是将业务准确指向电子邮件处理或者求职简历修改意见,这就能引导客户建立正确的预期。
CRM 领域的厂商已经意识到,AI 技术确实能够根据更新记录找到最具价值的内容。换句话说,AI 技术更擅长处理规模大、复杂度低的任务,包括审核、数据输入 / 编码以及转录等。专注于这类业务方向,能够最大程度降低大家面对极端需求的可能性,保证将 AI 这块好钢用在刀刃上。
在我们看来,AI 企业要想取得长期成功,最关键的工作就是应对挑战,同时充分利用服务与软件层面的优势。
针对变数较大的成本做好规划。作为企业创始人,您应该为业务模式建立可靠且直观的思维框架。
本文中讨论的各项成本要素可能会在一定范围内波动,但请不要假设这些会彻底消失。相反,我们建议大家以较低的毛利率为起点设计业务模型与产品上市策略。下面,我再简要介绍几条参考意见:深入理解模型数据的分布情况。将模型维护与人工故障转移视为首要问题。跟踪并衡量变数较大的成本,千万不要让它们潜藏在研发成本中。在财务模型中做出保守的单位收益假设,这一点在融资周期内特别重要。最后,不要妄图通过规模扩大或者技术进步来解决问题。
多做具体服务。认真考查市场需求,集中力量做好具体服务。举例来说,大家需要推出的可能是全栈翻译服务而非翻译软件,是出租车服务而非销售无人驾驶汽车。建立混合业务确实要比建立纯软件业务更困难,但前者能够帮助我们对客户的需求建立起深刻洞察,并由此衍生出一家快速发展且由市场需求定义的灵活企业。此外,服务往往也会成为初创企业攻占市场的绝佳工具。关键是,我们要以坚定的态度追求单独一种策略,而不能总想着同时吸引软件类客户与服务类客户。
为技术堆栈变更做好规划。现代 AI 技术仍处于起步阶段,我们才刚刚迎来第一批能够帮助从业者高效、标准完成工作的工具。在接下来的几年内,这类工具有望得到广泛使用,逐步实现模型训练自动化、提高推理效率、促进开发者工作流标准化,同时监控并保护生产环境中的 AI 模型。
总体来讲,云计算也将作为软件公司面对的头号成本对象而受到普遍关注。因此,如果将某种应用方案紧密耦合在当前工作方式当中,很有可能在不久的未来造成严重的结构性缺陷。
通过传统方式建立竞争优势。虽然我们还不清楚 AI 模型或者基础数据本身是否足以支撑起稳定的竞争优势,但好的产品与专有数据几乎总能衍生出表现出色的业务。AI 技术为企业创始人带来解决旧问题的新视角。例如,AI 技术在工作强度极大的恶意软件检测领域已经创造出显著价值。只要初步产品拥有足够独特的功能,客户粘性与业务持久性也是顺理成章的收获。有趣的是,我们发现有几家 AI 企业甚至通过行之有效的云战略巩固了自己的市场地位,也许这就是下一代新兴开源公司的雏形。
结束语
从传统意义上讲,目前市场上的大部分 AI 系统都不属于软件。结果就是,AI 业务跟软件业务表现出完全不同的面貌。AI 业务要求人力的持续投入,以及变数极大的成本支出。另外,AI 系统也没我们想象中那么易于扩展。最后,AI 方案的竞争优势也并不容易保持(这与一次构建、随处销售的传统软件模式尤其不同)。
这些特征的存在,让 AI 很大程度上更像是服务行业。更具体地讲,我们可以更换服务商,但却无法彻底更换服务本身。
需要强调的是,这没准是个好消息。毕竟成本变数、规模动态以及竞争优势等指标最终还是要由市场(而非单一厂商)来决定。客户对于如何处理数据仍然摸不着头脑,所以 AI 企业快速占领市场并创造出巨大的发展机遇。已经有不少伟大的 AI 厂商成功走出初期的迷雾,开发出性能表现极为稳定的卓越产品。
AI 技术仍处于从学术课题向生产型技术的早期过渡阶段。这里要提醒大家,全面掀起 AI 软件开发浪潮的 AlexNet 仅仅诞生于不到八年前。可以肯定的是,智能化应用程序正在推动软件行业前行,而我们也期待 AI 技术能够早日步入新的发展时期。
作者介绍:
本文作者为 Martin Casado 和 Matt Bornstein,Martin Casado 是风险投资公司 Andreessen Horowitz 的合伙人,专注于企业投资。他曾是 Nicira 的联合创始人兼首席技术官,该公司于 2012 年被 VMware 以 12.6 亿美元的价格收购。Martin 在 VMware 任职期间,曾担任网络和安全业务部的高级副总裁兼总经理。
Matt Bornstein 是 Andreessen Horowitz 企业交易团队的合伙人,专注于支持当前人工智能浪潮的新数据系统和技术。他的任务是发现 AI/ML 的新颖应用,并帮助创始人解决此类新产品带来的业务挑战。
文中传统软件的毛利率估计是基于 publiccomps.com 上列出的一些公司得出的;服务公司的毛利率估算基于 1 万份申报;人工智能业务的毛利率估算基于对人工智能初创公司创始人的几次采访。
原文链接:
The New Business of AI (and How It’s Different From Traditional Software)