访问次数: 4561 次 作者: 远望智库 发布时间: 2023-12-15
本章将介绍与DoD相关的AI状态评估。在此过程中,根据员工指南(见第一章)解决了一些常见的误解,并设定了切合实际的期望。由于对什么是AI的不同看法可能会引起相当大的混乱,首先考虑AI是什么的问题,以及DoD是否会从一个统一的、DoD范围的AI定义中受益;然后提出了一个概念框架,列出了在思考AI及其与DoD独特任务和需求的相关性时应考虑的维度;最后为决策者总结了其需要了解的关于这个概念框架内AI状态的内容,同时根据工作人员的指导(见第一章)将讨论保持在高水平(“高于项目水平”)。
1 如何定义人工智能?
AI的定义超出了本研究范围。但还是想了解受访者是如何对该术语进行概念化的,以及他们是否认为在确定AI的广泛定义时有价值。在联邦、行业和学术受访者中听到了关于这两个问题的不同意见,并未达成共识(见附录E“受访者意见”一节)。本研究还收集了一些公开的(官方)AI定义(见附录E中的“现有定义”一节),并注意到类似的缺乏一致性。事实上,AI一词首次出现后,如何定义AI的问题持续了几十年。
总的来说,设计一个好的AI定义是一个挑战。根据高层次的理想目标(例如,“思考的机器”或“执行通常需要人类智能的任务的计算机”)定义AI很简单,但没有任何实际用途,例如帮助DoD描述和评估其AI投资,或阐明和评估其AI人才需求。同时还有副作用,那就是助长了AI的炒作。例如,到2018年,图灵奖获得者之一Yoshua Bengio指出:“我认为如果商业世界出现调整,那将是一件好事,因为这就是炒作的所在。”利用特定技术(例如“专家系统”或“深度学习[DL]”)来定义AI这是难以捉摸的,因为历史告诉我们,AI的构成随着时间和视角而发生重大变化;这一点在DARPA关于AI三次浪潮的观点中有所说明(见附录E“现有定义:DARPA”一节)。根据特定能力(例如,“图像中的目标识别”)定义AI同样存在问题,因为技术变革的速度很快,而且在预测技术进步的速度和使用方面存在固有的困难,如案例研究所述(见附录D中的“DoD的AI历史”一节“抵消战略”部分)。
尽管如此,DoD仍需要掌握其AI投资以及AI人才需求和可用性。要做到这一点,就需要在DoD内部就上述每一个目的的AI划分达成一些基本的协议,无论定义多么仔细,简单地采用DoD广泛的定义都不太可能达成这一协议。
2 DoD AI的概念框架
接下来,本报告提出一个概念框架,该框架与AI的精确定义无关,同时允许人们系统地思考技术和能力空间的复杂性、DoD AI应用的范围以及投资空间和投资时限(图3.1)。更重要的是,该框架允许人们探索这三个要素之间的相互作用,这最终影响到DoD在开发或获取AI技术以及扩展其使用以支持其任务方面的成功,以及实现这一目标的预期时间进展。
该团队利用其成员的技术专长开发了这一概念框架,在中期进度审查期间与赞助者和受访者进行沟通,从而提供反馈和改进的机会。
图1 DoD AI的概念框架
2.1 技术和能力空间
概念框架中的第一个元素,即技术和能力空间,涵盖了支撑当前可用AI解决方案的理论结果和方法论方法—包括模型、算法和启发式方法;技术和能力空间还涵盖了这些AI解决方案支持的潜在能力。下一节将回顾这一领域的最新发展。
2.2 DoD AI应用的范围
概念框架中的第二个要素涵盖了支持DoD任务的AI应用范围,这些应用范围和广度都非常显著。DoD内AI的应用范围包括四个独立因素:
(1) 对开发和部署AI解决方案的环境的控制程度;
(2) 相关资源的可用程度,包括数据集、计算能力和通信带宽;
(3) AI算法处理信息和提供输出的速度,从慢(小时或天)到实时;
(4) AI解决方案失败的影响,以及发生此类故障时从中恢复的可能性。
DoD AI应用范围的这种特征与考虑开发AI解决方案和将方法论方法(即技术和能力空间)映射到潜在应用或用例(即DoD AI应用范围)的技术专家相关。事实上,重要的是要认识到这些因素将对AI解决方案的可行性及其预期开发时间进展产生影响。例如,在不同操作环境和不同资源约束下正确识别图像中的对象可能需要不同的技术方法:坐在五角大楼时,使用在可用标记数据集(如ImageNet)上训练的算法识别从网络下载的图片中的猫,可能需要一种不同于从卫星图像实时识别战场上的导弹发射器的方法。前者现在是可行的,而后者可能不可行。虽然这两个应用程序可能在用户看来非常相似,但它们不一定与技术专家或操作员相似。
重点是对DoD AI应用范围的描述,以及这四个因素可以合理地映射到三大类AI应用,特别是企业AI、任务支持AI和作战AI,如以下段落所述。这样做可以使决策者直观地了解特征及其对政策制定、决策和现实预期设定的影响(图3.2)。
企业AI指AI应用程序,通常在美国境内,系统开发和运行的环境控制良好且相对良性;数据和基础设施(存储、计算、通信带宽)等资源应可用,或原则上可提供充足的资源;信息处理和决策的节奏相对宽松;如果发生故障,应该可以在有限的持久损害下从故障中恢复。企业AI应用程序的示例包括支持AI的财务或人事管理系统,或支持AI的服务人员医疗记录管理。
图2 DoD AI应用的范围
另一端是称之为作战AI的应用程序:在动态、不确定、对抗、部分不受控制的作战环境中使用的AI解决方案,其中某些资源可能更加有限,信息处理和决策的速度预计会更快,故障的后果预计会更高。作战AI的例子有爱国者导弹远程防空系统、宙斯盾战斗系统和目前正在研制的Skyborg原型。
介于企业AI和作战AI之间的是任务支持AI应用程序,例如算法战跨职能团队(Cross-Functional team, CFT),也称为Maven项目;互联网监测系统;以及支持AI的物流规划系统。特别是,Maven项目旨在使用ML来帮助人类分析无人机收集的全动态视频数据中的大量图像。虽然数据收集在战区完成,但在美国处理数据。
需要强调的是,这三类AI应用程序缺乏明确的界限。事实上,它们是简化的结构,使政策制定者和决策者更直观地考虑DoD AI应用的范围。为强调这一点,在图3.2中将这三个类别表示为具有模糊边界的重叠圆。
2.3 投资空间和投资时限
概念框架的最后一个要素是投资空间和投资时限。需要各种投资来确保DoD适当利用AI。投资对于开发或获取能够在DoD企业AI、任务支持AI和作战AI范围内实现AI应用的技术和能力显然是必要的。除了这三种显而易见的投资之外,至少还需要三种其他投资才能大规模推进和采用AI。
首先是对一系列技术和其他配套支持的投资,包括存储、计算和通信基础设施;数据收集和管理工作;集成开发、安全和运营团队的安全开发运营(SecDevOps)环境;快速、持续集成的过程;以及对用户和操作员的培训。
其次是支持和实现技术制衡的投资,包括AI技术的验证和确认(V&V)以及AI解决方案研究、开发和部署阶段及其整个生命周期内的某种形式的测试和评估(T&E)。
此外,对与特定产品或应用(研究、开发、测试和评估[RDT&E]预算类别6.1,有时为6.2)无关的基础研究的投资对于确保科学进步的蓬勃发展和长期保持技术优势非常重要。例如,在2018年计算图灵奖三位获奖者合著的2015年论文中,作者指出,“在20世纪90年代末,神经网络和反向传播基本上被机器学习界抛弃,被计算机视觉和语音识别界忽视。”此外,“2006年左右,由加拿大高级研究所(CIFAR)召集的一组研究人员重新激发了人们对深度前馈网络的兴趣。”现在见证了这一复兴的成果,DL在各个领域取得了重大进展(见下一节)。需要注意的是基础研究方面的此类投资不必完全在DoD账户中,还可以利用其他联邦来源,如国家科学基金会(NSF)。
报告希望结合投资维度强调的最后一个关键因素是投资时限。投资时限对于设定宏伟但现实的目标和期望非常重要。为了简单起见,并符合从行业访谈中收集的战略制定最佳实践(见附录C“工业界:组织”一节),以五年为时间窗口,代表短期(最多五年)、中期(五至十年)和长期(超过十年)来讨论投资时限。
3 决策者应该了解哪些与DoD相关的AI现状
在阐述了DoD AI的概念框架之后,在此介绍了与DoD有关的AI进展态势的评估,特别侧重于回答与决策者相关的以下三个主要问题:
1. AI近期有哪些突出的发展?
2. 这些最新的AI发展将如何增强DoD的任务,以及如何在DoD应用程序中扩展它们?
3. 前两个问题的答案对DoD规划意味着什么?
第一个问题的答案有效地总结了概念框架中与技术和能力要素相关的最新技术;第二个问题的答案有效地将技术和能力空间与高层次的AI应用范围联系起来:根据赞助商和国会工作人员的指导(见第一章),并未试图深入挖掘潜在用例;最后,第三个问题的答案提供了一些指导方针,以宏伟但切合实际的设定DoD AI投资及其预期回报的目标和期望。
本报告的评估基于三个来源的综合,特别是在采访学术界、工业界、DoD和其他联邦政府部门和机构的技术受访者时收集的证据;相关技术文献的咨询;以及研究团队的技术专业知识。
3.1 AI技术和能力的最新发展
许多不同的技术方法支持AI,包括ML,一个计算机科学(computer science, CS)的既定领域由一系列技术组成,这些技术在统计和优化方面具有强大的根基,可以让人们发现数据中的模式。在过去十年中,ML的某些子领域,特别是DL的技术进步速度非常显著。DL采用多层神经网络模型来学习复杂数据的表示数据。此类算法的设计和部署通常包括一个训练阶段,该阶段涉及根据某种学习标准解决优化问题以使模型与训练数据最佳匹配,以及一个推理阶段,在该阶段中,训练模型用于在新数据中发现相似模式。由于这些模型的复杂性,训练阶段通常需要大量的标记数据集和广泛的计算能力,而推理阶段所需的计算能力要低得多。通常,这不是一个线性的一次性过程(训练,然后推理)而是一系列的训练和推理阶段,以提高甚至保持算法的性能。
这些进步的最终结果是监督ML的巨大进步(这里的监督是指使用标记数据集来训练模型),从而在涉及分类和预测的任务方面取得突破性进展。由于基于ImageNet数据集的ImageNet大规模视觉识别竞赛,图像分类示例可能是公众最容易看到的。除了图像处理之外,这些进步还在语音处理和自然语言处理中长期存在的问题上取得了重大突破,随后在机器翻译和文档分类等方面得到应用。
最新进展的另一个突出方向是深度强化学习(deep reinforcement learning, DRL)。强化学习(reinforcement learning, RL)是一个经典的领域,其核心是以近似的方式解决具有延迟奖励的的顺序决策问题。由于DL技术有望获得这些近似解,RL再次引起人们的兴趣。
DRL带来了战略游戏的新突破。例如,这些算法最近在Go、shoji和实时战略游戏《星际争霸II》的游戏中击败了世界级冠军。尽管这些发展令人兴奋并大肆宣传,明智的做法是注意到著名学者在评估这些事态发展的真正意义时所表达的谨慎态度。事实上,DRL算法的训练似乎是一个特别低效的过程,并且存在严重的再现性问题,导致人们对其在模拟和游戏之外的现实生活中的适用性产生了严重的质疑。
3.2 在DoD应用程序中扩展近期的AI开发
鉴于上一节中描述的最新技术突破和进展,需要提出的合理问题是:这些新进展如何增强DoD的使命,以及如何在DoD范围内实现其规模化?
这些问题的答案是,从技术角度来看,一些企业AI应用程序目前对DoD来说是唾手可得的成果,大多数任务支持AI,特别是作战AI仍然遥遥无期。此外,在利用和扩展这些技术进步方面存在着各种挑战和风险,这些技术进步对企业、任务支持和作战AI的表现各不相同。
在进一步阐述之前,需要强调的是:通过提出这些问题,并不是在暗示AI只是DL或DRL。相反,正如前文所述,许多技术方法支持AI。
(1)企业AI
在许多方面,DoD的一些企业AI应用与私营部门和公共领域的许多组织目前正在寻求的AI解决方案具有可比性(请参见附录C中的“工业界:进展和采用”一节)。因此,存在许多商业解决方案,它们的存在和相对成功证明,可以根据DoD的需要采用、定制或专门开发类似的技术解决方案。
尽管一些企业AI应用程序的技术目前已经存在且相对成熟,但这并不意味着跨组织扩展企业AI没有障碍和挑战(参见附录C中的“工业界:组织”一节)。相反,扩展AI需要定期确定存在技术解决方案、可实施且将显著改善组织的底线或其他关键目标的投资领域并确定其优先级。一旦确定了这些优先领域,扩展AI需要就这些解决方案的商业收购或内部开发做出明智的决策,并且需要将长期积累的知识和诀窍制度化。它需要确保必要基础设施的可用性,以支持这些解决方案。同时,扩大规模需要激励潜在的用户群体采用它们,并提供所需的培训和技能再培训。它还需要技术的持续发展,正如许多受访者所指出的,这使AI不同于传统能力。最重要的是,扩展AI需要通过系统地收集和管理数据、在组织内共享数据以支持其目标,以及在寻求商业解决方案时战略性地保护数据权利来重视数据的关键资源。
此外,正如上一节所述,当前的AI技术,特别是DL方法,严重依赖于大量干净和标记训练数据的可用性。可用数据的质量和数量通常会影响解决给定问题的AI方法的选择,以及应用DL技术的可行性。更多的数据将支持更广泛的潜在方法,但也需要基础设施来支持数据的存储、治理和处理需求。特别是,在组织中大规模部署企业AI需要与负责数据和数据管理的组织实体(如CDO)以及负责存储和计算基础架构的组织实体(如CIO)密切合作。它还需要与用户(从首席分析官到个人用户的多个层面)密切合作,以确保提出并回答最重要的问题(参见附录C中的“工业界:进展和采用”一节)。
AI工具通常以软件的形式进行数字化设计和实现。正因为如此,AI的成功需要软件方面的成功,尽管后者的成功远远不足以确保前者的成功。
(2)任务支持AI和作战AI
前面总结的许多DL最新进展,特别是那些集中在分类和预测方面的进展,都有重要的DoD应用前景,尤其是在任务支持AI方面。例如,DL最近在图像目标识别方面的成功使情报、监视和侦察(intelligence, surveillance, and reconnaissance, ISR)成为任务支持AI的自然应用。
然而,尽管有许多有前途的进步和技术演示,但DL算法仍然脆弱,缺乏鲁棒性,正如对抗性示例的普遍性和多样性所证明的那样。此外,它们引入了需要慎重考虑的新漏洞和攻击面,最好是作为设计过程的一部分,而不是事后考虑。
此外,DL算法的设计目前针对商业用途而不是DoD用途进行了优化,DoD的用途以各种方式体现。首先,为商业应用优化的性能指标通常与DoD的需求不一致。例如,在2018年12月向众议院军事委员会作证时,USD(R&E)的Lisa Porter指出,商业搜索应用优化了精确性而非召回率。这是一个技术方法的例子,原则上既有商业应用,也有DoD应用,但在实践中,正如目前在商业世界中实施的那样,优化了与DoD应用需求不一致的指标。另一个例子是,所涉及的资源往往与DoD的需求不一致。在这一点上,以分类器算法为例,随着数据及其属性的变化,当今商业使用的分类器算法需要随着数据及其属性的变化而重新训练,并且算法通常假设可以根据需要重新训练,从而返回到云。这种假设在作战或任务支持AI应用程序中可能无效。此外,大型训练数据集本身也可能缺乏战场环境,使用合成数据的可行性还有待观察。
DL技术在某种程度上仍然需要大量人工工作,因为它们通常是为特定的应用程序手工制作的,通常不容易推广到其他应用程序。正如一些技术受访者所强调:在一个应用程序上运行良好的算法可能不会自动在另一个应用程序上运行良好(参见附录C中的“工业界:进展和采用”一节)。
(3)验证、确认、测试和评估的关键挑战
所有类型AI的一个关键挑战—在任务支持和作战人工智能中使用的安全关键系统中尤其严峻—是AI的V&V挑战,以及与T&E配套的V&V。V&V使系统设计人员能够信任其设计,T&E使管理者能够评估系统是否满足规定的要求,并使其余的利益相关者(如用户和运营商)对系统建立信任。
当前,AI VVT&E的状态无法确保AI应用程序的性能和安全性,尤其是在涉及安全关键系统的情况下。安全关键控制系统的V&V是当前的研究课题,通常涉及正式的数学分析或广泛的仿真。前者虽然精美,但通常缺乏扩展能力,后者在理论上很难让人相信结果。两者在其所代表的内容方面也有固有的局限性,因此可能会错过现实世界的关键元素,从而导致在现实世界操作过程中性能不佳或出现错误。ML和AI系统的V&V范围更广,其中一些可能涉及交互控制,而ML算法目前在很大程度上是未知领域。此外,ML和相关方法更加复杂,除了需要验证模型外,还需要验证训练数据。
作为V&V的一种实用替代方案,在几次跨行业的采访中提出了实时监控的想法(见附录C中的“工业界:进展和采用”一节)。然而,实时监控的使用本质上是假设:(1)有能力及早发现问题何时出现;(2)发生的后果可控;(3)在发生这种情况时让系统离线是一种选择。这些假设可能不适用于DoD,特别是在任务支持和作战AI方面。
3.3 这对DoD意味着什么?
在短期内追求大规模企业AI是现实的,但需要从根本上将DoD的文化转变为重视数据并充分利用数据的数据驱动文化——这是一项巨大的努力,但可以全面提高效率,与DoD在2018 NDS总结中确定的国防目标保持一致。这与许多受访者所表达的信念一致,即规模化企业AI需要领导层进行大规模的组织变革和承诺,而不是渐进式的变革。随着相关技术的成熟,大规模开发企业AI将有助于DoD为任务支持和作战AI的采用和规模化做好准备。总之,大规模开展企业AI需要对企业AI用例和应用程序进行适当投资,并对基础设施和配套支持进行大量投资。
任务支持和作战AI技术的部署和使用仍面临若干重大技术障碍。但并不意味着DoD不应开展任务支持或作战AI。相反,DoD应该开发此类技术(特别注意VVT&E,并相应地进行适当的投资,并且符合DIB提出的道德原则)。然而,对于DoD来说,在DoD环境中从技术展示到大规模部署的过程中,对性能和时间进展有切合实际的期望是很重要的。需要从现在开始对任务支持和作战AI用例进行谨慎投资,但期望它们可能只在中长期内产生产品。此外,这些投资还应辅之以对基础设施和配套支持以及VVT&E的适当投资。
鉴于上述情况,作为粗略的经验法则,假设从今天开始对所有三类AI进行充分投资,则三类AI大规模部署的预期可被视为与概念框架中描述的三个时间窗口(近、中、远)一致。一些企业AI已准备好在短期内大规模使用,而新的任务支持AI和作战AI分别在中期和长期内准备好大规模使用,这并不意味着基于DL的任务支持或作战支持能力的具体实例不会很快实现,态势评估与大规模部署的预期有关。
在此再次强调,前面的声明专门针对利用和规模化AI最新显著进展以支持DoD任务的目标和期望。还需要注意的是,历史告诉我们,突破,特别是在AI方面,很难预测(见附录D“DoD AI历史”一节)。例如,尽管目前的方法严重依赖于对大型数据集的训练,但未来可能不会如此。因此,DoD必须保持灵活性和开放、平衡的视角,因为DoD将进一步迈向AI驱动的未来,以及可能打开新大门的基础研究投资组合。