让大模型可控可信是个「伪命题」吗？｜年度AI对话 - 新闻动态

2023.07.14

让大模型可控可信是个「伪命题」吗？｜年度AI对话

通用大模型席卷半年，各行业对大模型的试水也步入正轨。在国内，仅过去两月就有十余家金融、法律、教育等垂直领域企业宣布投身行业模型。

但在表面火热背后，不难发现不少企业依旧对彻底拥抱大模型心存顾虑——在强调精准、可控、合规的To B领域，模型的交互式能力可能加剧数据泄露风险，过于丰沛的创造力会带来"幻觉"过多的困扰。总之，大模型本身令人惊叹的"涌现"，反而在此时成为深入产业的阻碍。

针对这一现状，36氪在WAIC世界人工智能大会期间对话了清华大学副教授李琦、中国信通院华东分院人工智能与大数据事业部副主任常永波，以及蚂蚁集团机器智能部副总经理、蚂蚁安全天筭实验室主任张天翼。

模型的可控、精准、合规都与AI的安全密不可分。

张天翼告诉36氪，AI的安全问题并非新鲜事物，早前模型参数并未如此庞大时，关于模型的鲁棒性、可解释性、公平公正和隐私保护已经颇受关注——集合了这四个议题的框架在业内也被称为"可信AI"。常永波也补充，可信AI概念自2017年提出以来，业界在鲁棒性、隐私保护等方面已经有了较多实践。

但如今仅关注鲁棒性、隐私保护显然不够。大模型的到来，给可信AI——尤其是其中的"可解释性"提出新考验。

常永波观察到，过去看到的AI可解释性实践并不算多。但对企业来说，大模型的可解释性是现在最亟待被解决的问题之一。

"如果模型有较好的可解释性，或许就能解决可控问题。因为我知道你的意图和执行过程，就可以有效地管理。"李琦认为。反之，"如果一家企业今天希望用机器人给用户推荐买什么基金，买什么股票，但发现机器人完全不可控，肯定最终还是不敢提供服务。"张天翼举例。

而从解决方案看，问题比想象复杂。目前，业内提升可解释性的方式包括提示词工程、数据预处理、RLHF、叠加专家系统，以及用大模型解释大模型（如OpenAI用GPT4解释GPT2）等。但本质上，没有人可以保证自己的方式彻底有效。

"模型本身的复杂度超乎寻常。千亿级的参数是如何协同的，甚至已经超过了人脑的理解能力。追求模型内部每个步骤的可解释可能已经不是一个合理的诉求。"张天翼坦言。

但同样在这次交流中，我们发现即便进展不算迅速，但面对大模型的"黑盒"挑战，产学研三方已在分别推进应对之策。

李琦介绍，之前安全专家比较关心AI系统整体的安全问题，AI专家则更偏向思考具体模型和算法的安全性。但现在，大模型的出现诱导出一些大模型系统特有的数据安全和系统漏洞问题，这促使安全专家和AI专家协同起来，一起解决大模型安全问题。

张天翼则拿蚂蚁的"蚁鉴AI安全检测平台"举例。他表示，2022年WAIC时推出的蚁鉴，主要是在鲁棒性上进行评测。但今年，蚁鉴不仅在事前的评测功能上加入了针对大模型的评测功能，用生成式AI能力检测生成式AI模型，未来还希望延展事中干预、事后纠偏等模块。

常永波则告诉36氪，信通院目前基于产业调研已在规划系统化的评测体系，希望借此更全面地提升大模型可信度，其中，内容生成安全、数据安全、合乎伦理等都是重点关注的问题。

这是我们目前看到的星星之火。

以下是对话部分（经编辑）：

36氪：大模型席卷半年，看似已经到了产业落地时间。在你的观察中，现在企业因安全、可信问题而难以“尝鲜”大模型是一个普遍现象吗？

张天翼：企业的犹豫或顾虑有两方面的原因。首先是监管因素，如果企业的大模型产品要为公众提供服务，那么提供服务的一方相应地需要承担责任。比如，我提供了一个跟用户进行问答的服务，但是在对话中发现可能有不当言论，这些在没有详细的解决方案之前，对服务提供商来说会有很大的压力。

另一方面，技术自身也让服务商顾虑。从应用的角度，如果有很多不可控因素，服务商甚至可能不清楚自己在提供什么样的服务，肯定最终是不敢用的。

所以在没有更好的支持之前，很多公司都不具备提供更多通用人工智能服务的能力。

李琦：很多学校和企业开始研究和应用大模型，特别是大家都尝试在应用大模型技术来解决各自业务需求。与此同时，也能看到大家尝试研究和开发各自的大模型时，也在尽量避免大模型里面的安全问题。例如，在清华大学就有好几位老师正在做这方面的研究，为此清华大学也设立了大型基础模型研究中心。

大模型的能力有目共睹，大家都愿意投入资源来研究和开发大模型，同时也在一起解决可能涉及到的安全可信问题。

36氪：模型鲁棒性、可解释性、数据泄露等问题大家都非常关注。哪一类问题是最难被解决的？

常永波：最难解决的就是可解释性问题。因为可解释性是一个底层算法逻辑的问题，只要深度学习的底层算法机理或者逻辑推理无法解释，短期内或许难以突破。我们也在和各种行业专家交流，大家都观点比较类似，大模型参数规模这么大，这么庞大的一个黑盒模型，如何进行逻辑溯源，有很多技术点要攻关。

李琦：我认为可解释性是至关重要的。如果模型可以解释清楚，或许就能解决可控问题。因为我知道你的意图和执行过程，那么我就可以有效地管理。例如，由于现在的能力限制，可能恶意用户只需要几次交互就可能绕过大模型的API限制。实际上，目前没有一种特别好的方法可以完全控制这个问题，不同的模型本身就存在差异，因此很难有通用的解决方案。此外，许多商用大模型并不对外开源，我们无法知道这些闭源大模型的模型结构、参数和开发过程，这也增大了对大模型可解释性研究的难度。

张天翼：我觉得最难的是大模型的可控性，这与可解释性和鲁棒性都有关。目前可控性问题主要体现在两方面：首先，这些模型存在实际上的偏误。比如问模型“这首诗是谁写的”，它可能会瞎编。

其次，模型在逻辑上的可控性也有待提高。我们做过一个实验，问模型"为什么认为某个人是一个赌徒"，模型可能会回答“因为他在半夜花钱”等等。但是当你用同样的数据再问模型"为什么认为这个人不是赌徒"，它还是可以找到一些看似有理的回答。这就是模型背后的逻辑可控问题。

在专业领域这种问题更加严重。比如，如果你问模型为什么这个病人得了癌症，它可能会回答得信誓旦旦。然后你再问它为什么这个病人得的是另一种病，它可能也会给出自信的答案。这就是目前大型模型面临的挑战，在真正专业的领域如何确保事实上的准确性和逻辑的可控性。

而且现在的模型参数体量庞大，使得试图去理解它的决策过程几乎变成一个不可能的任务。

这个问题可能会引发上层的安全性和可能的伦理问题。当底层都是一个黑盒、一个混沌不可知的系统时，我们对上层的所有这些问题的衡量都只能在事后进行。它是不是真的解决了这些问题，还是更加精密和狡猾的绕过了这些问题，其实很难评测，这些问题目前来看是非常严峻的。

36氪: 现在对可解释性，行业内可以达到的效果到底是怎样的？

张天翼：关于AI的可解释性，通常我们做两件事：模型的可解释性和决策的可解释性。

对于模型的可解释性，假如你有一个深度学习模型，我们想要理解它，可能要理解它经特定的输入，激活了某些神经元，最终得出某个结果。这是像解剖一样去解剖这个模型，尽可能理解它的原理。

另一方面，决策的可解释性更关注结果。我们可能不需要深入到模型的每一步，但我们会很好奇，为什么这个模型告诉我这个人是坏人，或者病患是癌症。模型需要能够解释这个决策，能够给出一些重要的原因，这些原因需要经得起推敲。

在大型模型领域，追求模型的可解释性在短时间内可能是不可能的，因为模型本身的复杂度，甚至已经超过人脑能理解的程度。千亿级的参数是如何协同的，已经超过了人脑的理解能力。追求模型内部每个步骤的可解释可能已经不是一个合理的诉求。

尽管如此，我们看到一些有趣的尝试。最近有一篇文章介绍了如何使用一个更大的模型GPT4来解释较小的模型GPT2，以帮助工程师理解大型模型是如何做决策的。这是在尝试解释模型的可解释性，但其实也是用一个"魔法"来解决另一个"魔法"。

在大模型决策的可解释性方面，也可以尝试用大模型去解释大模型。比如，如果去慢慢诱导，它可以一步一步地把自己的一些逻辑展现。

常永波：我们近期和一些医疗、金融领域的企业交流后，发现在可解释性比较难解决的情况下，大家会倾向于选择在有限的场景下使用。可解释性是算法本身的问题，但它也可以结合专家知识、行业知识，以及一些比较经典的决策类算法进行综合性判断。也不是说不可解释就完全不能使用，辅助决策的场景下大家还是愿意尝试的。

36氪：现在行业内相关供应商以及研究者的情况是怎样的？

张天翼：大多停留在检测模型鲁棒性方面。这个行业刚刚起步，真正能做到防御和干预的供应商还很少。许多服务还在整合阶段，但这个行业的变化和发展非常快，可能明年形态就完全不一样了。

包括我们的蚁鉴，之前已经具备模型鲁棒性等检测能力，今年也尝试在AIGC和模型可解释方面进行更新。可解释性的量化非常困难，现在我们也算是做了一个尝试。经过和行业内不少机构的讨论，今天我们初步制定了包括正确性、完备性、一致性、连续性、简洁性等7个维度。未来，蚁鉴还会向事中阻拦、事后纠偏能力延展。

李琦：我个人观察到，大模型的出现使得做NLP和传统做安全的研究者的交集在逐渐增多。比如，做NLP的研究者现在也开始关注如何使模型更安全地应用。而传统做安全的研究者也在关注如何对抗NLP模型的问题。这是因为随着大模型的出现，幻觉、越狱和模型劫持等问题已经成为了这些领域的共性问题。

之前NLP的研究者可能更多从模型和算法的角度来看待这些问题，安全研究者可能更关心AI平台整体的问题，包括模型输入到模型输出过程中所有可能的安全问题。当然这可能涉及模型本身的问题，也可能涉及数据输入和预处理过程、以及NLP模型的学习框架依赖库中的安全问题。但现在不论是做安全的还是做NLP的研究者，大家都开始关注这些。

常永波：去年之前很多的案例，都聚焦在模型稳定性和隐私保护这一块，尤其是隐私保护这一部分非常多。可解释和公平性更多处于研究阶段，也会有一些企业结合专家系统或行业知识等，辅助提高可解释性。

大模型出现之后，安全风险主要体现在三个大方面，一个是生成内容的风险，第二是大模型自身安全的风险，以及可解释性等。这些方面不管是理论还是技术，都需要持续研究。后续信通院也会推动一系列大模式评估评测工作。

36氪：另一个现象是，全球都在讨论大模型的监管，但这可能不是单个角色就可以解决的问题。你觉得大家应该怎样一起推进这件事？

李琦：我觉得对大语言模型来说，合规和可信比过去的AI更难。OpenAI雇了很多人对数据打标、做调优，还是没办法达成严格的法规预期，这已经证明了这件事的难度。这件事可能需要我们学术界一起参与，大家一起共建，目前来说还是有一些距离。

法规的完善有一个过程，但从技术本身来说，可解释、可控，目前看来还是难题。OpenAI大力发展人类反馈强化学习(RLHF)，为了增强模型与人类价值观的对齐，让大模型生成内容更加可控，但是RLHF本身训练起来比较困难，这个方向还存在较大的研究空间。

再加上，法规是一方面，但具体怎么去评测，理想和现实是有差距的。我个人理解，大语言模型会有各种变种，不同模型特点不同，可能适合的测试也不一样，这是比较复杂的问题，特别是大模型还可能涉及多模态的问题。现在其实很多研究者也在做评测标准，根据模型输出来对准则进行一些判别，这里面需要很多专家支持，也需要生态共建。

常永波：大模型现在类似于互联网革命的初期的形态，现在我们在评测中可能会更关注内容生成，当然这也是我们眼中最亟待解决的问题，这方面的规则要求也推出得比较早。其他尤其是可解释性的问题，可能需要很长的一段时间才能解决，目前这方面更多停留在前瞻性研究阶段。未来我们总体还是会从整套体系上对可信AI进行设计，而不是只关注其中的某个部分。

36氪：最后一个问题。可信AI是比较早就提出的概念，当前在产学研界看来，AI安全、可信AI以及安全的AI三者的关系是怎样的？

张天翼：我觉得安全AI和可信AI的概念侧重点不同。在讨论可信AI的基本概念或原则时，虽然各国组织和学术机构的表述有所差异，但基本原则上仍存在广泛共识。比如在蚂蚁集团，我们认为有四个基本原则，即AI本身的安全性，这里包括鲁棒性，另外还有隐私保护、公平性和可解释性。除了鲁棒性通常被认为与安全密切相关，可解释性也与安全有很大关系，有时候，算法的不可解释性或黑箱性可能对公众构成安全隐患。综上，可信AI和安全AI虽然有关联，但还是两个有所区别的概念。

李琦：我觉得可信AI是一个相对概念，因为“可信”很难被明确地量化。这就是为什么存在着可解释性的问题，因为AI存在很多不可解释的问题。而AI安全是一个更泛化的概念，即使在使用AI解决安全问题的同时，也需要考虑AI自身的安全性。从我自身过往的观察来看，可信AI主要关注算法的训练、学习和决策过程，以及算法是否科学、有效和是否存在被攻击的问题等。

但随着大模型的出现，可信AI和AI安全的关系变得更加复杂。深度学习本身存在许多难题，大模型的出现使得这些问题更加复杂，包括像GPT这样的模型也出现了很多问题，如幻觉、越狱等。现在很多人在研究基于GPT这类大模型的可解释性和安全性问题，安全的范围实际上变得更大了。

常永波：可信AI这个概念从2017年被提出后，就强调人工智能技术本身需要具备可信的品质。我们在前几年发布的白皮书中，也明确指出可信AI是一套体系化的方法论，其中自然也包括了安全性。

我的理解是，可信AI就是要建立人与人工智能系统间的信任关系，类似于人与人之间的关系。安全则是可信AI的一个重要前提，它要求通过各种技术和策略确保人工智能系统的行为和决策不会对人类造成危害，避免潜在的风险和威胁。所以我认为，AI安全的主体应是人工智能系统本身，而安全的AI的范畴则更广一些。

整体来看，人工智能的可信一定是长期话题。2020年以来，我们已经在世界人工智能大会连续做了三届可信AI研究成果的发布。未来我们还会联合更多企业一起，建立人与人工智能系统之间的可信赖关系。

上一篇：将AI分类分级能力融入数据底座中，「霍因科技」

下一篇：欧盟《数据法案》最新协议，从大型科技公司手中夺取数据

基础架构防护解决方案

深度防御解决方案

终端安全解决方案

云安全解决方案

数据安全解决方案

渗透测试

安全风险评估

安全集成

应急响应

安全运维服务

软件开发服务

服务内容

服务特点

服务优势

服务理念

服务目标

金融行业

证券与基金

运营商

大型企业

其他行业

智能卡芯片

智能卡、RFID及读写器

CPU卡应用软件

合作伙伴

走进奥怡轩

新闻中心

工作机会

以下是对话部分（经编辑）：

Copyright 2021 © 深圳市奥怡轩实业有限公司

公司地址：深圳市福田区车公庙天安数码城创新科技广场二期西座1501室