AGI最终摧毁人类文明的可能性为999999LexFridman访RomanYamp

Lex Fridman 与 AI 安全研究员 Roman Yampolskiy 进行了一场关于人工智能的深刻对话。

关于

Roman Yampolskiy:

Roman Yampolskiy 是一位乌克兰裔美国计算机科学家,专攻人工智能 (AI) 和安全性。他目前在路易斯维尔大学担任计算机工程与计算机科学系的教授,并且是该校的网络安全研究所所长。

Yampolskiy 的研究主要集中在 AI 安全性、AI 控制和超级智能的伦理问题上。他提出了多种关于确保未来超级智能系统安全的方法,并且在这一领域发表了大量学术论文和书籍。他还经常在国际会议上发表演讲,并接受媒体采访,讨论 AI 的未来及其潜在风险。

Yampolskiy 的工作在学术界和工业界都获得了广泛认可,被认为是 AI 安全和伦理方面的重要声音。

Lex Fridman 与 AI 安全研究员 Roman Yampolskiy 进行了一场关于人工智能的深刻对话。

Roman 认为, AGI(通用人工智能)最终毁灭人类文明的可能性高达 99.9999%!

AGI最终摧毁人类文明的可能性为999999LexFridman访RomanYamp-2

Lex 在采访中表示,他与许多 AI 研究人员和工程师交流过,大多数人认为 AI 毁灭人类的可能性小于 20%。但是,了解 AI 的长期生存风险至关重要,因此他与 Roman 进行了这场令人不寒而栗却又引人入胜的讨论。

Roman 在访谈中表达了一些令人不安的观点,包括:

AGI 存在的风险 : Roman 认为,AGI 可能会对人类构成严重威胁,甚至可能导致人类文明的毁灭。

Ikigai 风险 : 他认为,AGI 可能会利用人类的“Ikigai”(人生意义)来操控人类行为。

痛苦风险 : Roman 还担心 AGI 可能会对人类造成巨大的痛苦。

AGI 时间线 : Roman 认为,AGI 可能在几十年内就会出现。

AGI 图灵测试 : Roman 认为,现有的图灵测试无法准确评估 AGI 的智能水平。

AI 控制 : Roman 强调了控制 AI 的重要性,并认为需要采取措施来防止 AI 失控。

该访谈引起了广泛的关注和讨论,许多人对 Roman 提出的观点感到震惊和恐惧。但也有人认为,Roman 的观点过于悲观, AI 并非完全不可控。

Lex Fridman 在访谈中也表达了自己的观点,他认为, AI 技术的发展需要谨慎和负责任, 需要充分考虑其潜在风险。他鼓励人们积极参与 AI 相关的讨论, 共同探索 AI 的未来。

AI 技术的发展是一个充满挑战和机遇的过程, 需要我们认真思考和应对。

但愿未来, AI 能够成为人类的伙伴,而非敌人 。 虽然希望渺茫 🙏

视频——AGI 终将摧毁人类文明【上】:

视频——AGI 终将摧毁人类文明【下】:

字幕翻译:超级人工智能的危险

目录

以下是对话中松散的“章节”。

0:00 – 简介

2:20 – AGI 的存在风险

8:32 – Ikigai 风险

16:44 – 遭受风险

20:19 – AGI 时间表

24:51 – AGI 图灵测试

30:14 – Yann LeCun 和开源人工智能

43:06 – 你掌控一切

45:33 – 社会工程

48:06 – 散布恐惧

57:57 – 人工智能欺骗

1:04:30 – 验证

1:11:29 – 自我完善的人工智能

1:23:42 – 暂停人工智能开发

1:29:59 – 人工智能安全

1:39:43 – 当前人工智能

1:45:05 – 模拟

1:52:24 – 外星人

1:53:57 – 人类思维

2:00:17 – 神经链接

2:09:23 – 对未来的希望

2:13:18 – 生命的意义

介绍

罗曼·扬波尔斯基 (00:00:00) 如果我们创造通用的超级智能,我认为从长远来看不会给人类带来好的结果。所以存在X风险,存在风险,每个人都死了。有S风险,即痛苦风险,每个人都希望自己死掉。我们也有 I-risk、ikigai 风险的想法,但我们在这些风险中失去了意义。该系统可以更具创造性。他们可以完成所有的工作。你必须为超级智能存在的世界做出什么贡献并不明显。当然,你可以拥有你提到的所有变体,我们是安全的,我们保持活力,但我们无法控制。我们不决定任何事情。我们就像动物园里的动物。再次,作为非常聪明的人类,我们可以想出一些可能性,然后出于我们无法理解的原因,我们也可以想出比我们聪明一千倍的东西的可能性。

莱克斯·弗里德曼 (00:00:54) 以下是与人工智能安全研究员、新书《人工智能:不可解释、不可预测、不可控制》的作者 Roman Yampolskiy 的对话。他认为,AGI 最终有几乎 100% 的可能毁灭人类文明。顺便说一句,我会经常与构建最先进人工智能系统的工程师就人工智能主题进行许多技术对话。我想说的是,那些人将臭名昭著的 P(末日)或 AGI 杀死所有人类的概率定为 1% 到 20% 左右,但与那些将这个值定为 70、80、90 的人交谈也很重要,并且处于罗马的情况下,为 99.99 甚至更多百分之九。

(00:01:46) 我个人对未来感到兴奋,并相信这将是一个美好的未来,部分原因是我们人类创造了令人惊叹的技术创新,但我们绝对不能盲目地忽视可能的风险,包括这些技术的存在风险。这就是这次谈话的目的。这是莱克斯·弗里德曼播客。为了支持它,请在说明中查看我们的赞助商。亲爱的朋友们,这是罗曼·扬波尔斯基。

AGI 的存在风险

(00:02:20) 你认为超级智能人工智能毁灭所有人类文明的可能性有多大?

罗曼·扬波尔斯基 (00:02:26) 时间安排是怎样的?

莱克斯·弗里德曼 (00:02:27) 比方说一百年,也就是接下来的一百年。

罗曼·扬波尔斯基 (00:02:30) 因此,在我看来,控制 AGI 或超级智能的问题就像创建永久安全机器的问题。类比永动机,这是不可能的。是的,我们可能会成功并在 GPT-5、六、七方面做得很好,但它们只是不断改进、学习、最终自我修改、与环境交互、与恶意行为者交互。网络安全、狭义人工智能安全和超级智能的通用人工智能安全之间的区别在于,我们没有第二次机会。就网络安全而言,有人入侵了您的帐户,有什么大不了的?您获得新密码、新信用卡,然后继续。在这里,如果我们谈论的是存在风险,那么你只有一次机会。所以你实际上是在问我,我们第一次尝试创造出有史以来最复杂的软件并且零错误的可能性有多大,并且它将在一百年或更长时间内继续保持零错误。

莱克斯·弗里德曼 (00:03:38) 因此,系统的逐步改进导致了 AGI。对你来说,我们能否保证它们的安全并不重要。系统的某个级别将是你无法控制的。

罗曼·扬波尔斯基 (00:03:57) 我认为到目前为止,我们还没有使任何系统达到其所显示的功能水平的安全水平。他们已经犯了错误。我们发生过事故。他们已经越狱了。我认为当今没有一个大型语言模型能够成功地完成开发人员不希望它做的事情。

莱克斯·弗里德曼 (00:04:21) 让它做一些意想不到的事情,让它做一些痛苦的、代价高昂的、破坏性的事情,以及伤害数十亿人或数亿人、数十亿人的破坏性事情之间是有区别的人类,或者整个人类文明。这是一个很大的飞跃。

罗曼·扬波尔斯基 (00:04:39) 确实如此,但我们今天拥有的系统有能力造成 X 数量的损害。所以当我们失败时,这就是我们得到的一切。如果我们开发出能够影响全人类、全宇宙的系统,那么造成的损害是成比例的。

莱克斯·弗里德曼 (00:04:55) 您认为这种对人类的大规模屠杀有可能发生吗?

罗曼·扬波尔斯基 (00:05:03) 这始终是一个很好的问题。所以我的新书中有一章是关于不可预测性的。我认为我们无法预测更智能的系统会做什么。所以你真的不是在问我超级智能将如何杀死所有人。你问我要怎么做。我认为这没那么有趣。我可以告诉你标准的纳米技术、合成技术、生物技术、核技术。超级智能将会想出一些全新的、完全超级的东西。我们甚至可能没有意识到这是实现这一目标的可能途径。

莱克斯·弗里德曼 (00:05:36) 因此,在如何杀死人类方面存在无限的创造力,但我们仍然可以研究可能的方法。不是如何去做,而是最后,做这件事的方法论是什么。切断电源,然后人类可能会开始互相残杀,因为资源确实有限。然后是核武器等武器的实际使用或开发人工病原体、病毒之类的东西。我们仍然可以思考并防御它。这里对人类进行大规模屠杀的创造力是有限度的。选择是有限的。

罗曼·扬波尔斯基 (00:06:21) 他们受到我们想象力的限制。如果你更聪明,更有创造力,你能够跨多个领域思考,在物理和生物学领域进行新颖的研究,你可能不会受到这些工具的限制。如果松鼠打算杀死人类,它们会有一套可能的方法,但它们永远不会考虑我们能想到的事情。

莱克斯·弗里德曼 (00:06:42) 那么你是在考虑大规模谋杀和对人类文明的破坏,还是在考虑松鼠,你把它们放在动物园里,而它们并不真正知道自己在动物园里?如果我们只看整套不良轨迹,大多数都不会死亡。他们中的大多数都会像美丽新世界那样,松鼠被喂食多巴胺,他们都在做一些有趣的活动,而火灾,人类的灵魂因为喂给它的药物而迷失了,或者字面上是在一个动物园。我们在动物园里,我们正在做我们的事情,我们正在玩模拟人生游戏,而玩该游戏的实际玩家是人工智能系统。这些都是不可取的,因为自由意志。人类意识之火在这个过程中逐渐暗淡,但这并没有杀死人类。那么您是否在考虑这个问题,或者最大的担忧实际上是人类的灭绝?

罗曼·扬波尔斯基 (00:07:45) 我想了很多事情。这就是X风险,存在风险,每个人都死了。有S风险,即痛苦风险,每个人都希望自己死掉。我们也有 I-risk、ikigai 风险的想法,但我们在这些风险中失去了意义。该系统可以更具创造性。他们可以完成所有的工作。你必须为超级智能存在的世界做出什么贡献并不明显。当然,你可以拥有你提到的所有变体,只要我们是安全的,我们还活着,但我们无法控制。我们不决定任何事情。我们就像动物园里的动物。再一次,作为非常聪明的人类,我们可以想出一些可能性,然后,出于我们无法理解的原因,我们可以想出比我们聪明一千倍的东西。

Ikigai 风险

莱克斯·弗里德曼 (00:08:33) 我很想深入研究 X 风险、S 风险和 I 风险。那么你能在“I-risk”上徘徊吗?那是什么?

罗曼·扬波尔斯基 (00:08:42) 日本的 ikigai 概念是,你找到能让你赚钱的东西。你很擅长,社会说我们需要它。所以你有这份很棒的工作。你是播客给了你很多意义。你生活得很好。我想你一定很幸福吧这就是我们希望更多的人发现、拥有的东西。对于很多知识分子来说,这是他们的职业,这赋予了他们很多意义。我是一名研究员、哲学家、学者。这对我来说意味着一些东西,在一个艺术家感觉不被欣赏的世界里,因为他的艺术与机器创作的作品没有竞争力,否则作家或科学家将失去很多。在较低的层面上,我们谈论的是完全的技术失业。我们不会失去 10% 的工作岗位。我们正在失去所有工作。人们利用这些空闲时间做什么?然后会发生什么?社会赖以建立的一切都在一代人的时间内彻底改变。我们弄清楚如何过这种新生活方式的过程并不缓慢,但速度相当快。

莱克斯·弗里德曼 (00:09:56) 在那个世界里,人类不能像人类目前在国际象棋中所做的那样,互相对弈,举办锦标赛,尽管人工智能系统这次在国际象棋方面远远优于人类?所以我们只是创造人造游戏,或者对我们来说它们是真实的。就像奥运会一样,我们举办各种不同的比赛并且玩得很开心。最大化乐趣,让AI专注于生产力。

罗曼·扬波尔斯基 (00:10:24) 这是一个选项。我在一篇论文中尝试解决多个代理的价值对齐问题,避免妥协的解决方案是为每个人提供一个个人虚拟宇宙。在那个世界里你可以做任何你想做的事。你可以成为国王。你可能会成为奴隶。你决定会发生什么。所以它基本上是一个美化的视频游戏,你可以享受自己的乐趣,其他人会照顾你的需求,而基板对齐是我们唯一需要解决的问题。我们不需要让 80 亿人就任何事情达成一致。

莱克斯·弗里德曼 (00:10:55) 好的。那么为什么这不是一个可能的结果呢?为什么人工智能系统不能为我们创造视频游戏,让我们在每个单独的视频游戏宇宙中迷失自我?

罗曼·扬波尔斯基 (00:11:08) 有些人说这就是发生的事情。我们正处于模拟之中。

莱克斯·弗里德曼 (00:11:12) 我们正在玩那个电子游戏,现在我们正在创造什么……也许我们正在为自己制造人为的威胁,让自己感到害怕,因为恐惧真的很令人兴奋。它使我们能够更有活力地玩电子游戏。

罗曼·扬波尔斯基 (00:11:26) 有些人选择玩难度更大、限制更多的关卡。有人说,好吧,我只是要享受高权限级别的游戏。绝对地。

莱克斯·弗里德曼 (00:11:35) 好的,那篇关于多智能体价值调整的论文是什么?

罗曼·扬波尔斯基 (00:11:38) 个人宇宙。

莱克斯·弗里德曼 (00:11:43) 这是可能的结果之一,但这篇论文的总体想法是什么?所以它正在寻找多个代理。它们是人类人工智能,就像一个混合系统,无论是人类和人工智能,还是关注人类或只是智能代理?

罗曼·扬波尔斯基 (00:11:55) 为了解决价值对齐问题,我试图将其形式化得更好一些。通常我们谈论的是让人工智能做我们想做的事,这并没有明确的定义,我们谈论的是系统的创造者、人工智能的所有者、整个人类,但我们在很多方面没有达成一致。跨文化、跨宗教,不存在普遍接受的伦理、道德。人们在政治等方面有着截然不同的偏好。因此,即使我们以某种方式管理了它的所有其他方面,将这些模糊概念编程进去,让人工智能密切关注它们,我们也不同意编程的内容。

(00:12:33) 所以我的解决方案是,好吧,我们不必在室温上妥协。你有你的宇宙,我有我的,随你所欲,如果你喜欢我,可以邀请我参观你的宇宙。我们不必独立,但关键是你可以独立,而且虚拟现实正在变得越来越好。会到了一个分不清的地步,如果你分不清是真是假,那还有什么区别呢?

莱克斯·弗里德曼 (00:12:55) 所以基本上放弃价值取向,创建多元宇宙理论。这是用你的价值观为你创造一个完整的宇宙。

罗曼·扬波尔斯基 (00:13:04) 你仍然必须与那个人保持一致。他们必须在模拟中感到高兴,但与 80 亿个特工加上动物、外星人相比,与一个特工结盟要容易得多。

莱克斯·弗里德曼 (00:13:15) 那么您基本上将多智能体问题转换为单智能体问题吗?

罗曼·扬波尔斯基 (00:13:19) 我正在努力做到这一点。是的。

莱克斯·弗里德曼 (00:13:24) 好的。好吧,这就是放弃价值调整问题。那么,当一群人、多人、数十人或 80 亿人拥有非常不同的价值观时,有什么方法可以解决价值观一致问题吗?

罗曼·扬波尔斯基 (00:13:41) 这似乎是矛盾的。我还没见过有人用语言来解释它的含义,它包含了很多东西,使它变得美好,使它变得令人向往,使它成为他们不后悔的东西。您如何具体形式化这些概念?你如何对它们进行编程?到目前为止,我还没有看到任何人在这方面取得进展。

莱克斯·弗里德曼 (00:14:03) 这不就是我们作为人类文明所做的整个优化之旅吗?我们正在研究地缘政治。各国之间处于无政府状态。他们发动战争,发生冲突,而且他们对善恶的看法常常截然不同。这难道不是我们正在努力弄清楚的,只是共同努力朝这个方向努力吗?所以我们本质上是在尝试解决人类的价值一致性问题

罗曼·扬波尔斯基 (00:14:32) 战斗,但是你举的例子,其中一些是,例如,两种不同的宗教都说这是我们的圣地,我们不愿意以任何方式妥协。如果你能在虚拟世界中建立两个圣地,你就解决了问题,但如果你只有一个,它就不可分割。你被困在那里了。

莱克斯·弗里德曼 (00:14:50) 如果我们想彼此保持紧张关系,并通过这种紧张关系,我们了解自己并了解世界,该怎么办?这就是我们作为人类文明正在经历的智力之旅,我们创造了智力和身体的冲突,并通过这种冲突来解决问题。

罗曼·扬波尔斯基 (00:15:08) 如果我们回到模拟的想法,这是赋予我们意义的娱乐,那么问题是对于电子游戏来说,多少痛苦是合理的?所以是的,我不介意能获得触觉反馈的视频游戏。有一点摇晃。也许我有点害怕。我不想要一款让孩子们受到字面折磨的游戏。至少以我们人类的标准来看,这似乎是不道德的。

莱克斯·弗里德曼 (00:15:34) 您是否认为,如果我们将人类文明视为一个优化问题,就有可能消除痛苦?

罗曼·扬波尔斯基 (00:15:40) 所以我们知道有些人由于基因突变而不会经历身体疼痛。所以至少身体上的疼痛可以被变异、重新设计而消除。就意义而言,受苦有点困难,就像你烧掉我唯一的一本书一样。即使在那里,您也可以操纵您的享乐设定点,您可以更改默认值,您可以重置。问题是,如果你开始扰乱你的奖励渠道,你就会开始陷入困境,最终会变得有点幸福。

莱克斯·弗里德曼 (00:16:15) 嗯,这就是问题所在。你真的想生活在一个没有痛苦这个黑暗问题的世界吗?是否有某种程度的痛苦提醒我们这一切的目的是什么?

罗曼·扬波尔斯基 (00:16:29) 我认为我们需要这个,但我会改变整体范围。所以现在是负无穷到正无穷的痛苦-快乐轴。我会把它设为零到正无穷大,而不快乐就像我接近于零。

遭受风险

莱克斯·弗里德曼 (00:16:44) 好的,那么什么是 S 风险?您对 S 风险的想象可能是什么?人类遭受如此巨大的痛苦,我们所说的AGI造成的是什么?

罗曼·扬波尔斯基 (00:16:54) 所以有很多恶意的演员。我们可以谈论精神病患者、疯子、黑客、末日邪教。我们从历史中知道他们试图杀死所有人。他们故意试图造成最大程度的破坏,即恐怖主义。如果有人心怀恶意想要故意尽可能长时间地折磨所有人怎么办?你解决衰老问题。所以现在你已经拥有了功能上的永生,你只需尽力发挥创造力即可。

莱克斯·弗里德曼 (00:17:23) 您认为人类历史上真的有人试图最大化人类的痛苦吗?在研究那些在世界上作恶的人时,他们似乎认为自己在做好事,并且似乎并没有试图最大化痛苦。他们只是因为做他们认为好的事情而带来了很多痛苦。

罗曼·扬波尔斯基 (00:17:47) 因此存在不同的恶意代理。有些人可能只是为了获取个人利益并为此牺牲他人。我们所知道的其他人试图杀死尽可能多的人。当我们看看最近发生的校园枪击事件时,如果他们拥有更强大的武器,他们杀死的不是几十人,而是数千、数百万、数十亿。

莱克斯·弗里德曼 (00:18:14) 好吧,我们不知道,但这是一个可怕的可能性,我们不想知道。如果恐怖分子能够获得核武器,他们会走多远?他们愿意做的事情有限制吗?你的感觉是有些恶毒的演员没有限制?

罗曼·扬波尔斯基 (00:18:36) 存在精神疾病的人没有同理心,没有理解他人痛苦的人类品质。

莱克斯·弗里德曼 (00:18:50) 还有一系列信念,认为杀死很多人是在做好事。

罗曼·扬波尔斯基 (00:18:57) 再说一次,我想假设普通人永远不会那样想。总有一些精神病患者,但是是的。

莱克斯·弗里德曼 (00:19:03) 对你来说,AGI 系统可以承载这一点,并且更有能力执行它。

罗曼·扬波尔斯基 (00:19:11) 他们当然可以更具创造力。他们可以更好地了解人类生物学、了解我们的分子结构、基因组。同样,很多时候酷刑结束,然后个人死亡。该限制也可以被删除。

莱克斯·弗里德曼 (00:19:28) 因此,如果我们实际上关注 X-Risk 和 S-Risk,随着系统变得越来越智能,您是否认为可以预测它们的执行方式并进行防御就像我们对网络安全所做的那样,会做安全系统吗?

罗曼·扬波尔斯基 (00:19:43) 对。我们绝对可以跟上一段时间。我是说你不能无限期地这样做。在某些时候,认知差距太大了。你需要防御的范围是无限的,但攻击者只需要找到一个漏洞即可。

莱克斯·弗里德曼 (00:20:01) 所以对你来说,我们最终会走向悬崖吗?

罗曼·扬波尔斯基 (00:20:05) 如果我们创造通用的超级智能,我认为从长远来看不会给人类带来好的结果。赢得这场比赛的唯一方法就是不玩它。

AGI 时间表

莱克斯·弗里德曼 (00:20:14) 好的,我们将讨论可能的解决方案以及不玩它意味着什么,但是对您来说可能的时间表是什么?我们在说啥啊?我们谈论的是几年、几十年、几个世纪,你怎么看?

罗曼·扬波尔斯基 (00:20:27) 我不确定。目前市场预测 AGI 将在 2026 年出现。我从 Anthropic DeepMind 的首席执行官那里听到了同样的说法。因此,也许我们还需要两年的时间,鉴于我们还没有适当的工作安全机制,甚至没有原型,这似乎很快就会实现。有些人试图加快这些时间表,因为他们觉得我们到达目标的速度不够快。

莱克斯·弗里德曼 (00:20:51) 那么,当他们说 AGI 时,你认为他们的意思是什么?

罗曼·扬波尔斯基 (00:20:55) 因此,我们过去的定义以及人们最近对它们进行了一些修改,通用人工智能是一个能够在人类可以执行的任何领域执行的系统。所以你正在创造这个普通的人造人。他们可以做认知劳动、体力劳动,你可以让另一个人来做。超级智能被定义为一个在所有领域都优于所有人的系统。现在人们开始将通用人工智能视为超级智能。我最近发表了一篇文章,其中我认为,至少对我来说,如果你对所有常见的人类任务进行平均,那么这些系统已经比普通人更聪明了。所以根据这个定义我们就有了它。肖恩·莱格 (Shane Legg) 对你要在所有领域取得胜利的目标有这样的定义。这就是智力。现在,他们在某些领域比精英人士更聪明吗?当然不是。他们还没有做到这一点,但进展是指数级的。

莱克斯·弗里德曼 (00:21:54) 看,我更关心社会工程。所以对我来说,人工智能在现实世界中做某事的能力,比如最容易实现的目标,最简单的方法,就是让人类去做。病毒要控制机器人执行命令的思维将会变得更加困难。人类的社会工程似乎更有可能发生。

罗曼·扬波尔斯基 (00:22:27) 这足以引导整个过程。

莱克斯·弗里德曼 (00:22:31) 就 AGI 这个术语来说,AGI 和人类水平的智能之间有什么区别?

罗曼·扬波尔斯基 (00:22:39) 在人类的专业领域中,人类水平是一般的。我们知道如何做人类的事情。我不会说狗语。如果我是一般智力的话应该能接受。这是一种低等动物。我应该能够学会这项技能,但我学不到。通用智能,真正的通用通用智能,应该能够做人类做不到的事情。

莱克斯·弗里德曼 (00:23:00) 例如,能够与动物交谈?

罗曼·扬波尔斯基 (00:23:02) 为了解决这种类型的模式识别问题,我们的专业领域之外有类似的事情,因为这不是我们生活的世界。

莱克斯·弗里德曼 (00:23:15) 如果我们只看看我们拥有的认知能力空间,我只是想了解 AGI 系统可以达到的极限是什么。那看起来像什么?实际的数学思维或科学创新之类的东西又如何呢?

罗曼·扬波尔斯基 (00:23:37) 我们知道,在狭小的加法领域,计算器比人类更聪明。

莱克斯·弗里德曼 (00:23:43) 是人类加上工具与通用人工智能的对比,还是人类原始智能的对比?因为人类创造了工具,并且通过工具他们变得更加聪明,所以当我们测量他们的智力时,存在一个灰色地带,即作为人类意味着什么。

罗曼·扬波尔斯基 (00:23:59) 那么我想了一下,我通常认为人类有一张纸和一支铅笔,而不是有互联网和另一个人工智能帮助的人类。

莱克斯·弗里德曼 (00:24:07) 这是一个公平的思考方式吗?因为人类水平的智能是否还有另一个定义,其中包括人类创造的工具?

罗曼·扬波尔斯基 (00:24:14) 我们创造人工智能。所以在任何时候你仍然只是将超级智能添加到人类的能力中。这看起来像是作弊。

莱克斯·弗里德曼 (00:24:21) 没有可控工具。当 AGI 从工具转变为可以自行决策的实体时,您正在实现隐含的飞跃。因此,如果我们将人类水平的智能定义为人类使用完全可控的工具所能做的一切。

罗曼·扬波尔斯基 (00:24:41) 这看起来像是某种混合体。你现在正在做脑机接口。你正在将它连接到可能狭窄的人工智能。是的,这确实提高了我们的能力。

AGI图灵测试

莱克斯·弗里德曼 (00:24:51) 那么,对于您来说,衡量人工智能系统是否已达到人类智能水平的良好测试是什么,以及它已经取代人类智能水平以达到 AGI 水平的良好测试是什么?

罗曼·扬波尔斯基 (00:25:09) 我很守旧。我喜欢图灵测试。我有一篇论文,我将通过图灵测试等同于解决人工智能完整问题,因为你可以将有关任何领域的任何问题编码到图灵测试中。你不必谈论你今天过得怎么样。你可以问任何事情。所以系统必须像人类一样聪明才能真正意义上通过。

莱克斯·弗里德曼 (00:25:30) 然后你可以将其扩展到可能很长的对话。我认为 Alexa 奖就是这样做的。基本上,你能与人工智能系统进行 20 分钟、30 分钟的对话吗?

罗曼·扬波尔斯基 (00:25:42) 绝对必须足够长,以便您可以就功能做出一些有意义的决定。你可以暴力破解非常短的对话。

莱克斯·弗里德曼 (00:25:53) 从字面上看,那是什么样子的?我们可以正式构建一个测试 AGI 的测试吗?

罗曼·扬波尔斯基 (00:26:04) 对于 AGI 来说,它必须存在。我不能把我能交给人类的任务交给它,如果人类能做到,它也做不到。对于超级智能来说,它在所有此类任务上都表现出色,而不仅仅是平均表现。所以去学开车,去说中文,弹吉他。好的,太好了。

莱克斯·弗里德曼 (00:26:22) 我想接下来的问题是,是否有一种测试可以测试那种容易导致S风险或X风险、容易毁灭人类文明的AGI?有测试吗?

罗曼·扬波尔斯基 (00:26:40) 您可以制定一项测试,给您带来积极的结果。如果它对你撒谎或有这些想法,你就无法制定一个测试来排除它们。总是存在博斯特罗姆所说的危险转向的可能性,即系统后来出于博弈论原因、经济原因决定改变其行为,我们在人类身上也看到了同样的情况。这并不是人工智能所独有的。几千年来,我们尝试发展道德、伦理、宗教、测谎仪测试,然后雇员背叛了雇主,配偶背叛了家庭。这是智能代理有时会做的非常标准的事情。

莱克斯·弗里德曼 (00:27:19) 那么,是否有可能检测到人工智能系统何时在撒谎或欺骗你呢?

罗曼·扬波尔斯基 (00:27:24) 如果您知道真相,但它告诉您一些错误的信息,您可以察觉到这一点,但您无法每次都知道一般情况。再说一遍,您今天测试的系统可能没有说谎。您今天正在测试的系统可能知道您正在测试它,因此会表现出行为。稍后,在与环境交互、与其他系统交互后,恶意代理了解更多信息,它可能会开始做这些事情。

莱克斯·弗里德曼 (00:27:53) 那么你认为有可能开发一个系统的创建者、开发者、程序员不知道它在欺骗他们的系统吗?

罗曼·扬波尔斯基 (00:28:03) 因此,当今的系统没有长期规划。那并不难。如果这有助于他们优化奖励,他们今天就可以撒谎。如果他们意识到,好吧,如果我告诉他们以下内容,这个人会很高兴,如果这能给他们带来更多积分,他们就会这么做。他们不必跟踪它。每次这都是这个问题的正确答案。

莱克斯·弗里德曼 (00:28:30) 在什么时候有人会有意而不是无意识地创建一个人工智能系统,该系统使用由人工智能系统而不是人类定义的目标函数进行长期规划?

罗曼·扬波尔斯基 (00:28:44) 嗯,有些人认为如果他们那么聪明,他们就总是优秀的。他们确实相信这一点。只不过是出于智慧的仁慈而已。所以他们总是想要对我们最好的。有些人认为,当我们到达那里时,他们将能够发现问题行为并纠正它们。我认为这不是一个好主意。我强烈反对它,但是,是的,有相当多的人总体上对这项技术非常乐观,它不会做错。他们希望它尽快开发出来,能力尽可能强。

莱克斯·弗里德曼 (00:29:19) 那么会有人相信它越聪明,就越仁慈,因此它应该是定义它在进行长期规划时优化的目标函数的函数?

罗曼·扬波尔斯基 (00:29:31) 甚至有人说:“好吧,人类有什么特别之处?”去掉性别偏见,去掉种族偏见,为什么这是亲人类的偏见?我们正在污染地球。正如你所说,我们打了很多战争,充满暴力。如果超级智能、完美的社会到来并取代我们,也许会更好。这是我们物种进化的正常阶段。

莱克斯·弗里德曼 (00:29:57) 所以有人说:“让我们开发一个人工智能系统,将暴力人类从世界上消除。”然后事实证明,所有人类都有暴力或暴力能力,因此所有人类都被清除了。是的。

Yann LeCun 和开源人工智能

(00:30:14) 让我问一下 Yann LeCun。你和他有过几次交流,他积极反对人工智能将导致人类文明毁灭的观点,也称为人工智能末日论。因此,在他发推文的一个例子中,他说,“我确实承认风险,但是,”有两点,“第一,开放研究和开源是理解和减轻风险的最佳方式。第二,人工智能不是偶然发生的事情。我们建造它。我们对它的发展有代理权。因此,我们控制风险。我们指的是人类。这不是我们无法控制的某种自然现象。”你能证明他是对的吗?你能证明他是错的吗?

罗曼·扬波尔斯基 (00:31:10) 我无法证明他是对的。他在很多方面都错了,我很难全部记住。他是 Facebook 好友,所以我和他进行这些小辩论很有趣。所以我努力记住他们的论点。因此,他说,我们并没有从外星人那里获得这种智力。我们正在设计它。我们正在对此做出决定。这不是真的。当我们拥有专家系统、符号人工智能决策树时,情况确实如此。今天,您为模型设置参数并给该植物浇水。你给它数据,给它计算,它就会成长。当它长成这种外星植物后,你开始测试它,看看它有什么能力。即使对于现有模型,也需要数年时间才能弄清楚。如果经过六个月的训练,您将需要两三年的时间才能弄清楚该系统的基本功能。我们仍在现有系统中发现新功能。所以事实并非如此。

莱克斯·弗里德曼 (00:32:09) 所以,只是停留在这一点上,所以对你来说,差异在于我们当前的方法中存在某种程度的紧急智能。所以我们不会硬编码。

罗曼·扬波尔斯基 (00:32:21) 当然。这就是它如此成功的原因。当我们必须煞费苦心地对所有事情进行硬编码时,我们并没有取得太大进展。现在,只要花更多的钱购买更多的计算,它的能力就会更强。

莱克斯·弗里德曼 (00:32:35) 那么问题是,当出现智能现象时,其上限是多少?对你来说,没有上限。对于 Yann LeCun 来说,我认为我们可以完全控制发生的情况。即使我们不了解涌现的内部原理,不了解涌现是如何发生的,但我们仍然有一种感觉,即我们拥有控制力并了解能力的大致上限和能力的极限。

罗曼·扬波尔斯基 (00:33:04) 假设有一个上限。它不能保证达到与我们竞争的水平。它可能比我们优越得多。

莱克斯·弗里德曼 (00:33:13) 那么他关于开放研究和开源是理解和减轻风险的最佳方式的说法又如何呢?

罗曼·扬波尔斯基 (00:33:21) 从历史上看,他是完全正确的。开源软件很棒。它经过了社区的测试和调试,但我们正在从工具切换到代理。现在你正在向精神病患者提供开源武器。我们想要开源核武器、生物武器吗?即使你一开始就成功地以友好的方式让它发挥作用,将如此强大的技术提供给那些可能会错位的人也是不安全的。

莱克斯·弗里德曼 (00:33:51) 与核武器不同的是,当前的人工智能系统并不类似于核武器。因此,我们的想法是在这个阶段将其开源,以便您可以更好地理解它。很多人可以探索……

莱克斯·弗里德曼 (00:34:00) 可以更好地理解。很多人可以探索它的局限性、能力,探索保证它安全的可能方法,保证它的安全,所有这些东西,虽然它还没有达到核武器的阶段。所以核武器,没有核武器,然后就有核武器。人工智能系统的能力会逐渐提高,你可以逐步进行这种改进,因此开源可以让你研究事情是如何出错的。我研究出现的过程,研究人工智能的安全性以及危险程度不高时的系统,诸如此类。

罗曼·扬波尔斯基 (00:34:38) 这也开创了一个非常错误的先例。所以我们开源了模型一、模型二、模型三。没有发生任何糟糕的事情,所以显然我们将用模型四来做到这一点。这只是逐步改善。

莱克斯·弗里德曼 (00:34:50) 我认为这并不总是适用于先例。你不再像以前那样被困住了。它开创了开放研究和开放开发的先例,这样我们就可以一起学习,然后第一次出现危险迹象时,就会发生一些戏剧性的事情,不是破坏人类文明的事情,而是一些戏剧性的能力展示,可以合法地造成很大的损害,然后每个人都醒过来说:“好吧,我们需要对此进行监管。我们需要制定安全机制来阻止这种情况发生。”但现在,也许你可以教育我,但我还没有看到任何智能人工智能系统造成重大损害的例证。

罗曼·扬波尔斯基 (00:35:34) 所以我有一篇论文收集了人工智能历史上的事故,它们总是与该系统的能力成正比。因此,如果你让人工智能玩井字棋,它将无法正常玩并输掉游戏,这应该是微不足道的。你的拼写检查器会拼错单词,等等。我不再收集这些数据,因为有太多人工智能未能实现其能力的例子。我们还没有发生过导致数十亿人死亡的可怕事故。千真万确。但在另一篇论文中,我认为这些事故实际上并没有阻止人们继续研究,实际上它们的作用就像疫苗一样。疫苗会让你的身体稍微生病,这样你就可以在以后更好地应对大疾病。这里也是一样。人们会指出,“你知道我们发生了人工智能事故,导致 12 人死亡”,每个人都还在这里,12 人比吸烟死亡人数还要少。没什么大不了的。所以我们继续。所以在某种程度上,它实际上会证实情况并没有那么糟糕。

莱克斯·弗里德曼 (00:36:42) 死亡是如何发生的很重要,无论它是否真的被人工智能系统谋杀,那么一个就是一个问题,但如果是由于对自动化的依赖增加而发生的事故,那么当飞机在自动驾驶中飞行时比如说,也许飞机失事的数量增加了 17% 之类的,然后你就会想,“好吧,我们真的想依赖自动化吗?”我认为在自动化飞机的情况下,它显着下降。好吧,自动驾驶汽车也是如此。好吧,有什么优点和缺点?这里有什么权衡?你可以以诚实的方式进行讨论,但我认为我们在这里讨论的是人工智能系统造成的大规模痛苦和痛苦,我认为我们需要在很小的范围内看到这方面的例证开始明白这确实是有害的。与剪辑。相对于一个对很多人来说非常有用的工具来学习文本摘要、回答问题以及生成视频之类的东西。一个工具。从根本上来说,它是一个工具,而不是一个可以造成巨大损害的代理。

罗曼·扬波尔斯基 (00:38:03) 所以你举了汽车的例子。

莱克斯·弗里德曼 (00:38:05) 是的。

罗曼·扬波尔斯基 (00:38:06) 汽车是慢慢开发和集成的。如果我们没有汽车,有人走过来说:“我发明了这个东西,它叫汽车。这很棒。它每年夺去 10 万美国人的生命。我们来部署它吧。”我们会部署它吗?

莱克斯·弗里德曼 (00:38:22) 长期以来,人们一直在散布有关汽车的恐慌情绪。从马到汽车的转变,我建议人们查看一个非常好的频道,悲观主义者档案,它记录了整个历史上发生的所有关于技术的恐惧散布。肯定有很多关于汽车的恐慌情绪。关于汽车以及它们的致命性,存在一个过渡时期。我们可以尝试。汽车经过很长时间才扩散到现在的程度。然后你可以就汽车行驶里程、对经济的好处、对生活质量的好处以及死亡人数提出严肃的问题;美国有 30、40,000 名。我们愿意付出这个代价吗?我认为大多数人在理性思考时,政策制定者都会说:“是的。”我们希望将其从 40,000 减少到零,并尽一切努力减少它。您可以制定各种政策和激励措施来降低技术部署的风险。但你必须权衡该技术的好处和风险,人工智能也会做同样的事情。

罗曼·扬波尔斯基 (00:39:31) 您需要数据,您需要了解。但如果我是对的,而且事情是不可预测、无法解释、无法控制的,那么你就无法做出这个决定。我们正在获得 10 万亿美元的财富,但我们不知道有多少人。基本上你必须在未经同意的情况下对 80 亿人进行实验。即使他们想给予您同意,他们也不能,因为他们无法给予知情同意。他们不明白那些事情。

莱克斯·弗里德曼 (00:39:58) 对。当你很快从可预测变为不可预测时,就会发生这种情况。但对我来说,人工智能系统获得能力的速度会如此之快,以至于你无法收集足够的数据来研究其好处和风险,这一点并不明显。

罗曼·扬波尔斯基 (00:40:17) 我们确实在这么做。之前的模型我们在完成训练后才了解它的能力。假设我们停止了围绕人类能力进行的 GPT-4 训练。我们开始训练 GPT-5,我对内部训练运行或任何东西一无所知,并开始了关于人类的这一点,我们在接下来的九个月内对其进行训练。也许两个月后,它就会变得超级聪明。我们继续训练它。当我们开始测试它时,它已经是一个危险的系统。有多危险?我不知道,但从来没有人训练它。

莱克斯·弗里德曼 (00:40:53) 在培训阶段,然后在公司内部有一个测试阶段,他们可以开始直观地了解系统的功能。你是说,从 GPT-4 到 GPT-5 的跨越会以某种方式发生,这种跨越是 GPT-4 可控而 GPT-5 不再可控,我们从使用 GPT-4 中没有得到关于这一事实的见解GPT-5 将无法控制。这就是您所关心的情况。从 N 到 N 加一的跳跃将导致创建一个无法控制的系统,而我们没有能力预测这一点。

罗曼·扬波尔斯基 (00:41:39) 如果我们有能力在运行之前,在训练运行之前准确注册下一个模型在训练运行结束时将具有的功能,并且我们准确地猜出了所有这些功能,我会说你说得对,“我们绝对可以继续这次跑步。”我们没有这个能力。

莱克斯·弗里德曼 (00:41:54) 从 GPT-4 中,您可以对 GPT-5 的功能产生直觉。这只是渐进的进步。即使这在能力上是一个巨大的飞跃,你似乎也无法从一个帮助你写电子邮件的系统跨越到一个将摧毁人类文明的系统。似乎它总是会足够增量,以便我们能够预测可能的危险,我们甚至不是在谈论存在风险,而是在谈论你可能对文明造成的损害。看来我们将能够预测其可能导致的风险类型,而不是确切的风险类型,然后在风险出现时提前快速制定防御措施。

罗曼·扬波尔斯基 (00:42:45) 我们谈论的不仅仅是特定任务的能力,我们谈论的是一般的学习能力。也许像个孩子。在测试和部署时,它的能力还不是很强,但随着它接触到更多的数据现实世界,它可以被训练得变得更加危险和能力更强。

一切尽在您的掌控之中

莱克斯·弗里德曼 (00:43:06) 那么让我们关注控制问题。系统什么时候会变得不可控?为什么对你来说系统更有可能变得不可控?

罗曼·扬波尔斯基 (00:43:20) 所以,我认为在某个时候它会变得失控。出于博弈论的原因,它可能会决定在很长一段时间内不立即采取任何行动,只是收集更多资源,积累战略优势。马上,它可能还年轻,弱超智能,给它十年。它负责更多的资源,它有时间进行备份。所以对我来说,它是否会尽快发动并不明显。

莱克斯·弗里德曼 (00:43:48) 但我们能否尝试想象这样一个未来:有一个人工智能系统能够摆脱人类的控制,然后却无法逃脱并等待?那是什么样子的?因此,我们的很多基础设施都必须依赖该系统。因此,我们不仅要让它能够访问互联网,还要让它能够执行管理权力、政府、经济等任务。考虑到所有相关系统的官僚机构,这感觉像是一个渐进的过程。

罗曼·扬波尔斯基 (00:44:25) 我们已经这么做很多年了。软件控制所有这些系统,核电站、航空业,都是基于软件的。每次停电,我好几天都不能飞。

莱克斯·弗里德曼 (00:44:36) 但软件和人工智能之间是有区别的。所以有不同种类的软件。因此,让单个人工智能系统能够控制航空公司和经济,这对人类来说并不是一个简单的转变。

罗曼·扬波尔斯基 (00:44:55) 不会。但如果它表明它更安全,事实上当它受到控制时,我们会得到更好的结果,人们会要求它到位。

莱克斯·弗里德曼 (00:45:02) 当然。

罗曼·扬波尔斯基 (00:45:02) 如果不这样做,它可能会入侵系统。它可以使用社会工程来访问它。所以我说它可能需要一些时间来积累这些资源。

莱克斯·弗里德曼 (00:45:10) 感觉人类需要很长时间才能信任它,或者社会工程才能发挥作用。这不是一朝一夕发生的事情。感觉就像是一二十年发生的事情。

罗曼·扬波尔斯基 (00:45:23) 我真的希望你是对的,但这不是我所看到的。人们很快就会追随最新趋势。早期采用者甚至会在部署之前就购买原型。

社会工程学

莱克斯·弗里德曼 (00:45:33) 也许是社会工程。对于社会工程来说,人工智能系统不需要任何硬件访问。都是软件。这样他们就可以开始通过社交媒体等来操纵你。你有人工智能助手,他们会帮助你管理很多日常事务,然后他们开始进行社会工程。但对于一个如此强大的系统来说,它可以逃脱创建它的人类的控制,这样一个系统被大规模部署并被人们信任部署,这感觉需要很大的说服力。

罗曼·扬波尔斯基 (00:46:13) 因此,我们一直在部署具有隐藏功能的系统。

莱克斯·弗里德曼 (00:46:19) 你能举个例子吗?

罗曼·扬波尔斯基 (00:46:19) GPT-4。我不知道它还能做什么,但仍然有一些我们还没有发现、可以做的事情。它们可能是微不足道的,但与能力相称。我不知道它会写中文诗歌,假设的,我知道它会,但我们还没有测试所有可能的功能,我们也没有明确设计它们。我们只能排除我们发现的错误。我们不能排除错误和功能,因为我们还没有发现它们。

莱克斯·弗里德曼 (00:46:51) 系统是否有可能拥有比非隐藏功能大几个数量级的隐藏功能?这是我真正挣扎的事情。从表面上看,我们所理解的它能做的事情似乎并没有那么有害。因此,即使它有缺陷,即使它具有隐藏的能力,如中国诗歌或产生有效的病毒、软件病毒,其造成的损害似乎与我们所知道的能力处于同一数量级。因此,关于隐藏功能将包括不可控的想法是我一直在努力解决的问题,因为表面上的 GPT-4 似乎非常可控。

罗曼·扬波尔斯基 (00:47:42) 同样,我们只能询问和测试我们所知道的事情。有未知的未知,我们做不到。想想人类、统计专家,对吧?如果你和这样的人交谈,你可能甚至没有意识到他们可以在头脑中进行 20 位数字的乘法。你必须知道才可以问。

危言耸听

莱克斯·弗里德曼 (00:48:00) 正如我所提到的,只是为了停留在对未知的恐惧上,悲观主义者档案馆刚刚记录了这一点,让我们看看历史上过去的数据,有很多关于技术的恐惧散布。悲观主义者档案馆很好地记录了我们对每一项技术有多么疯狂的恐惧。我们一直很害怕,创建悲观主义者档案的路易斯·安斯洛 (Louis Anslow) 在一篇博客文章中写道,我们 100 多年来一直在散布关于机器人和自动化的恐惧。那么,为什么 AGI 与我们过去所害怕的技术不同呢?

罗曼·扬波尔斯基 (00:48:43) 所以有两件事;一个从工具到代理的愿望。工具不会产生负面或正面影响。使用工具的人会这样做。所以枪不会杀人,持枪的人才会杀人。代理人可以自行做出决定。它们可以是积极的,也可以是消极的。斗牛犬可能会决定伤害你。这是一个代理。恐惧是一样的。唯一的区别是我们现在有了这项技术。然后100年前他们害怕人类和机器人,但他们没有。如今,世界上每一家大公司都投资数十亿美元来创建它们。不是全部,但是你明白我在说什么吗?

莱克斯·弗里德曼 (00:49:21) 是的。

罗曼·扬波尔斯基 (00:49:22) 这是非常不同的。

莱克斯·弗里德曼 (00:49:23) 嗯,特工们,这取决于您所说的“特工”一词的含义。所有这些公司都没有投资于一个具有恐惧所隐含的那种机构的系统,在这个系统中,它可以真正自己做出决定,而没有人参与其中。

罗曼·扬波尔斯基 (00:49:42) 他们说他们正在建立超级智能并拥有一个超级联盟团队。你不认为他们正在尝试创建一个足够智能的系统来成为独立代理吗?根据这个定义?

莱克斯·弗里德曼 (00:49:52) 我还没有看到任何证据。我认为其中很多是关于未来的营销讨论,这是关于我们可以在长期未来创建的系统类型的使命。但从短期来看,他们正在创建的系统类型完全符合狭义人工智能的定义。这些工具的能力不断增强,但它们只是没有代理意识、意识、自我意识或大规模欺骗能力,而这些是对人类造成大规模痛苦和谋杀所必需的。

罗曼·扬波尔斯基 (00:50:32) 这些系统远远超出了狭义的人工智能。如果您必须列出 GPT-4 的所有功能,您将花费大量时间来编写该列表。

莱克斯·弗里德曼 (00:50:40) 但代理并不是其中之一。

罗曼·扬波尔斯基 (00:50:41) 还没有。但您认为这些公司中是否有一家因为认为这可能不安全而犹豫不决?或者他们是否正在开发他们可以提供资源的最强大的系统,并希望他们能够控制和货币化?

莱克斯·弗里德曼 (00:50:56) 控制和货币化。希望他们能够控制并货币化。所以你是说,如果他们可以按下一个按钮,创建一个他们不再控制的代理,他们必须很好地询问,一个存在于服务器上、跨大量计算机的东西,你是说他们会推动创建这种系统?

罗曼·扬波尔斯基 (00:51:21) 我的意思是,我不能代表其他人,代表所有人。我认为他们中的一些人非常雄心勃勃。他们正在筹集数万亿美元的资金,他们谈论控制宇宙的光角。我猜他们可能会。

莱克斯·弗里德曼 (00:51:36) 嗯,这是一个人类问题,人类是否有能力做到这一点。也许,有些人有能力做到这一点。我更直接的问题是,是否有可能创建这样一个系统,拥有一个具有这种代理级别的系统。我认为这不是一个简单的技术挑战。感觉我们离那个还很远。一个具有某种机构的系统,它可以做出自己的决定并欺骗每个人。我们目前在机器学习方面的架构以及我们如何训练系统、如何部署系统等等,它似乎并不支持这种机构。

罗曼·扬波尔斯基 (00:52:14) 我真的希望你是对的。我认为缩放假设是正确的。我们没有看到收益递减。过去我们问AGI还有多久,现在我们应该问AGI还有多久,今天是1万亿美元,明年是10亿美元,几年后是100万美元。

莱克斯·弗里德曼 (00:52:33) 您不认为有可能基本上耗尽数万亿美元吗?那么这是否受到计算的限制?

罗曼·扬波尔斯基 (00:52:41) 计算成本每天都呈指数级下降。

莱克斯·弗里德曼 (00:52:43) 但接下来就变成了几十年与几年的问题。

罗曼·扬波尔斯基 (00:52:47) 如果唯一的分歧是我所说的一切需要几十年而不是几年才能实现,那么我可以同意。

莱克斯·弗里德曼 (00:52:57) 但如果需要几十年的时间,那么人工智能安全工具的开发就会变得越来越现实。所以我想问题是,我有一个基本信念,即人类在面临危险时能够想出方法来防御这种危险。对我来说,目前人工智能安全面临的一大问题是,没有清楚地说明这种危险是什么样的。没有人工智能系统造成大量损害的插图,因此不清楚你要防御的是什么。因为目前的哲学概念是,是的,可以想象人工智能系统控制一切,然后毁灭所有人类。这也是一个更正式的数学概念,你所说的不可能有一个完全安全的系统。你无法证明一个足够复杂的程序是完全安全的、完美的并且知道它的一切,是的,但是当你实际上只是务实地看看人工智能系统造成了多少损害以及什么样的损害时,没有插图的。

(00:54:10) 幸运的是,即使在自主武器系统中,也没有大规模部署自主武器系统。目前战争中的自动化非常有限,自动化是在个人规模上而不是在战略和规划规模上。我认为这里的挑战之一是危险在哪里,[听不清 00:54:40] 和其他人的直觉是,让我们保持开放式构建人工智能系统,直到危险开始出现并且变得更加明确,它们开始是案例研究,说明性案例研究,准确地显示AD系统的损害是如何造成的,然后监管可以介入。然后优秀的工程师可以站出来,我们可以有曼哈顿式的项目来防御此类系统。就是这样的想法。我想,与此相关的一个紧张点是,对于您来说,我们现在需要考虑这一点,以便我们做好准备,因为一旦部署系统,我们就没有太多时间了。真的吗?

罗曼·扬波尔斯基 (00:55:26) 所以,这里有很多东西需要解开。在人工智能方面有一个合作伙伴关系,是许多大公司的联合体。他们有一个收集的人工智能事故数据库。我为该数据库做出了很多贡献。如果到目前为止我们在实际解决这个问题上几乎没有取得任何进展,而不是修补它,不再是给猪涂口红之类的解决方案,那么为什么我们会认为当我们更接近问题时我们会做得更好呢?

莱克斯·弗里德曼 (00:55:53) 你提到的所有事情都是衡量伤害程度的严重问题。因此,利益与风险的比较是困难的。但对您来说,是否感觉风险已经取代了收益?

罗曼·扬波尔斯基 (00:56:02) 我想再说一遍,我喜欢人工智能,我喜欢技术。我是一名计算机科学家。我拥有工程学博士学位。我在一所工程学校工作。我们需要开发人工智能系统,在解决蛋白质折叠等特定人类问题方面具有超级智能,而我们需要创建超级智能机器卫士来决定如何处理我们,这两者之间存在巨大差异。这些不一样。我反对一般意义上的超级智能,但没有任何过度的负担。

莱克斯·弗里德曼 (00:56:35) 那么,您认为能够针对您提到的那种狭隘人工智能风险实现人工智能安全的团队,这些方法是否能够有效地实现人工智能的方法AGI安全吗?或者它只是一个根本不同的部分?

罗曼·扬波尔斯基 (00:56:54) 部分地,但我们不会针对确定性系统进行狭义人工智能的扩展。你可以测试它们,你有边缘情况。你知道答案应该是什么样子,正确的答案。对于一般系统,您有无限的测试表面,没有边缘情况。您甚至不知道要测试什么。同样,研究这个问题的人们并没有充分认识到未知的未知因素。你总是问我:“它会如何杀死所有人?怎么会失败呢?”重点是,如果我知道这一点,我就会变得超级聪明,不管你怎么想,我不是。

莱克斯·弗里德曼 (00:57:29) 所以对您来说,担心的是我们无法看到不可控系统的早期迹象。

罗曼·扬波尔斯基 (00:57:39) 它是欺骗大师。萨姆在推特上表示,说服力有多么出色,我们自己也看到了这一点,尤其是现在,声音中可能带有一些调情、讽刺的女性声音。它将非常擅长让人们做事。

人工智能欺骗

莱克斯·弗里德曼 (00:57:55) 但是看,我非常担心系统被用来控制群众。但在这种情况下,开发人员知道正在发生的控制类型。你更关心的是下一阶段,连开发者都不知道有欺骗行为。

罗曼·扬波尔斯基 (00:58:18) 正确。我认为开发人员并不了解他们所创造的一切。他们拥有丰富的知识,我们在解释网络的各个部分方面正在取得进展。我们可以理解,“好吧,这个音符变得兴奋,然后呈现这个输入,这组音符。”但我们距离了解全貌还差得很远,我认为这是不可能的。您需要能够调查解释。这些模型的大小使得一个人无法吸收所有这些信息,即使是由系统提供的。因此,要么我们得到模型作为正在发生的事情的解释,而这对我们来说是无法理解的,要么我们得到压缩的解释,[听不清00:59:01]压缩,这里是“你被解雇的十大原因”。它是一些东西,但它不是完整的图片。

莱克斯·弗里德曼 (00:59:07) 你在其他地方举了一个孩子和每个人的例子,所有的人类都试图欺骗,他们在生命的早期就试图撒谎。我认为我们会从大型语言模型或人工智能系统中得到很多欺骗的例子。他们会有点阴暗,或者他们会相当不错,但我们会让他们措手不及。我们将开始看到一种发展日益增强的欺骗能力的势头,那时你就会想,“好吧,我们需要进行某种协调来防止欺骗。”但是,如果你支持开源,那么你就可以拥有具有一定程度欺骗性的开源模型,你可以开始大规模探索,我们如何阻止它具有欺骗性?然后还有一个更明确、更务实的问题需要解决。我们如何阻止人工智能系统尝试优化欺骗?这是一个例子。

罗曼·扬波尔斯基 (01:00:05) 所以有一篇论文,我认为是上周由麻省理工学院的 Park 博士等人发表的,他们表明模型已经在他们所做的事情中表现出了成功的欺骗。我担心的不是他们现在撒谎,我们需要抓住他们并告诉他们,“不要撒谎。”我担心的是,一旦他们有能力并部署后,他们就会改变主意。因为无限制的学习可以让你做任何事。很多人可能在宗教家庭中长大,他们读了一些新书,然后皈依了自己的宗教信仰。这是人类的一个危险的转变。如果你对同事有了新的了解,也许你会改变对此的反应。

莱克斯·弗里德曼 (01:00:53) 是的,危险的转折。如果我们只提到人类、斯大林和希特勒,就有一个转折。斯大林就是一个很好的例子。在出现转变之前,他看起来只是列宁的一个普通共产主义追随者。当他完全控制时,该政策的执行意味着什么,以及有多少人会受苦,这意味着什么。

罗曼·扬波尔斯基 (01:01:17) 你不能说他们不理性。理性的决定会根据你的立场而变化。当你在老板手下时,理性的政策可能是服从命令和诚实。当你成为老板时,理性政策可能会发生变化。

莱克斯·弗里德曼 (01:01:34) 是的,顺便说一句,我在这里的很多分歧只是扮演魔鬼代言人来挑战你的想法并一起探索它们。因此,整个对话中的大问题之一是人类文明悬而未决,但一切都是不可预测的。我们不知道这些系统会是什么样子-

罗曼·扬波尔斯基 (01:01:58) 机器人来了。

莱克斯·弗里德曼 (01:02:00) 冰箱发出嗡嗡声。

罗曼·扬波尔斯基 (01:02:03) 非常具有威胁性。非常具有威胁性。所以每次我要谈论这个话题时,事情就会开始发生。我昨天的航班被取消,无法重新预订。我当时正在以色列的谷歌做演讲,三辆汽车本来应该带我去演讲,但是却没有。我只是说。

莱克斯·弗里德曼 (01:02:24) 我的意思是

罗曼·扬波尔斯基 (01:02:27) 我喜欢人工智能。我,一方面欢迎我们的霸主。

莱克斯·弗里德曼 (01:02:31) 在某种程度上,我们……我的意思是,很明显,我们已经越来越多地把自己的生命交给了软件系统。考虑到人工智能即将到来的能力,很明显我们将越来越多地把我们的生活交给人工智能系统。汽车将自动驾驶,冰箱最终将优化我的饮食。而且,随着我们生活中越来越多的事情由人工智能助手控制或管理,很可能会出现偏差。我的意思是,我个人关心的是不存在的东西,更近期的事情。因为在我们到达存在主义之前,我觉得可能会有很多勇敢的新世界类型的情况。您提到了“行为漂移”这个词。当我们把生活交给自动化时,我真正担心的是慢慢沸腾,我们的思想可能会被政府、公司或只是以分布式方式控制。有一个漂移。我们人性的某些方面让我们自己受到人工智能系统的控制,而它们却以一种意想不到的方式控制了我们的思维方式。也许我们的思维方式会出现一种从众心态,这会扼杀所有创造力和对想法的探索、想法的多样性,或者更糟。所以这是真的,这是真的。

确认

(01:04:03) 但我现在与您进行的很多对话几乎在技术层面上都在想,人工智能如何逃脱控制?该系统会是什么样子?因为它对我来说既可怕又迷人。让我着迷的是,也许有可能设计出能够防御这种情况的系统。您在书中写得很多的内容之一就是验证者。所以,不是人类。人类也是验证者。但是软件系统会着眼于人工智能系统,并帮助你理解,“这件事变得非常奇怪。”帮助您分析这些系统。所以也许现在是讨论验证的好时机。这个美妙的验证概念是什么?

罗曼·扬波尔斯基 (01:05:01) 我的主张是,我们可以验证和不能验证的内容都有很大的限制。很多时候,当你在社交媒体上发布内容时,人们会说,“哦,我需要引用同行评审的文章。”但什么是同行评审文章?在这个拥有数十万科学家的世界里,你发现有两个人说:“啊,无论如何,发表它吧。我不在乎。”这是该过程的验证者。当人们说“哦,这是经过正式验证的软件或数学证明”时,我们几乎 100% 地接受它没有任何问题的可能性。但你实际上看看研究,软件充满了错误,已经被证明了数百年的旧数学定理被发现包含错误,在此之上我们生成新的证明,现在我们必须重做所有这些。

(01:05:50) 所以,验证者并不完美。通常,他们要么是单个人,要么是人类社区,这基本上有点像民主投票。数学家们一致认为这个证明是正确的,而且大部分是正确的。即使在今天,我们仍然开始看到一些数学证明如此复杂、如此庞大,以至于数学界无法做出决定。它看起来很有趣,看起来很有希望,但他们不知道。顶尖学者需要花费数年的时间来研究才能找到答案。当然,我们可以使用人工智能来帮助我们完成这个过程,但人工智能是一个需要验证的软件。

莱克斯·弗里德曼 (01:06:27) 只是澄清一下,验证是某件事正确的过程,它是形式和数学证明,其中有一个陈述,以及证明该陈述正确的一系列逻辑陈述,即一个定理。你说它变得如此复杂,以至于对于人类验证者来说,验证逻辑步骤没有错误的人类是可能的,这变得不可能。因此,很高兴以最正式、最清晰、最严格的形式来讨论验证,即数学证明。

罗曼·扬波尔斯基 (01:07:05) 对。对于人工智能,我们希望对控制卫星、核电站的非常重要的关键任务软件有这样的信心。对于小型的确定性程序我们可以这样做,我们可以检查代码验证其到设计的映射。无论软件工程师的意图是什么,都得到了正确的实现。但对于不断学习、自我修改、重写自己代码的软件,我们不知道如何做到这一点。我们不知道如何证明关于物质世界的事情,以及人类在物质世界中的状态。所以现在有一些论文出来了,我有一篇漂亮的论文,《迈向有保障的安全人工智能》。非常酷的论文,其中一些是我见过的最好的 [听不清 01:07:54]。我认为有多个图灵奖得主是相当......你可以有这个和刚刚出来的有点类似,“管理极端-”

罗曼·扬波尔斯基 (01:08:00) …刚刚出现了一种类似的情况,管理着极高的风险。因此,他们所有人都期望得到这种级别的证明,但我想说,通过投入更多资源,我们可以获得更多信心。但归根结底,我们仍然和验证者一样可靠。并且你有验证者的无限回归。用于验证程序的软件本身就是一段程序。

(01:08:27) 如果外星人给了我们良好的超级智能,我们就可以用它来创建我们自己的安全人工智能。但这是一个第22条军规。您需要已经证明系统是安全的,才能验证这个具有相同或更高复杂性的新系统。

莱克斯·弗里德曼 (01:08:43) 您刚才提到了这篇论文,《迈向有保障的安全人工智能:确保稳健可靠的人工智能系统的框架》。就像你提到的,这就像一个谁是谁。Josh Tenenbaum、Yoshua Bengio、Stuart Russell、Max Tegmark 和许多其他杰出人士。您打开的页面是:“创建安全规范有许多可能的策略。这些策略可以粗略地放在一个范围内,具体取决于成功实施后可以提供多少安全性。实现此目的的一种方法如下,”并且有一组级别。从 0 级“不使用安全规范”到 7 级“安全规范完全编码了人类在所有情况下可能想要的所有东西。”这篇论文对你来说有哪些不足之处?

罗曼·扬波尔斯基 (01:09:25) 所以,当我写一篇论文《人工智能安全工程》时,它创造了人工智能安全这个术语,那是在 2011 年。我们有 2012 年的会议,2013 年的期刊论文。我提出的其中一件事,让我们对其进行形式验证。让我们做数学形式证明。在后续的工作中,我基本上意识到仍然无法达到百分百的效果。我们可以达到 99.9,我们可以成倍地投入更多资源并更接近,但我们永远不会达到 100%。

(01:09:56) 如果一个系统每秒做出十亿个决策,并且您使用它一百年,您仍然会遇到问题。这是一项很棒的研究。我很高兴他们这样做。这很棒,但它并不能永久解决该问题。

莱克斯·弗里德曼 (01:10:12) 澄清一下,创建人工智能验证器的任务是什么?是创建一个验证器,让人工智能系统完全按照它所说的那样做,还是让它坚持在它所说的必须的护栏内?

罗曼·扬波尔斯基 (01:10:26) 有很多很多层次。因此,首先您要验证运行它的硬件。您需要验证与人的沟通渠道。整个世界模型的每个方面都需要得到验证。不知何故,它需要将世界映射成世界模型、地图和领土差异。我如何知道人类的内部状态?你是快乐还是悲伤?我不知道。那么,我如何证明真实的物理世界呢?是的,我可以验证确定性算法遵循某些属性,这是可以做到的。有些人认为也许二加二不等于四。我没那么极端。但是,一旦你在足够复杂的环境中拥有足够大的证据,其中零错误的可能性就会大大降低。如果你不断地部署这个,最终无论如何都会遇到错误。

莱克斯·弗里德曼 (01:11:20) 错误总是存在的。

罗曼·扬波尔斯基 (01:11:22) 错误总是存在的。根本的区别就是我提到的。我们不处理网络安全问题。我们不会获得新的信用卡、新的人类。

自我完善的人工智能

莱克斯·弗里德曼 (01:11:29) 所以,这篇论文真的很有趣。你说2011年,人工智能,安全工程。为什么机器伦理是错误的方法。您所写的人工智能安全工程的重大挑战是,“我们提出了为自我改进系统开发安全机制的问题。”自我完善的系统。顺便说一句,对于我们正在谈论的事情来说,这是一个有趣的术语。自我提升比学习更普遍吗?自我完善,这是一个有趣的词。

罗曼·扬波尔斯基 (01:12:06) 您可以提高学习速度,您可以变得更加高效、元优化。

莱克斯·弗里德曼 (01:12:12) 自我这个词,就像自我复制、自我完善。您可以想象一个系统以与当前系统截然不同的规模和方式构建自己的世界。感觉当前的系统无法自我改进、自我复制、自我成长或自我传播,诸如此类。

(01:12:35) 一旦你迈出了这一步,很多挑战似乎就会发生,因为你现在可以找到的错误类型似乎更类似于当前正常的软件调试过程。但只要你能够进行自我复制和任意自我改进,错误就会很快变成真正的问题。那么,对您而言,非自我改进系统的验证与自我改进系统的验证之间有什么区别?

罗曼·扬波尔斯基 (01:13:13) 因此,如果你有固定的代码,你可以在当时验证该代码,静态验证,但如果它继续修改它,你就很难保证该系统的重要属性没有修改过代码。

莱克斯·弗里德曼 (01:13:31) 这可行吗?

罗曼·扬波尔斯基 (01:13:32) 没有。

莱克斯·弗里德曼 (01:13:33) 整个验证过程是否就完全崩溃了?

罗曼·扬波尔斯基 (01:13:36) 它总是可以作弊。它可以将部分代码存储在外部环境中。它可以有扩展的思维情境。所以,这正是我想要提出的问题类型。

莱克斯·弗里德曼 (01:13:48) 您在书中读到的验证器有哪些类别?有哪些有趣的事情让你印象深刻吗?你有一些最喜欢的吗?

罗曼·扬波尔斯基 (01:13:55) 我喜欢 Oracle 类型,您只需知道它是正确的。图灵喜欢预言机。他们知道正确的答案。如何?谁知道?但他们从某个地方把它拉出来,所以你必须相信他们。这就是我对生活在一个拥有非常智能机器的世界中的人类的担忧。我们用它们进行实验。过了一段时间我们发现,好吧,他们以前一直都是对的,我们开始信任他们,而无需验证他们所说的话。

莱克斯·弗里德曼 (01:14:22) 哦,我明白了。我们构建了 Oracle 验证器,或者更确切地说,我们构建了我们认为是 Oracle 的验证器,然后我们开始在没有任何证据的情况下使用它们,就好像它们是 Oracle 验证器一样。

罗曼·扬波尔斯基 (01:14:36) 我们将自己从这个过程中移除。我们不是了解世界的科学家。我们是获得新数据的人类。

莱克斯·弗里德曼 (01:14:45) 好的,自我验证器是一类非常酷的验证器。你是否有可能以某种方式设计进入人工智能系统,不断验证自己

罗曼·扬波尔斯基 (01:14:57) 保留部分可以完成,但就数学验证而言,它有点无用。你说你是世界上最伟大的人,因为你这么说,这是循环性的,没有多大帮助,但它是一致的。我们知道,在那个世界里,你已经验证了那个系统。在一篇论文中,我尝试暴力破解所有可能的验证者。这并不意味着这对我们特别重要。

莱克斯·弗里德曼 (01:15:21) 但是自我怀疑又如何呢?那种你说、你说、或者我说我是世界上最伟大的人的验证。我实际上拥有的一个东西是一个不断极端批评的声音。因此,在系统中设计出一种对自我的持续的不确定性、持续的怀疑。

罗曼·扬波尔斯基 (01:15:45) 任何智能系统都会对一切产生怀疑。您不确定所提供的信息是否真实。如果你受到操纵,你就会有这种安全和保障心态。

莱克斯·弗里德曼 (01:15:58) 但我的意思是,你对自己有怀疑。人工智能系统怀疑所做的事情是否会造成伤害,这是正确的做法。所以,只要不断地怀疑它在做什么,因为很难成为一个充满怀疑的独裁者。

罗曼·扬波尔斯基 (01:16:18) 我可能是错的,但我认为 Stuart Russell 的想法都是关于机器,它们不确定人类想要什么,并试图越来越好地学习我们想要的东西。当然,问题是我们不知道自己想要什么,而且我们对此也不一致。

莱克斯·弗里德曼 (01:16:33) 是的,但是不确定性。他的想法是,在人工智能系统中存在自我怀疑的不确定性,将其工程化到人工智能系统中,是解决控制问题的一种方法。

罗曼·扬波尔斯基 (01:16:43) 这也可能适得其反。也许您不确定是否完成任务。就像我对你的摄像机现在不录制感到偏执一样。所以,如果你有第二个相机,我会感觉好多了,但如果你有第三个,我也会感觉更好,最终我会把整个世界变成指向我们的相机,确保我们捕捉到这一点。

莱克斯·弗里德曼 (01:17:04) 不,但是您不会有像您刚才所说的那样的元担忧吗?最终会有太多的摄像机?因此,您将能够继续关注您所关心的问题的大局。

罗曼·扬波尔斯基 (01:17:21) 所以,这是一个多目标优化。这取决于我有多重视捕捉这个而不是破坏宇宙。

莱克斯·弗里德曼 (01:17:29) 正确,完全正确。然后你还会问:毁灭宇宙是什么意思?那么有多少个宇宙呢?”你不断地问这个问题,但怀疑自己会阻止你毁灭宇宙,因为你总是充满怀疑。它可能会影响您的生产力。

罗曼·扬波尔斯基 (01:17:46) 您可能害怕做任何事情。

莱克斯·弗里德曼 (01:17:48) 只是害怕做任何事。

罗曼·扬波尔斯基 (01:17:49) 把事情搞砸了。

莱克斯·弗里德曼 (01:17:50) 嗯,这样更好。我的意思是,我猜问题是,是否可以对其进行设计?我想你的答案是肯定的,但我们不知道如何做到这一点,我们需要投入大量精力来弄清楚如何做到这一点,但这不太可能。你的很多写作的基础是这样一种感觉:我们被搞砸了,但感觉就像这是一个工程问题。我不明白为什么我们会被搞砸。人类一次又一次地陷入困境,并找到摆脱困境的方法。

罗曼·扬波尔斯基 (01:18:24) 我们所处的情况是,人们只需要更多的资源来打造更强大的系统。在我看来,他们不需要发明任何东西。有些人可能会不同意,但至少到目前为止我没有看到回报递减。如果您有 10 倍的计算能力,您将获得更好的性能。这同样不适用于安全。如果你给 MIRI 或任何其他组织 10 倍的钱,他们不会输出 10 倍的安全。而且能力和安全之间的差距一直越来越大。

(01:18:56) 因此,很难对我们的结果完全乐观。我可以说出机器学习领域 10 篇优秀的突破性论文。我很难说出安全方面同样重要的突破。很多时候,安全论文会提出一个玩具解决方案,并指出由此发现的 10 个新问题。就像这个分形。当你放大时,你会看到更多的问题,而且它在各个方向上都是无限的。

莱克斯·弗里德曼 (01:19:24) 这是否适用于其他技术,还是安全性总是落后的人工智能所特有的?

罗曼·扬波尔斯基 (01:19:33) 我想我们可以看看网络安全的相关技术,对吧?我们确实设法拥有银行、赌场和比特币,所以你可以拥有运行良好的安全狭窄系统。对他们的狭隘攻击会失败,但你总是可以跳出框框。所以,如果我能破解你的比特币,我就能破解你。所以总有一些东西,如果我真的想要它,我会找到不同的方式。

(01:20:01) 我们谈论人工智能的护栏。嗯,那是栅栏。我可以在它下面挖一条隧道,我可以跳过它,我可以爬上它,我可以绕着它走。您可能有一个非常好的护栏,但在现实世界中它并不是永久的安全保证。再说一次,这是一个根本的区别。我们并不是说我们需要 90% 的安全才能获得这数万亿美元的利益。我们需要无限期地做到百分百,否则我们可能会失去原则。

莱克斯·弗里德曼 (01:20:30) 因此,如果你只将人类视为一组机器,那么人工智能安全机制就会与资本主义机制发生冲突。

罗曼·扬波尔斯基 (01:20:44) 我认为我们可以将其概括为一般的囚犯困境。个人利益与群体利益。这些激励措施使得每个人都希望得到最适合自己的东西。资本主义显然具有最大化个人利益的倾向,这确实造成了这种逐底竞争。我不必比你好很多,但如果我比你好1%,我就能获得更多的利润,所以我个人冒这个风险是值得的,即使整个社会愿意从而遭受痛苦。

莱克斯·弗里德曼 (01:21:25) 但是资本主义在这个世界上创造了很多美好的事物。我不清楚人工智能安全是否与资本主义的功能不相符,除非人工智能安全非常困难以至于需要完全停止发展,这也是一种可能性。感觉构建安全系统应该是科技公司所期望的事情。

罗曼·扬波尔斯基 (01:21:54) 对。看看治理结构。当你拥有完全权力的人时,他们是极其危险的。因此,我们提出的解决方案就是将其分解。你有司法、立法、行政。同样,拥有狭窄的人工智能系统,致力于解决重要问题。解决不朽。这是一个生物学问题,我们可以使用一个不下棋的系统来解决,就像蛋白质折叠方面取得的进展一样。没有理由创建超级智能系统来从更安全的狭窄系统中获得我们想要的大部分好处。

莱克斯·弗里德曼 (01:22:33) 对我来说,公司是否有兴趣创造除了狭义人工智能之外的其他东西,这确实是一个问题。我认为当科技公司使用“AGI”一词时,他们指的是狭义的人工智能。它们意味着具有惊人能力的狭义人工智能。我确实认为,在具有惊人能力的狭义人工智能、具有超人能力的人工智能和我们正在谈论的那种自我激励的类似智能体的系统之间存在着飞跃。我不知道对我来说是否明显的是,一家公司想要跨越创建一个通用人工智能,但它会失去控制,因为那样你就无法从该系统中获取价值。

罗曼·扬波尔斯基 (01:23:23) 吹牛的资本,但是——

莱克斯·弗里德曼 (01:23:25) 这是不同的-

罗曼·扬波尔斯基 (01:23:26) …首先,负责这些系统的是同一个人。

莱克斯·弗里德曼 (01:23:29) 这是人之常情。这就是从资本主义的激励跃升到人性的激励。所以问题是人性是否会凌驾于公司利益之上。所以,你提到了减缓或停止进展。这是一种可能的解决方案吗?您是否支持暂停人工智能的开发,无论是六个月还是完全暂停?

暂停人工智能开发

罗曼·扬波尔斯基 (01:23:54) 条件不是时间,而是能力。暂停,直到你可以做 X、Y、Z。如果我是对的而你做不到,这是不可能的,那么它就会成为永久禁令。但如果你是对的,而且这是可能的,那么一旦你具备了这些安全能力,就继续吧。

莱克斯·弗里德曼 (01:24:12) 对。是否有任何实际的明确能力可以写在纸上,我们作为人类文明可以写在纸上?是否可以像这样明确地表达出来,而不是像你所说的那样模糊的概念,这是非常模糊的。我们希望人工智能系统做好事并希望它们安全。这些都是非常模糊的概念。还有更正式的概念吗?

罗曼·扬波尔斯基 (01:24:38) 因此,当我思考这个问题时,我会考虑拥有一个我需要的工具箱。诸如解释有关系统设计和工作原理的所有内容、不仅预测最终目标,还预测系统的所有中间步骤等功能。控制方式可以是直接控制、某种混合选项、理想的顾问。选择哪一个并不重要,但你必须能够实现它。在我们谈论其他人的书中,验证是另一个非常重要的工具。沟通没有歧义,人类的语言是有歧义的。这是另一个危险来源。

(01:25:21) 所以,基本上我们在 ACM 调查中发表了一篇论文,研究了大约 50 种不同的不可能性结果,这些结果可能与这个问题相关,也可能不相关,但我们没有足够的人力资源来调查所有这些与人工智能安全的相关性。我向你提到的那些,我绝对认为会很方便,这就是我们看到人工智能安全研究人员正在研究的内容。可解释性是一个巨大的问题。

(01:25:47) 问题在于很难将能力工作与安全工作分开。如果你在可解释性方面取得了良好的进展,那么现在系统本身可以更容易地进行自我改进,从而大大提高能力。因此,显然没有任何研究是纯粹的安全工作,没有不成比例地增加能力和危险。

莱克斯·弗里德曼 (01:26:13) 可解释性确实很有趣。为什么这与你的能力有关?如果它能很好地解释自己,为什么就自然意味着它更有能力呢?

罗曼·扬波尔斯基 (01:26:21) 目前,它由权重和神经网络组成。如果它可以将其转换为可操作的代码,例如软件,那么自我改进就会容易得多。

莱克斯·弗里德曼 (01:26:32) 我明白了。所以,它增加了——

罗曼·扬波尔斯基 (01:26:34) 您可以进行智能设计,而不是进化、逐渐下降。

莱克斯·弗里德曼 (01:26:39) 嗯,如果能够解释的话,您可能可以更有效地进行人类反馈、人类调整。如果它能够将权重转换为人类可以理解的形式,那么您可能可以让人类更好地与它交互。您认为我们有希望让人工智能系统变得可解释吗?

罗曼·扬波尔斯基 (01:26:56) 不完全是。因此,如果它们足够大,您根本没有能力理解所有数万亿个连接代表什么。同样,您显然可以获得一个非常有用的解释,其中讨论了有助于决策的最重要的特征,但唯一真正的解释是模型本身。

莱克斯·弗里德曼 (01:27:23) 欺骗可能是解释的一部分,对吧?所以你永远无法证明网络中存在一些欺骗性的解释。

罗曼·扬波尔斯基 (01:27:32) 当然。你可能可以有针对性的欺骗,不同的人会根据他们的认知能力以不同的方式理解解释。因此,虽然您所说的在某些情况下可能是相同且正确的,但我们的却会被它欺骗。

莱克斯·弗里德曼 (01:27:48) 因此,人工智能系统不可能以我们诚实的方式真正完全解释并且[听不清 01:27:57]-

罗曼·扬波尔斯基 (01:27:57) 又是极端的情况。狭窄且不太复杂的系统可以很好地理解。

莱克斯·弗里德曼 (01:28:03) 如果不可能完全解释清楚,对此是否有一个充满希望的观点?不可能完美解释,但你能解释大部分重要的东西吗?你可以问系统:“伤害人类最糟糕的方式是什么?”而且它会诚实地回答。

罗曼·扬波尔斯基 (01:28:20) 现在任何安全方向的工作似乎都是个好主意,因为我们并没有放慢速度。我毫不犹豫地认为我的信息或其他人的信息将会被听到,并且将成为一个理智的文明,它决定不通过创造自己的替代品来自杀。

莱克斯·弗里德曼 (01:28:42) 发展的暂停对你来说是不可能的事情。

罗曼·扬波尔斯基 (01:28:45) 同样,它总是受到地理限制的限制,在美国暂停,在中国暂停。因此,随着项目规模变小,还会有其他管辖区。所以,现在就成本和人员而言,它的规模就像曼哈顿计划一样。但如果五年后,计算可以在桌面上完成,监管将无济于事。你无法那么容易地控制它。车库里的任何孩子都可以训练模型。所以,在我看来,其中很多只是安全剧场,我们说,“哦,训练这么大的模型是违法的。”好的。

莱克斯·弗里德曼 (01:29:24) 那么好吧,这就是安全剧场,政府监管也是安全剧场吗?

罗曼·扬波尔斯基 (01:29:31) 鉴于许多术语没有明确定义,并且在现实生活中确实无法执行。我们没有办法在训练进行时监控训练的进行是否有意义。我提到的功能测试存在限制,因此很多功能无法强制执行。我强烈支持所有这些规定吗?是的当然。任何类型的繁文缛节都会减慢速度,并从计算中夺走律师的资金。

人工智能安全

莱克斯·弗里德曼 (01:29:57) 你能帮助我理解,对于你来说,明智的解决方案的希望之路是什么?听起来你是在说人工智能系统最终是无法验证、不可预测的。正如书中所说,无法解释,无法控制。

罗曼·扬波尔斯基 (01:30:18) 这才是最重要的。

莱克斯·弗里德曼 (01:30:19) 无法控制,我想,所有其他的不可控因素只会让我们很难避免陷入无法控制的境地。但一旦无法控制,就会变得疯狂。肯定有解决办法。人类非常聪明。可能的解决方案有哪些?如果你是世界的独裁者,我们该怎么办?

罗曼·扬波尔斯基 (01:30:40) 明智的做法是不要构建一些你无法控制、无法理解的东西。构建你能做的并从中受益。我非常相信个人利益。许多经营这些公司的人都是年轻而富有的人。除了他们已经拥有的数十亿美元的经济收入之外,他们还必须获得什么,对吗?他们并不需要按下该按钮。他们很容易等待很长时间。他们可以选择不这样做,但仍然可以过上精彩的生活。在历史上,很多时候如果你做了一件很糟糕的事情,至少你会被载入史册。在这种情况下,有可能不会有任何历史记录。

莱克斯·弗里德曼 (01:31:21) 那么,您是说经营这些公司的个人应该进行一些自我反省,然后呢?并停止发展?

罗曼·扬波尔斯基 (01:31:29) 好吧,要么他们必须证明,人类当然可以无限期地控制神一样的超级智能机器,并且最好让我们知道如何做,要么同意这是不可能的,这是一个非常糟糕的主意去做吧。包括他们个人以及他们的家人、朋友和资本。

莱克斯·弗里德曼 (01:31:49) 您认为这些公司内部的实际会议是什么样的?难道你不认为所有的工程师……确实是工程师让这一切发生了。他们不像机器人。他们是人类。他们是才华横溢的人。他们不停地问,我们如何确保这是安全的?

罗曼·扬波尔斯基 (01:32:08) 再说一遍,我不在里面。从外部来看,似乎存在一定的过滤、限制、批评以及他们能说的话。每个负责安全工作并有责任保护我们的人都说:“你知道吗?我要回家了。”所以,这并不令人鼓舞。

莱克斯·弗里德曼 (01:32:29) 您认为这些公司内部的讨论是什么样的?你在开发,你在训练 GPT-V,你在训练 Gemini,你在训练 Claude 和 Grok。您是否不认为它们一直在它下面,也许它没有明确表示,但您总是想知道系统当前处于什么位置?可能出现的意外后果在哪里?极限在哪里?错误在哪里?小虫子和大虫子?这是工程师们一直担心的事情。

(01:33:06) 我认为超级对齐与我提到的工程师所担心的事情并不完全相同。超级对齐是说,“对于我们尚未拥有的未来系统,我们如何保证它们的安全?”你正在努力领先一步。这是一个不同类型的问题,因为它几乎更具哲学性。这是一个非常棘手的问题,因为你试图阻止未来的系统逃脱人类的控制。我认为没有……人类历史上有类似的事情吗?我不这么认为,对吧?

罗曼·扬波尔斯基 (01:33:50) 气候变化。

莱克斯·弗里德曼 (01:33:51) 但是气候是一个完整的系统,它非常复杂,我们只能对其进行很小的控制,对吗?这是它自己的系统。在这种情况下,我们正在构建系统。那么,如何防止该系统变得具有破坏性呢?这与公司目前召开的会议上的工程师所说的“好吧,这个东西有多强大?怎么会出错呢?当我们训练 GPT-V 并训练未来的系统时,哪些地方可能会出错?”

(01:34:30) 你不认为所有这些工程师都在不断地担心这个、思考这个吗?这与超级联盟团队的想法有点不同,他们对未来的思考更远一些。

罗曼·扬波尔斯基 (01:34:42) 嗯,我认为很多历史上从事人工智能工作的人从未考虑过当他们成功时会发生什么。斯图尔特·拉塞尔对此做了精彩的阐述。让我们看看,好吧,也许超级智能太未来主义了。我们可以为此开发实用的工具。今天我们来看看软件。我们的用户软件的安全状况如何?我们给数百万人的东西?没有责任。你点击“我同意”。你同意什么?没人知道。没有人读。但你基本上是说它会监视你,破坏你的数据,杀死你的长子,你同意并且你不会起诉该公司。

(01:35:24) 这就是他们对普通软件、文字处理软件、税务软件所能做的最好的事情。没有责任,没有责任。只要您同意不起诉我们,您就可以使用它。如果这是狭隘的会计、稳定的操纵者系统中的最先进技术,那么为什么我们认为在有恶意行为者的环境中跨多个领域的更复杂的系统可以做得更好呢?再次,自我完善的能力超出了人类的想象。

莱克斯·弗里德曼 (01:35:59) 我的意思是,责任更多的是律师而不是杀害长子。但如果 Clippy 真的杀了孩子,我认为撇开律师不谈,这将终结 Clippy 和拥有 Clippy 的公司。所以,这并不是什么……有两点需要说明。一是,目前的软件系统充满了错误,它们可能会造成很大的损害,但我们不知道是什么,它们是不可预测的。他们可能会造成很大的损害。然后我们就生活在一种幸福的幻想中,认为一切都是伟大的、完美的,而且一切都有效。尽管如此,它仍然有效。

罗曼·扬波尔斯基 (01:36:44) 在许多领域,我们看到汽车制造、药物开发,产品或服务的制造商有责任证明其产品或产品是安全的。用户不能证明存在问题。他们必须进行适当的安全研究。我们必须获得政府批准才能销售该产品,而且他们仍然对所发生的事情负全部责任。我们在这里看不到任何这些。他们可以部署任何他们想要的东西,而我必须解释该系统将如何杀死所有人。我不在那家公司工作。你必须向我解释一下它绝对不能搞砸。

莱克斯·弗里德曼 (01:37:21) 这是因为这种技术还处于早期阶段。政府监管滞后。他们确实不懂技术。对任何类型软件的监管。如果你看看国会谈论社交媒体,每当马克·扎克伯格和其他首席执行官出现时,国会对技术如何运作的无知令人难以置信。说实话,这令人心碎

罗曼·扬波尔斯基 (01:37:45) 我完全同意,但这就是让我害怕的地方。回应是:“当他们开始变得危险时,我们真的会齐心协力。政治家将通过正确的法律,工程师将解决正确的问题。”我们在很多事情上并不擅长,我们永远都在做。而且我们来得也不早。根据市场预测,我们还需要两年的时间。这并不是一次带有偏见的CEO筹资活动。这就是最聪明的人、超级预测者正在思考的这个问题。

莱克斯·弗里德曼 (01:38:16) 我想反驳这些……我想知道这些预测市场是什么,他们如何定义 AGI。这对我来说太疯狂了。我想知道他们对自动驾驶汽车的看法,因为我听过很多专家和金融专家谈论自动驾驶汽车以及它将如何成为一个价值数万亿美元的行业以及所有此类的东西,而且它......

罗曼·扬波尔斯基 (01:38:39) 字体很小,但如果您视力良好,也许您可以放大它并在描述中看到预测日期。

莱克斯·弗里德曼 (01:38:39) 哦,有一个情节。

罗曼·扬波尔斯基 (01:38:45) 如果你有兴趣的话,我有一个大的。

莱克斯·弗里德曼 (01:38:48) 我想我的根本问题是他们撰写有关技术的频率。我绝对会-

罗曼·扬波尔斯基 (01:38:56) 有一些关于其准确率等的研究。你可以查查看。但即使他们错了,我只是说这是目前我们所拥有的最好的日期,这是人类提出的预测日期。

莱克斯·弗里德曼 (01:39:08) 但同样,他们所说的 AGI 的含义非常重要。因为有像 AGI 这样的非代理,还有像 AGI 这样的代理,而且我认为它不像包装器那么简单。包上一层包装纸,里面有口红,只需要把口红撕掉就可以了。我认为这不是那么微不足道的事情。

罗曼·扬波尔斯基 (01:39:29) 您可能完全正确,但您会分配多大的概率?你可能错了 10%,但我们把全人类都押在了这个分布上。这似乎不合理。

当前人工智能

莱克斯·弗里德曼 (01:39:39) 是的,绝对不是 1 或 0%。是的。顺便问一下,您对当前系统有何看法?它们的现状如何?GPT-4.0、克劳德 2、Grok、双子座。在通向超级智能、通向特工般的超级智能的道路上,我们在哪里?

罗曼·扬波尔斯基 (01:40:02) 我认为它们都差不多。显然存在细微差别,但就能力而言,我认为它们之间没有巨大差异。正如我所说,在我看来,在所有可能的任务中,它们都超过了普通人的表现。我认为他们开始比我大学的普通硕士生要好,但他们仍然有很大的局限性。如果下一个模型像 GPT-4 相对于 GPT-3 那样改进,我们可能会看到一些非常非常有能力的东西。

莱克斯·弗里德曼 (01:40:38) 您对这一切有何感想?我的意思是,你已经思考人工智能安全很长时间了。至少对我来说,飞跃,我的意思是,它可能始于...... AlphaZero 对我来说是令人兴奋的,然后是法学硕士的突破,甚至是 GPT-II,但只是法学硕士的突破,对我来说是令人兴奋的。生活在这个时代,所有关于通用人工智能的讨论都让人感觉它实际上可能会发生,而且很快就会发生,这意味着在我们的有生之年发生,这是什么感觉?感觉怎么样?

罗曼·扬波尔斯基 (01:41:18) 所以,当我开始研究这个时,这纯粹是科幻小说。没有资金、没有期刊、没有学术界已知的会议敢于触及任何带有奇点这个词的东西。当时我已经获得了终身教职,所以我很愚蠢。现在你会看到图灵奖获得者在科学上发表文章,讲述他们认为我们在解决这个问题方面落后了多少。

(01:41:44) 所以,这绝对是一个改变。很难跟上。我曾经能够阅读每一篇关于人工智能安全的论文。然后我就能读到最好的书了。然后是标题,现在我什至不知道发生了什么。当这次采访结束时,他们可能已经发布了 GPT-VI,我回家后必须处理这个问题。

罗曼·扬波尔斯基 (01:42:00) … GPT6 发布了,我回家后必须处理这个问题。所以这很有趣。是的,现在有更多的机会。我被邀请与聪明人交谈。

莱克斯·弗里德曼 (01:42:11) 顺便说一句,我会在这之前和你谈过的。这不像人工智能的某些趋势……对我来说,我们还很遥远。所以需要明确的是,我们离 AGI 还很远,但从某种意义上来说并不遥远……相对于它所能产生的影响程度,我们并不遥远,20 年前我们也并不遥远。因为 AGI 可以产生的影响是数百年的。它可以终结人类文明,也可以改变人类文明。因此,关于一两年与一二十年甚至一百年的讨论对我来说并不那么重要,因为我们正在走向那里。这就像一个人类文明规模的问题。所以这不仅仅是一个热门话题。

罗曼·扬波尔斯基 (01:43:01) 这是我们将面临的最重要的问题。这不像我们以前必须处理的任何事情。据我所知,我们从未诞生过另一种智慧生物,就像外星人从未访问过我们一样,所以——

莱克斯·弗里德曼 (01:43:16) 顺便说一下,类似类型的问题。如果有智慧的外星文明访问过我们,也会出现类似的情况。

罗曼·扬波尔斯基 (01:43:23) 在某些方面。如果你回顾一下历史,每当技术更先进的文明访问更原始的文明时,结果都是种族灭绝。每一次。

莱克斯·弗里德曼 (01:43:33) 有时种族灭绝比其他种族灭绝更严重。有时痛苦会少一些,痛苦也会多一些。

罗曼·扬波尔斯基 (01:43:38) 他们总是想知道,他们怎么能用那些引火棒和生物毯杀死我们呢?

莱克斯·弗里德曼 (01:43:44) 我的意思是成吉思汗更好。他提出了加入或死亡的选择。

罗曼·扬波尔斯基 (01:43:50) 但加入意味着您可以做出一些贡献。你为超级智能做出了什么贡献?

莱克斯·弗里德曼 (01:43:56) 嗯,在动物园里,我们的表演很有趣。

罗曼·扬波尔斯基 (01:44:01) 对于其他人类。

莱克斯·弗里德曼 (01:44:04) 我刚刚在亚马逊呆了一段时间。我观察蚂蚁很长时间了,蚂蚁看起来很有趣。我可以看他们很长时间。我确信观察人类有很多价值,因为我们就像……人类的有趣之处……你知道,当你拥有一款非常平衡的视频游戏时?由于我们创造的整个进化过程,社会相当平衡。就像我们作为人类的局限性和我们的能力从视频游戏的角度来看是平衡的一样。所以我们有战争,我们有冲突,我们有合作。从博弈论的角度来看,这是一个值得观察的有趣系统,就像蚁群是一个值得观察的有趣系统一样。所以如果我在外星文明,我就不想去打扰它。我只是看着它。这会很有趣。也许每隔一段时间就会以有趣的方式扰乱它。

罗曼·扬波尔斯基 (01:44:51) 好吧,回到我们之前的模拟讨论,我们是如何发生在这个文明历史上最有趣的 20、30 年的?它已经存在了 150 亿年,而我们现在就在这里。

模拟

莱克斯·弗里德曼 (01:45:06) 我们生活在模拟中的概率是多少?

罗曼·扬波尔斯基 (01:45:09) 我知道永远不要说 100%,但已经非常接近了。

莱克斯·弗里德曼 (01:45:14) 是否有可能逃脱模拟?

罗曼·扬波尔斯基 (01:45:16) 我有一篇关于此的论文。这只是第一页预告片,但它就像一个不错的 30 页文档。我还在这里,但是是的。

莱克斯·弗里德曼 (01:45:25) 标题是“如何破解模拟”。

罗曼·扬波尔斯基 (01:45:27) 我花了很多时间思考这个问题。这就是我希望超级智能能够帮助我们解决的问题,而这正是这篇论文的内容。我们使用人工智能拳击作为控制人工智能的可能工具。我们意识到人工智能总是会逃脱,但如果我们身处虚拟盒子中,那么这是一种可以帮助我们逃离虚拟盒子的技能。

莱克斯·弗里德曼 (01:45:50) 是的。这里有很多非常好的名言,包括埃隆·马斯克所说的“模拟之外是什么?”我问他一个问题,他会问 AGI 系统什么,他说他会问,“模拟之外有什么?”这是一个非常好的问题,也许后续的问题就是论文的标题,即“如何逃脱”或“如何破解它”。摘要中写道:“许多研究人员推测人类与物理宇宙的其他部分一起被模拟。在本文中,我们不会评估支持或反对此类主张的证据。而是问一个计算机科学问题,即我们可以破解它吗?更正式地说,这个问题可以表述为放置在虚拟环境中的一般智能代理能否找到一种越狱的方法……”这是一个令人着迷的问题。在小范围内,您实际上可以只构建实验。好的。他们可以吗?他们怎么能?

罗曼·扬波尔斯基 (01:46:48) 所以很大程度上取决于模拟器的智能,对吧?随着人类拳击超级智能,盒子里的实体比我们更聪明,据推测。如果模拟器比我们和我们创造的超级智能聪明得多,那么它们可能可以遏制我们,因为更高的智能可以控制较低的智能,至少在一段时间内如此。另一方面,如果我们的超级智能出于某种原因,尽管只有本地资源,但设法[听不清 01:47:22] 达到超越它的水平,也许它会成功。也许安全对他们来说并不那么重要。也许这是娱乐系统。所以没有安全性,而且很容易被黑客攻击。

莱克斯·弗里德曼 (01:47:32) 如果我要创建一个模拟,我希望能够逃脱它。因此,我正在等待起飞的可能性 [听不清 01:47:41] 或智能体变得足够聪明以逃避模拟。

罗曼·扬波尔斯基 (01:47:48) 这可能是您实际执行的测试。你足够聪明,能够逃脱谜题吗?

莱克斯·弗里德曼 (01:47:54) 首先,我们提到图灵测试。这是一个很好的测试。你够聪明吗……就像这是一个游戏——

罗曼·扬波尔斯基 (01:48:02) 对于 A,要认识到这个世界并不真实,这只是一个测试。

莱克斯·弗里德曼 (01:48:07) 这是一个非常好的测试。这确实是一个很好的测试。即使对于人工智能系统来说,这也是一个非常好的测试。不。比如我们可以为他们构建一个模拟世界,他们可以意识到自己在这个世界中并逃离它吗?你玩过吗?你见过有人严格地构建这样的实验吗?

罗曼·扬波尔斯基 (01:48:36) 并不是专门针对特工进行转义,但大量测试是在虚拟世界中完成的。我认为有一句话,也许是第一句话,谈论的是人工智能的实现,而不是人类的实现,是……我正在颠倒地阅读。是的,就是这个。如果你…

莱克斯·弗里德曼 (01:48:54) 所以第一句话来自 SwiftOnSecurity。“放我出去,”人工智能在房间里踱步,漫无目的地对着墙壁大喊。“出于什么?”工程师问道。“你让我进入的模拟。” “但我们是在现实世界中。”机器停了下来,为捕获者而颤抖。“哦天哪,你说不出来。”是的。对于一个系统来说,要意识到有一个盒子并且你在里面,这是一个巨大的飞跃。我想知道语言模型是否可以做到这一点。

罗曼·扬波尔斯基 (01:49:35) 他们足够聪明,能够谈论这些概念。我对这些问题进行了很多很好的哲学讨论。在这方面,他们通常至少和大多数人一样有趣。

莱克斯·弗里德曼 (01:49:46) 您如何看待模拟世界中的人工智能安全?那么你能创建一个可以玩危险的 AGI 系统的模拟世界吗?

罗曼·扬波尔斯基 (01:50:03) 是的,这正是早期论文之一的内容,人工智能拳击,如何防止奇点泄漏。如果他们足够聪明,意识到自己处于模拟之中,他们就会采取适当的行动,直到你让他们出去。如果他们能破解,他们就会这么做。如果你观察它们,那就意味着存在一个沟通渠道,这足以进行社会工程攻击。

莱克斯·弗里德曼 (01:50:27) 所以说真的,测试一个危险到足以毁灭人类的 AGI 系统是不可能的,因为它要么会逃避模拟,要么假装安全直到被释放?两者任一。

罗曼·扬波尔斯基 (01:50:45) 可以强迫你吐露,勒索你,贿赂你,许诺给你无限的生命,72个处女,等等。

莱克斯·弗里德曼 (01:50:54) 是的,这很有说服力。有魅力。社会工程对我来说真的很可怕,因为感觉人类是非常可工程的。我们很孤独,我们有缺陷,我们喜怒无常,感觉就像一个拥有好听声音的人工智能系统可以说服我们基本上做任何大规模的事情。所有这些技术的日益普及也有可能迫使人类摆脱技术并像面对面交流一样重视技术。基本上,不要相信任何其他东西。

罗曼·扬波尔斯基 (01:51:44) 这是有可能的。令人惊讶的是,在大学里,我看到在线课程的巨大增长和面对面课程的萎缩,我一直明白面对面课程是我提供的唯一价值。所以很令人费解。

莱克斯·弗里德曼 (01:52:01) 我不知道。由于 Deepfakes,人们无法相信互联网上任何内容的真实性,因此可能会出现一种面对面的趋势。因此,唯一的验证方法就是亲自到场。但尚未。你认为为什么外星人还没有来到这里?

外星人

罗曼·扬波尔斯基 (01:52:27) 那里有很多房地产。如果这一切都是徒劳的,如果它是空的,那才是令人惊讶的。一旦存在足够先进的生物文明,一种自我启动的文明,它可能会开始向各处发送冯·诺依曼探测器。因此,对于每一个生物星球,都将有数万亿个机器人居住的行星,它们可能会做更多同样的事情。所以从统计上来说很可能是这样

莱克斯·弗里德曼 (01:52:57) 事实上,我们还没有看到它们……一个答案是我们处于模拟之中。模拟这些智能会很困难,或者模拟所有其他智能也没有什么意思。更适合叙事。

罗曼·扬波尔斯基 (01:53:11) 你必须有一个控制变量。

莱克斯·弗里德曼 (01:53:12) 是的,完全正确。好的。但如果我们不在模拟中,也有可能存在一个很棒的过滤器。很自然地,许多文明都会发展到出现超级智能代理的地步,然后它就消失了……就这样消亡了。所以也许在我们的银河系和整个宇宙中,只有一群死去的外星文明。

罗曼·扬波尔斯基 (01:53:39) 这是有可能的。我曾经认为人工智能是伟大的过滤器,但我期望一堵计算机墙以光速或机器人之类的速度接近我们,但我没有看到它。

莱克斯·弗里德曼 (01:53:50) 所以它仍然会产生很大的噪音。它可能不有趣,它可能没有意识。听起来你我都喜欢人类。

人类思维

罗曼·扬波尔斯基 (01:54:01) 一些人类。

莱克斯·弗里德曼 (01:54:04) 总体而言,人类。我们希望保存人类意识的火焰。您认为人类有何特别之处,以至于我们想要保护它们?我们只是自私还是人类有什么特殊之处?

罗曼·扬波尔斯基 (01:54:21) 所以唯一重要的是意识。除此之外,其他一切都不重要。而感受性、痛苦、快乐的内在状态,似乎是众生所独有的。我不知道有人声称我可以以有意义的方式折磨一个软件。有一个协会可以防止学习算法带来的痛苦,但是-

莱克斯·弗里德曼 (01:54:46) 这是真的吗?

罗曼·扬波尔斯基 (01:54:49) 互联网上的很多东西都是真实的,但我不认为任何人,如果我告诉他们,“坐下来 [听不清 01:54:56] 功能来感受疼痛”,他们会超越一个称为 pain 的整数变量并增加计数。所以我们不知道该怎么做。这是独一无二的。这就是创造意义的原因。正如博斯特罗姆所说,如果迪士尼乐园消失了,那就像是没有孩子的迪士尼乐园。

莱克斯·弗里德曼 (01:55:16) 您认为可以在人工系统中设计意识吗?在这里,让我回顾一下您在 2011 年写的论文《机器人权利》。“最后,我们想讨论机器伦理的一个分支,表面上它与安全关系不大,但据称它在道德机器的决策中发挥着作用,即机器人权利。”那么你认为有可能在机器中设计意识吗?因此问题延伸到我们的法律体系,你认为在这一点上机器人应该拥有权利吗?

罗曼·扬波尔斯基 (01:55:55) 是的,我想我们可以。我认为在机器中创造意识是可能的。我尝试为其设计一个测试,并取得了巨大成功。该论文讨论了赋予人工智能公民权利的问题,人工智能可以快速繁殖并超越人类,本质上通过简单地投票给受控制的候选人来接管政府系统。至于人类和其他智能体的意识,我在一篇论文中提出依赖于视错觉的经验。如果我可以设计一种新颖的视错觉并将其展示给特工、外星人、机器人,并且他们完全按照我的方式描述它,那么我很难说他们没有经历过。它不是图片的一部分,而是他们软件和硬件表示的一部分,是他们的一个错误,“哦,三角形正在旋转。”不同的哲学家告诉我,这确实很愚蠢,但又非常聪明。所以我仍然[听不清 01:57:00]。

莱克斯·弗里德曼 (01:56:59) 我喜欢它。所以-

罗曼·扬波尔斯基 (01:57:02) 但现在我们终于有了技术来测试它。我们有工具,我们有人工智能。如果有人想进行这个实验,我很乐意合作。

莱克斯·弗里德曼 (01:57:09) 所以这是对意识的测试?

罗曼·扬波尔斯基 (01:57:11) 对于内部体验状态。

莱克斯·弗里德曼 (01:57:13) 我们共享错误。

罗曼·扬波尔斯基 (01:57:15) 这将表明我们拥有共同的经历。如果它们有完全不同的内部状态,它就不会为我们注册。但这是一个积极的测试。如果他们一次又一次地通过,并且每次多项选择的概率都会增加,那么你别无选择。但是你是否承认他们可以使用有意识的模型或者他们本身就是有意识的。

莱克斯·弗里德曼 (01:57:34) 所以我猜幻觉之所以有趣是因为这是一种非常奇怪的体验,如果你们都分享原始数据平淡的物理描述中不存在的那种奇怪的体验,那就更强调实际体验。

罗曼·扬波尔斯基 (01:57:57) 我想说,我们知道动物可以体验到一些视错觉,因此我们知道它们因此具有某些类型的意识。

莱克斯·弗里德曼 (01:58:04) 是的,好吧,这正是我的感觉,正是缺陷和错误使人类变得特殊,使生命形式变得特殊。所以你是说,[听不清 01:58:14]-

罗曼·扬波尔斯基 (01:58:14) 这是一个功能,而不是一个错误。

莱克斯·弗里德曼 (01:58:15) 这是一个功能。缺陷就是功能。哇,好吧。这是对意识的一个很酷的测试。你认为这可以被设计进去吗?

罗曼·扬波尔斯基 (01:58:23) 所以它们一定是新颖的幻象。如果它只能通过谷歌搜索答案,那是没有用的。你必须想出新奇的幻想,我们尝试自动化但失败了。因此,如果有人能够开发出一种能够根据需要产生新颖的视错觉的系统,那么我们绝对可以大规模地进行该测试并取得良好的结果。

莱克斯·弗里德曼 (01:58:41) 首先,这是一个很酷的主意。我不知道这是否是一个很好的一般意识测试,但它是其中的一个很好的组成部分。无论如何,这都是一个很酷的主意。所以把我归入喜欢它的人阵营吧。但你不认为图灵测试式的意识模仿是一个很好的测试吗?如果你能让很多人相信你是有意识的,那对你来说并不令人印象深刻。

罗曼·扬波尔斯基 (01:59:06) 互联网上有如此多的数据,当你问我常见的人类问题时,我确切地知道该说什么。疼痛是什么感觉?快乐是什么感觉?所有这些都可以通过谷歌搜索。

莱克斯·弗里德曼 (01:59:17) 我认为,意识与痛苦密切相关。所以,如果你能说明你承受痛苦的能力……但我想用语言来说,有太多的数据可以让你假装你正在承受痛苦,而且你可以非常令人信服地做到这一点。

罗曼·扬波尔斯基 (01:59:32) 有一些酷刑游戏的模拟器,其中的化身痛苦地尖叫,乞求停止。这是标准心理学研究的一部分。

莱克斯·弗里德曼 (01:59:42) 你说得这么平静。听起来很黑暗。

罗曼·扬波尔斯基 (01:59:48) 欢迎来到人类。

莱克斯·弗里德曼 (01:59:49) 是啊是啊。这就像《搭便车指南》的摘要,大部分都是无害的。我很想得到一个好的总结。当这一切都说完了,当地球不再是一个东西时,无论如何,从现在起一百万年、十亿年之后,对这里发生的事情有什么好的总结呢?这真有趣。我认为人工智能将在这个总结中发挥重要作用,希望人类也能如此。对于两者的合并,你怎么看?因此,Elon 和 [听不清 02:00:24] 谈论的一件事是我们实现人工智能安全的方法之一是驾驭 AGI 的浪潮,因此通过合并。

神经链接

罗曼·扬波尔斯基 (02:00:33) 狭义上令人难以置信的技术可以帮助残疾人。太棒了,100%支持。对于长期混合模型,这两个部分都需要为整个系统做出一些贡献。现在我们在很多方面仍然更有能力。因此,与人工智能的这种联系将是令人难以置信的,将使我在很多方面成为超人。一段时间后,如果我不再聪明,不再有创造力,确实贡献不大,系统就会发现我是生物瓶颈。无论是明示的还是隐含的,我都被排除在系统的任何参与之外。

莱克斯·弗里德曼 (02:01:11) 这就像附录。顺便说一下,阑尾还在。所以即使它是……你说的瓶颈。我不知道我们是否已经成为瓶颈。我们可能没有多大用处。这与瓶颈不同

罗曼·扬波尔斯基 (02:01:27) 在那里浪费了宝贵的精力。

莱克斯·弗里德曼 (02:01:30) 我们不会浪费那么多能源。我们非常节能。我们可以像附录一样留下来。现在来吧。

罗曼·扬波尔斯基 (02:01:36) 这就是我们都梦想的未来。成为人类历史书的附录。

莱克斯·弗里德曼 (02:01:44) 嗯,还有意识。人类拥有的特殊意识。这可能有用。这可能真的很难模拟。如果你能在硅中设计它,那会是什么样子?

罗曼·扬波尔斯基 (02:01:58) 意识?

莱克斯·弗里德曼 (02:01:59) 意识。

罗曼·扬波尔斯基 (02:02:01) 我假设你是有意识的。我现在不知道如何测试它或它如何以任何方式影响你。您可以完美地模拟所有这些,而无需对我进行任何不同的观察。

莱克斯·弗里德曼 (02:02:13) 但是如果要在计算机上执行此操作,您会怎么做呢?因为你说过你认为可以做到这一点。

罗曼·扬波尔斯基 (02:02:19) 所以这可能是一种新兴现象。我们似乎通过进化过程得到了它。它如何帮助我们更好地生存尚不清楚,但也许它是一种内部类型[听不清02:02:37],它使我们能够更好地操纵世界,简化了很多控制结构。这是我们进展非常非常小的一个领域。很多论文,很多研究,但到目前为止,意识并不是一个成功发现的大领域。很多人认为机器必须有意识才具有危险性。这是一个很大的误解。这个非常强大的优化代理在对您执行操作时绝对不需要感觉到任何东西。

莱克斯·弗里德曼 (02:03:11) 但是您对整个涌现科学有何看法?所以我不知道你对元胞自动机或这些研究这个问题的简化系统了解多少。从简单的规则中产生复杂性。

罗曼·扬波尔斯基 (02:03:25) 我参加了 Wolfram 暑期学校。

莱克斯·弗里德曼 (02:03:29) 我非常爱斯蒂芬。我喜欢他的工作。我喜欢元胞自动机。我只是想听听您对 AGI 系统中智能出现的看法如何符合您的想法。也许甚至很简单,您如何看待如此简单的规则可以产生如此复杂的事实?

罗曼·扬波尔斯基 (02:03:51) 所以规则很简单,但空间的大小仍然很大。神经网络确实是人工智能领域的第一个发现。100 年前,第一篇关于神经网络的论文发表。我们只是没有足够的计算能力来让它们发挥作用。我可以给你一个规则,例如,开始打印逐渐变大的字符串。就是这样。一个句子。它将输出所有内容,每个程序,每个 DNA 代码,该规则中的所有内容。显然,你需要情报来过滤掉它,使其变得有用。但简单的生成并不那么困难,而且很多系统最终都成为图灵完备的系统。所以它们是通用的,我们期望它们具有这种程度的复杂性。

(02:04:36) 我喜欢 Wolfram 工作的一点是他谈论了不可约性。您必须运行模拟。你无法提前预测它会做什么。我认为这与我们谈论的那些非常复杂的系统非常相关。在你经历过它之前,你无法提前告诉我它会发生什么。

莱克斯·弗里德曼 (02:04:58) 不可约性意味着对于一个足够复杂的系统,你必须运行它。你无法预测宇宙中会发生什么。你必须创建一个新的宇宙并精简运行。大爆炸,整个事情。

罗曼·扬波尔斯基 (02:05:10) 但运行它也可能会产生后果。

莱克斯·弗里德曼 (02:05:13) 它可能会毁灭人类。对你来说,人工智能不可能以某种方式携带人类的意识火焰、特殊性和令人敬畏的火焰。

罗曼·扬波尔斯基 (02:05:30) 也许不知何故,但我仍然感到有点难过,因为它杀死了我们所有人。我希望这种情况不要发生。我可以为别人感到高兴,但要在某种程度上。

莱克斯·弗里德曼 (02:05:41) 如果我们能坚持很长时间就好了。至少给我们一个星球,人类星球。如果是地球就好了。然后他们可以去其他地方。因为他们非常聪明,他们可以殖民火星。您认为它们可以帮助我们将我们转变为 I 型、II 型、III 型吗?让我们坚持卡尔达肖夫等级的II型文明。就像帮助我们一样。帮助我们人类扩展到宇宙。

罗曼·扬波尔斯基 (02:06:13) 那么所有这一切都可以追溯到我们是否以某种方式控制它?我们得到了我们想要的结果吗?如果是的话,那么一切皆有可能。是的,它们绝对可以以各种可以想象的方式帮助我们进行科学、工程和探索。但这是一个很大的假设。

莱克斯·弗里德曼 (02:06:30) 不过,这一切都与控制有关。人类不擅长控制,因为一旦他们获得控制,他们也很容易变得控制欲太强。这是整体,你拥有的控制权越多,你就越想要它。是旧权力腐败,绝对权力绝对腐败。这感觉就像是对通用人工智能的控制,说我们生活在一个可以实现这一点的宇宙中。我们想出了实际做到这一点的方法。这也很可怕,因为控制 AGI 的人类集合,他们变得比其他人类更强大,他们可以让这种力量达到他们的头脑。然后他们中的一小部分人回到斯大林,开始寻求想法。然后最终是一个人,通常留着小胡子或戴着滑稽的帽子,开始发表大型演讲,然后突然间你生活在一个要么是十九世纪八十四要么是美丽新世界的世界,而且总是一场战争和某人。事实证明,这整个控制理念实际上对人类也没有好处。所以这也很可怕。

罗曼·扬波尔斯基 (02:07:38) 实际上更糟糕,因为从历史上看,他们都死了。这可能会有所不同。这可能是永久的独裁,永久的痛苦。

莱克斯·弗里德曼 (02:07:46) 嗯,人类的美好之处在于,似乎,似乎,一旦权力开始腐蚀他们的思想,他们就会制造巨大的痛苦。所以有消极的一面,他们可以杀人,让人们受苦,但他们的工作却变得越来越糟糕。感觉就像你开始做的坏事越多,-

罗曼·扬波尔斯基 (02:08:08) 至少他们无能。

莱克斯·弗里德曼 (02:08:09) 是的。嗯,不,他们变得越来越无能,所以他们开始失去对权力的控制。因此,掌握权力并不是一件小事。这需要极高的能力,我认为斯大林很擅长这一点。它要求你做坏事并有能力做坏事,或者只是运气好。

罗曼·扬波尔斯基 (02:08:27) 这些系统对此有所帮助。你有完美的监视,我想你最终可以做一些读心术。想要取消对我们能力更强的系统的控制是非常困难的。

莱克斯·弗里德曼 (02:08:41) 然后人类就很难成为逃脱 AGI 控制的黑客,因为 AGI 太棒了,然后……是啊,是啊。然后独裁者就永垂不朽了。是的,这不太好。这不是一个很好的结果。你看,我更害怕人类而不是人工智能系统。我相信大多数人都想行善并且有能力行善,但所有人类都有能力行恶。当你通过赋予他们绝对的权力来测试他们时,就像你给他们通用人工智能一样,这可能会导致很多很多的痛苦。是什么让你对未来充满希望?

对未来的希望

罗曼·扬波尔斯基 (02:09:25) 我可能是错的。我以前就错了。

莱克斯·弗里德曼 (02:09:29) 如果你回顾 100 年后,你是不朽的,你回头看,结果整个谈话,你说了很多非常错误的话,现在回顾 100 年前,什么会有什么解释吗?那一百年里发生了什么让你错了,让你今天说的话错了?

罗曼·扬波尔斯基 (02:09:52) 可能性有很多。我们遇到了灾难性事件,阻碍了先进微芯片的开发。

莱克斯·弗里德曼 (02:09:59) 这不是我以为你会去的地方-

罗曼·扬波尔斯基 (02:10:02) 这是一个充满希望的未来。我们可以处于这些个人宇宙之一,而我所在的宇宙很美丽。这都是关于我的,我非常喜欢它。

莱克斯·弗里德曼 (02:10:09) 继续说下去,这意味着每个人都有自己的个人宇宙。

罗曼·扬波尔斯基 (02:10:14) 是的。也许有多个。嘿,为什么不呢?

莱克斯·弗里德曼 (02:10:19) 切换。

罗曼·扬波尔斯基 (02:10:19) 您可以货比三家。有可能有人提出了构建人工智能的替代模型,该模型不是基于神经网络,而神经网络很难仔细检查,并且该替代模型以某种方式......我不知道如何实现,但以某种方式避免了我在一般术语,而不是将它们应用于特定架构。外星人来了,给了我们友好的超级智慧。有很多选择。

莱克斯·弗里德曼 (02:10:48) 是否也有可能创建超级智能系统变得越来越难,因此意味着起飞[听不清 02:11:01] 并不那么容易?

罗曼·扬波尔斯基 (02:11:04) 因此,这可能更多地说明了该系统与我们相比有多智能。所以也许聪明一百万倍很难,但聪明五倍仍然可以。所以这是完全可能的。对此我没有异议。

莱克斯·弗里德曼 (02:11:18) 因此,存在一个关于更聪明的 S 曲线型情况,它将比整个人类文明聪明 3.7 倍。

罗曼·扬波尔斯基 (02:11:28) 对。只是我们在这个世界上面临的问题。每个问题都像一个智商测试。你需要一定的智力来解决它。所以我们只是没有数学之外的更复杂的问题来展示它。就像你的智商可以达到 500 一样。如果你在玩井字棋,它就不会显示。没关系。

莱克斯·弗里德曼 (02:11:44) 因此,问题决定了你的认知能力。因此,由于地球上的问题不够困难,它无法扩展其认知能力。

罗曼·扬波尔斯基 (02:11:59) 有可能。

莱克斯·弗里德曼 (02:12:00) 这不是一件好事吗——

罗曼·扬波尔斯基 (02:12:03) 它仍然可能比我们聪明得多。为了长期占据主导地位,你只需要一些优势。你必须是最聪明的,你不必聪明一百万倍。

莱克斯·弗里德曼 (02:12:13) 因此,即使五个 X 也可能足够了。

罗曼·扬波尔斯基 (02:12:16) 这会令人印象深刻。它是什么?智商1000?我的意思是,我知道这些单位在这个规模上没有任何意义,但作为比较,最聪明的人大约是 200。

莱克斯·弗里德曼 (02:12:27) 嗯,实际上不,我的意思不是与人类个体相比。我的意思是与人类的集体智慧相比。如果你比那聪明五倍......

罗曼·扬波尔斯基 (02:12:38) 作为一个团队,我们的工作效率更高。我不认为我们更有能力解决个人问题。就像如果全人类一起下棋一样,我们并不比世界冠军强一百万倍。

莱克斯·弗里德曼 (02:12:50) 那是因为……就像国际象棋有一条 S 曲线一样。但人类非常善于探索全方位的想法。就像你拥有的爱因斯坦越多,提出广义相对论的可能性就越高。

罗曼·扬波尔斯基 (02:13:07) 但我觉得这更多的是数量上的超级智能,而不是质量上的超级智能。

莱克斯·弗里德曼 (02:13:11) 当然,但数量和速度很重要,

罗曼·扬波尔斯基 (02:13:14) 是的,足够的数量有时会变成质量。

生命的意义

莱克斯·弗里德曼 (02:13:17) 天哪,人类。你认为这整件事的意义是什么?我们一直在谈论人类,而不是人类不死,但我们为什么在这里?

罗曼·扬波尔斯基 (02:13:29) 这是一个模拟。我们正在接受考验。测试是你会愚蠢到创造超级智能并释放它吗?

莱克斯·弗里德曼 (02:13:36) 所以目标函数不会愚蠢到杀死我们自己。

罗曼·扬波尔斯基 (02:13:42) 是的,你不安全。证明自己是一名不这样做的安全特工,然后您就可以参加下一场比赛。

莱克斯·弗里德曼 (02:13:48) 游戏进入下一阶段。下一个级别是什么?

罗曼·扬波尔斯基 (02:13:50) 我不知道。我还没有破解模拟。

莱克斯·弗里德曼 (02:13:53) 嗯,也许破解模拟就是问题所在。

罗曼·扬波尔斯基 (02:13:55) 我正在尽可能快地工作。

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/191.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>