边缘计算让人工智能更加人性化

尝试这个简单的练习:与亲人或同事坐下来,询问他们明年夏天的度假计划,但同意他们在你提出每个问题后,会保持沉默等待两到十秒,然后再说任何话。结果将是尴尬、缓慢、不自然的对话;一点也不闲聊或吸引人。

接下来,去 ChatGPT 询问你明年夏天想去度假的任何特定地方。你会得到类似的体验。你的每个问题和你得到的答案之间偶尔会有不自然的延迟,偶尔还会有错误的答案。如果你在商业中使用 ChatGPT 或大多数其他 AI 平台,你就会大规模地获得这种体验,而且你为此付出了高昂的代价。根据埃森哲的估计,超过一半的公司难以让他们的聊天机器人识别个人背景,这一限制可能会导致业务流失。

更自然的人性化、更少人工智能的体验将需要更具互动性、更具吸引力的体验,并且不会超出预算。

为什么要等待?

正如 Nvidia 的股价所示,人工智能已经投入了大量的计算能力来解决这个问题。是的,随着摩尔定律效应和 GPU 架构的不断增强,人工智能将会有所改进,但它们只能以合理的成本解决部分问题。当今的人工智能面临两个基本问题:

邻近性 - 人工智能服务位于大型远程数据中心,导致传播、序列化和路由延迟。根据麦肯锡的数据,大约 70% 的新数据中心需求是由人工智能推动的,但并非所有数据中心都位于城市中心。

处理 - 为了尽可能正确,人工智能会深入思考每个答案,自己扫描数据库和网络以寻找关键数据来得出结论。

人类智能是如何做到这一点的?

我们的大脑在局部范围内面临同样的问题。瞬间反应和适应能力使我们成为幸存者,并使我们登上食物链的顶端,并使我们成为优秀的沟通者,这来自于我们大脑的工作结构,在行为科学界被称为系统 1 和系统 2。

丹尼尔·卡尼曼和阿莫斯·特沃斯基在 2011 年获得诺贝尔奖的研究和随后的著作《思考,快与慢》中介绍了这一概念,该书彻底改变了行为经济学,他们将人类大脑从根本上划分为系统 1,这是一个快速思考的系统,使用简化的“启发式”进行大多数决策,以及系统 2,这是一个缓慢的深度思考系统,用于推理和概念开发。

我们的感官可以快速访问系统 1,我们在那里做出超过 95% 的决策。我们尽量避免使用系统 2,因为它是一种有限的资源,一次只能处理一件事。系统 1 的启发式方法包括本能、技能,以及偏见,这暗示了未来人工智能架构中将要单独讨论的一个问题。会话西班牙语和流利程度之间的区别在于它是在系统 1 中还是在系统 2 中。还记得学开车有多难吗?你是在系统 2 中学的,而你的大脑讨厌使用它。知道你支持哪支足球队吗?立刻知道。你已经把它存储在系统 1 的偏见中。

简而言之,人工智能在变得不那么人工化方面的一个根本限制是它完全是系统 2。

边缘人工智能

边缘有助于回答人工智能面临的一个问题,邻近性。它不会在用户I/O和“感知”之间引入延迟。正如Gartner在关于边缘计算的五大驱动因素的报告中所详述的那样,它还比本地数据中心更可靠,更X、更Y、更z。

在处理方面,边缘至少在有限的规模上与云一样具有成本效益,并且更具动态性,使用 Wasm(WebAssembly),这是一种针对效率进行了优化的二进制指令格式,并且与 C、C++ 和 Rust 等高级语言兼容编译。然而,边缘无法与云相媲美,无法成为处理深度思考任务的地方。从大脑的角度来看,边缘是系统 1 的地方,而云是系统 2 的地方。

有早期迹象表明 AI 架构正在朝这个方向发展。2024 年 8 月,我们在 Fastly 宣布了一项名为“AI Accelerator”的功能,使用了一种名为语义缓存的新功能。从根本上讲,语义缓存会“记住”对 AI 的询问的答案,重复回答语义相似的问题,而无需重新询问 AI 核心。在聊天机器人示例中,这可以减少回答时间和核心 AI 成本,这些成本是根据使用情况计量的。

下一步呢?

AI 开发的下一步显然是让边缘应用程序创建更多类似系统 1 的功能:本地技能和本地行为以类似于本能。局部近似?嗯,有时快速给出的正确答案比缓慢给出的完美答案要好。AI 需要更好地理解什么时候哪种方式更可取。

无论如何,边缘计算将是迈出下一步的关键,这样 AI 就可以对上下文做出最佳猜测,并进行更顺畅、更自然的对话,而不会产生与机器人交谈的尴尬、事务性的感觉。今天的 AI 正在过度思考许多简单的任务。这种情况必须随着时间的推移而改变,AI 才能扩展到我们所有人。

作者:彼得·亚历山大(Peter Alexander)