AI新时代:超越聊天机器人的交互革命

AI快讯7天前发布 niko
7 0

人工智能技术与界面革命

人工智能技术日新月异,这让我们不禁思考,未来的人工智能操作界面将会如何演变。回顾历史,我们可以预见,这个未来绝非聊天机器人界面所能代表。人工智能需要其自身独特的交互体验。以下是对此话题的深入分析和探讨。

生成式AI的巨大变革

本人坚信生成式人工智能是技术领域内重大的变革之一,其影响力不言而喻,尤其是当与智能手机相提并论时。智能手机的普及程度可以说是前所未有的——多数人早晨醒来时第一个接触的就是智能手机,而睡前最后看的也是它。

拿智能手机与AI作比较的原因不仅仅是因为智能手机的普及。以iPhone为例,在手机浏览器流量激增的初期,许多公司都在尝试适应这一变化。大多数情况下,这意味着要适配那些沿用桌面版布局的网站成为“垂直屏幕”版本。

经过将近十年的体验发展,我们最终才明白什么是“原生”移动体验。为了实现这一目标,我们必须创造全新的交互模式:通过捏合手指进行缩放,滑动以刷新内容,拖动进行浏览。如此一来,像Instagram、Uber和Strava等应用程序才得以在“桌面优先”的格局中诞生。

现在,我们在人工智能界面上正处在同样的转折点。不过,我们遇到的挑战不是把桌面网站塞进手机屏幕,而是将人工智能功能强行适配到聊天窗口中。就像“m.facebook.com”未能抓住移动设备的真正的潜力一样,这种无处不在的聊天机器人界面也在制约AI发挥其变革力量。

聊天机器人界面的认知成本

讨论到为什么聊天机器人界面常常是错误的选择,我们需要看到其基本局限性。最直观的一点是,这样的界面会给用户带来额外的认知负担。

想象一下,有一张图包含了不同的人工智能功能,并据此来衡量两个维度:“能产生多大的影响/价值?”,“有效地使用这些功能将有多复杂?”直观来说,我们希望工具的影响够大而且认知负荷足够低。对于大型语言模型(LLM)来说,其影响是巨大的,但使用认知负荷却不小。

比如,使用ChatGPT生成代码且出现需要修复的错误,你就不得不:
– 将整个文档复制到聊天界面中或重新生成;
– 解释要修复的错误或者想要修改的代码行;
– 等待整个文档的重新生成;
– 查看变更的内容并对没有其他内容被无意修改或产生幻觉进行确认;
– 将结果复制回到代码编辑器中。

这原本应该是一个简单的编辑,却需要多步操作。如果你经常调整代码或者让ChatGPT帮忙调试,可能意味着你需要一遍一遍检查是否有幻觉或者绕过“…其余代码在此…”这种问题。

对于新用户来说,可用性的问题(或者说缺乏可用性)也很严重。目前,有时我能对新型的LLM有一定的预期,但不是每个人都有这些预期。挑战不仅在于聊天机器人界面的普遍性,而且在于它们几乎没有为用户提供任何关于其能力或局限性的提示。如果缺乏明确的用户界面指示,用户只能猜测什么可能、什么不可能。

AI界面的“直接操纵”传统

为了更好地理解为何聊天机器人的用户体验存在问题,我们需要回顾一下一个40年前的术语:直接操作界面。这一概念由Ben Schneiderman在20世纪80年代提出,它涉及以下几个关键特性:
连续的对象表示:用户可以在屏幕上看到与之互动的对象的视觉表示。
物理操作:用户不需要复杂的语法或命令,通过单击、拖动或捏合等物理动作与对象交互。
快速、增量及可逆的操作:用户可以迅速执行操作,立即查看结果,并轻松撤消或修改操作。
即时反馈:用户操作的效果马上在屏幕上显示,即时确认结果。

在现在的世界,这些包括拖放、调整窗口大小、音量滑块、捏合缩放等交互方式。它们似乎是微不足道的,但如果我们没有发掘这些发明,这些也就不会存在。

我们仍然在开发新的软件,鼓励使用新方法直接操作。例如,Figma让每个画布对象可选,并更新在拖动控制键和滑动属性时的属性。你可以全神贯注于正在设计的媒体上。

类似地,Notion采用“块”的核心概念,并用它来创建触觉的、可塑的文档。你可以拖动模块重整不同部件或转换成不同输出类型。

当前很多人工智能界面面临的问题,在于忽略了上述原则。哪些命令行得通并不明显。变更往往是要么全改完要么一点都不动,没有逐步进行且反馈不可预测且经常延迟。而且动作不容易撤销。

要明确一点,我并不是说我们要完全放弃自然语言交互方式。相反,我们需要找到对的平衡点,对话与直接操作之间。有时候,你可能希望讨论文档的结构;而有时候,你仅仅想改写一句话。

重要的是,我们需要为不同的任务选择合适的交互模型。正如Figma利用直接操作进行视觉设计,但是还会为高端用户保留命令面板一样,AI界面需要精心融合多种交互模式以及内容抽象手段。

任务与交互模型相结合

为了弄清楚如何超越聊天机器人的界面,我们可以研究在实践中不同交互模型是如何协同工作的。以AI增强的代码编辑器Cursor为例,它演示了不同的抽象层如何共存一个界面下:

  • 最低的层面:Cursor提供了逐字的代码补全。这几乎没有认知负担——无需上下文切换,不必构思提示词,也不打断工作流。
  • 更高一个抽象层:他们提供了内嵌代码生成功能。需要新编写功能或组件时,你可以用自然语言描述你要的内容,并在需要的位置直接生成。其关键在于,以“差异”(diff)形式呈现结果——你可以精确地看到新增或修改的部分,并逐个接受变更。
  • 最高层次:他们提供了侧边对话框,用于处理更复杂的任务,比如分析架构或调试问题。然而,即便是这里,也不只是简单的聊天机器人界面。AI能理解代码库上下文,引用特定文件和函数,提出可以直接预览和应用的变更建议。

重要的是,这些不仅是不同的界面——它们是针对不同任务规模合适的界面。在自动补全变量名时,你不需要依靠聊天对话;但若要理解一个复杂算法时,你可能确实需要跟机器聊天。

确保所有变更都由一个精准调校的模型筛选,生成差异,这意味着无论代码建议来自哪里,都可以通过统一的界面进行审核和接受变更。

这种“层级抽象”模式的应用当然不局限于代码编辑器。想象一下,如果人工智能写作工具采用此类原则会出现什么结果呢:

  • 字符级建议,用于文案编辑和改写
  • 句子级分析,关注论据和清晰度
  • 段落级建议,针对主题和逻辑流优化
  • 文档级反馈,评估结构和主旨
  • 所有变更以具有细化、可逆的差异对比形式呈现

Maggie Appleton探索了AI写作工具的潜力。想象一下,如果ChatGPT可以在多种编辑“角色”之间切换会怎样?或者开发一个能为收集证据或强化论点提供结构化的工具又是如何呢?

超越聊天机器人界面

好消息是,我们已经看到崭新的AI产品在实际进展。例如Shortwave,这是一款AI驱动的邮件客户端,将AI操作深度融合它的用户界面中,通过按钮、快捷键以及基于上下文的建议。而Cove,一个用于AI协作的视觉工作空间,也正在赋予AI能够直接进行操作的能力。

对基础模型开发者引入这些观点的本源性创新,我也保持乐观。比如,ChatGPT新的Canvas功能提供了非常优秀的直接操作方式,并基于是编码还是文写作提供了不同的专用工具。快速操作菜单的事例可以看出如果针对具体使用场景利用大语言模型的力量可以取得何种成果。

我深信,人工智能界面的未来不会是更好的聊天机器人,未来在于精心设计针对特定领域的工具,这些工具可以让AI的能力更直观和可操作。实现这一目标需要设计师和工程师共同学习、成长。

产品设计师需要超越聊天机器人思维范式,思考如何为特定用户量身定制AI功能。在我们仍在探索AI能做什么、且技术不断演变时,这项任务极为挑战。如何为可能出现的下个月的新功能设计界面?从用户体验看,一个更自主AI的世界又会是如何?

工程师也面临着自己的挑战。开发这些新的界面需要熟悉新兴的AI技术,包括防护措施、检索增强生成(RAG)管道、减缓幻觉问题、流式响应等。

正如我们从m.google.com过渡到Instagram和Uber一样,我们处在从通用聊天界面向人工智能原生体验转型的关键时期。这些体验未来的具体形态,时间会给我们答案,但方向已经清晰:我们需要设计可以让AI的力量更加直观、易用,并直观操作的界面。

© 版权声明

相关文章

暂无评论

暂无评论...