谷歌Gemini助手上新：多模态输入，解锁UI开发新姿势

AI快讯1年前 (2025)发布 niko

谷歌在开发辅助工具领域再推新举措 ，AndroidStUdio里的gemini助手迎来重要升级，此次更新后支持多模态输入功能。这一变化为开发者带来极大便利，在应用程序开发进程中，开发者可直接把图像附加到提示里，获取视觉辅助。

多模态功能最早在I/O2024大会崭露头角，升级后的Gemini能力显著提升，能够“理解简单线框，并将其转化为可用的JetpackCompose代码”。在Android Studio Narwal的Canary版本中，AskGemini字段增添了“附加图像文件”选项，且支持JPEG或PNG格式。谷歌方面给出建议，用户使用“强烈色彩对比”的图像并给出“清晰提示”，可收获更佳效果。

开发者拥有多样选择，从简单线框到高保真模型的各类屏幕截图和用户界面都能上传，还可指定预期功能。以计算器设计为例，开发者能要求“使交互和计算按预期工作”。

将视觉设计转变为功能性UI代码有一些典型提示。比如“针对所提供的此图像，编写Android JetpackCompose代码以制作尽可能接近此图像的屏幕。确保包含导入、使用Material3并记录代码”；还有“对于提供的这张图片，编写AndroidJetpack Compose代码以制作尽可能接近此图片的屏幕，在颜色上发挥创意。使交互和计算按预期进行。确保包含导入、使用Material3并记录代码”。

谷歌将Gemini定位为提供“初始设计框架”的工具，其生成的代码往往需要进一步编辑与调整。常见的改进方向包括确保正确导入可绘制对象和图标等。谷歌提议将生成的代码视作高效起点，以此加快UI开发工作流程。

不仅如此，Gemini的视觉分析功能可助力识别和解决错误。开发者“上传有问题的UI的屏幕截图，Gemini将分析该图像并提出潜在的解决方案”，若附加相关代码片段，还能获得更精准的帮助。

值得一提的是，Android Studio中的Gemini还支持上传架构图并获取解释或文档，这与此前在I/O大会上展示的Gemini Astra眼镜功能类似。

# AI快讯

文章版权归作者所有，未经允许请勿转载。