谷歌在开发辅助工具领域再推新举措 ,AndroidStUdio里的gemini助手迎来重要升级,此次更新后支持多模态输入功能。这一变化为开发者带来极大便利,在应用程序开发进程中,开发者可直接把图像附加到提示里,获取视觉辅助。
多模态功能最早在I/O2024大会崭露头角,升级后的Gemini能力显著提升,能够“理解简单线框,并将其转化为可用的JetpackCompose代码”。在Android Studio Narwal的Canary版本中,AskGemini字段增添了“附加图像文件”选项,且支持JPEG或PNG格式。谷歌方面给出建议,用户使用“强烈色彩对比”的图像并给出“清晰提示”,可收获更佳效果。
开发者拥有多样选择,从简单线框到高保真模型的各类屏幕截图和用户界面都能上传,还可指定预期功能。以计算器设计为例,开发者能要求“使交互和计算按预期工作”。
将视觉设计转变为功能性UI代码有一些典型提示。比如“针对所提供的此图像,编写Android JetpackCompose代码以制作尽可能接近此图像的屏幕。确保包含导入、使用Material3并记录代码”;还有“对于提供的这张图片,编写AndroidJetpack Compose代码以制作尽可能接近此图片的屏幕,在颜色上发挥创意。使交互和计算按预期进行。确保包含导入、使用Material3并记录代码”。
谷歌将Gemini定位为提供“初始设计框架”的工具,其生成的代码往往需要进一步编辑与调整。常见的改进方向包括确保正确导入可绘制对象和图标等。谷歌提议将生成的代码视作高效起点,以此加快UI开发工作流程。
不仅如此,Gemini的视觉分析功能可助力识别和解决错误。开发者“上传有问题的UI的屏幕截图,Gemini将分析该图像并提出潜在的解决方案”,若附加相关代码片段,还能获得更精准的帮助。
值得一提的是,Android Studio中的Gemini还支持上传架构图并获取解释或文档,这与此前在I/O大会上展示的Gemini Astra眼镜功能类似。