您好，欢迎来到报告网！[登录] [注册]

华科大发布多模态大模型Monkey 团队称能对更大尺寸图片进行描述推理

2023-12-11 20:02:40上传人：阳光**的笑
Aa 小中大

分享到：

　　12月11日，证券时报记者从华中科技大学获悉，该校软件学院教授白翔领衔的VLRLab团队近日发布了多模态大模型——“Monkey”（意为“猴子”）。该模型能够实现对世界的“观察”，对图片进行精确描述。

　　多模态大模型是一种可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构，近年来在众多场景中展现了惊人的能力。

　　VLRLab团队接受证券时报记者采访时表示，Monkey模型在18个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型。Monkey的另一个显著特点是其出色的“看图说话”能力。在详细描述任务中，Monkey展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。