苹果推出300亿参数多模态AI大模型MM1.5：拥有图像识别、自然语言推理能力事情经过是怎样的？

发布时间：2024-10-13 10:51:27来源：

「苹果推出300亿参数多模态AI大模型MM1.5：拥有图像识别、自然语言推理能力」!!!今天受到全网的关注度非常高，那么具体的是什么情况呢，下面大家可以一起来看看事情经过是怎样的！

快科技10月13日消息，近日，苹果公司推出了300亿参数的多模态AI大模型MM1.5，该版本是在前代MM1的架构基础上发展而来的。

该模型继续遵循数据驱动的训练原则，着重探究在不同训练周期中混合各类数据对模型性能产生的影响，相关模型文档已在Hugging Face上发布。

MM1.5提供了从10亿到300亿的多种参数规模，拥有图像识别和自然语言推理能力。

在新版本中，苹果公司的研发人员改进了数据混合策略，极大地增强了模型在多文本图像理解、视觉引用与定位以及多图像推理等方面的能力。

参考论文可知，团队在MM1.5的持续预训练阶段引入了高质量的OCR数据和合成图像描述，这显著提高了模型对包含大量文本的图像的理解水平。

此外，研究人员在监督式微调阶段深入分析了不同数据类型对模型表现的作用，优化了视觉指令微调数据的混合方式，使得即便是小规模的模型（如10亿、30亿参数版本）也能有出色的发挥，实现了更高的效率。

值得一提的是，苹果公司这次还推出了专门用于视频理解的MM1.5-Video模型和专门处理移动设备用户界面（UI）理解的MM1.5-UI模型。

其中，MM1.5-UI模型未来有望成为iOS背后的“苹果牌”AI，能够处理各种视觉引用与定位任务，还能总结屏幕上的功能，或者通过与用户的对话进行交互。

尽管MM1.5模型在多项基准测试中表现优异，但苹果团队仍计划通过进一步融合文本、图像和用户交互数据，并设计更复杂的架构，来提升模型对移动设备UI的理解能力，从而让“苹果牌”AI更强大。

以上就是关于【苹果推出300亿参数多模态AI大模型MM1.5：拥有图像识别、自然语言推理能力】的相关消息了，希望对大家有所帮助！

免责声明：本答案或内容为用户上传，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如遇侵权请及时联系本站删除。

12分扣满了还能开车吗 12360火车票官网订票怎么退票 12123直接输入车号查违章 12123随手拍违章有奖励吗 12123车辆违章怎么操作 11款轩逸经典参数配置

12分扣完了需要重新考驾照吗驾照 12368个人案件查询 12123外省违章显示不出来是什么原因 12123车辆状态显示违法未处理是怎 11款轩逸配置参数 10万左右越野车有哪些10万左右越

12分扣完了怎么办驾照被扣12分后 12378车险可以投诉吗 12123自编选号 12123车牌50选1技巧口诀 10万左右越野车有什么推荐 10款君越参数配置

苹果推出300亿参数多模态AI大模型MM1.5：拥有图像识别、自然语言推理能力 事情经过是怎样的？