清华无问芯穹发布端侧开源模型,助力人工智能普及
12月16日,上海无问芯穹智能科技有限公司隆重推出端侧全模态理解的开源模型Megrez-3B-Omni。该模型专为手机、平板等端侧设备量身定制,参数规模仅为30亿,具备处理图片、音频、文本三种模态数据的能力。
高效文本理解
在文本理解方面,Megrez-3B-Omni将上一代14B大模型压缩至3B规模,显著降低计算成本并提升计算效率。该模型继承了其前代的强大文本处理能力,可用于文本分类、摘要和问答等各种自然语言处理任务。
智能语音交互
Megrez-3B-Omni支持中英文语音输入,能够处理复杂多轮对话场景。它不仅可以理解语音命令,还可以对输入图片或文本进行语音提问,实现不同模态之间的无缝切换。
精确图像理解
在图像理解方面,该模型能够识别并提取文本信息,在场景理解、OCR(光学字符识别)等任务中表现出色。它有助于端侧设备更智能地处理视觉信息,为用户带来更丰富的体验。
同步发布纯语言模型
除了全模态模型之外,无问芯穹还同步开源了纯语言版本模型Megrez-3B-Instruct。该模型专为单模态任务而设计,推理速度比同精度模型快300%,具备强大的AI搜索功能。
技术背景
无问芯穹由清华大学电子工程系教授、系主任汪玉发起成立。汪玉及其领导的NICS-EFC实验室自2008年以来一直致力于面向智能场景的软硬件联合优化技术路线。他们提出的“算法创新-编译映射-硬件架构”联合优化设计范式为端侧模型的开发奠定了坚实的基础。
联合创始人兼首席科学家戴国浩毕业于清华大学电子工程系NICS-EFC实验室,现任上海交通大学长聘教轨副教授、清源研究院人工智能设计自动化创新实验室负责人。联合创始人兼CEO夏立雪是汪玉的博士生。
端侧模型的优势
相较于云端大模型,端侧模型具有以下优势:
* 在资源有限的设备上快速部署和高效运行
* 降低模型计算和存储需求
* 提高隐私性和安全性
应用前景
Megrez-3B-Omni的发布为端侧人工智能的发展提供了强大的推动力。它将在智能家居、自动驾驶、医疗健康等领域发挥重要作用,为用户带来更加便捷、智能的生活和工作体验。
持续迭代
Megrez-3B-Omni是一个能力预览模型,无问芯穹将继续对其进行迭代。未来,用户只需给出简单的语音指令,就可完成端设备的设置或应用操作。该方案支持CPU、GPU和NPU同时推理,通过跨越软硬件层次的系统优化,额外带来最高70%的性能提升,最大化利用端侧硬件性能。
无问芯穹表示,Megrez-3B-Omni的开源发布旨在促进人工智能技术的普及,让更多的开发者能够利用端侧模型开发创新的应用程序和服务,为社会创造更多价值。
原创文章,作者:睿鸿在线,如若转载,请注明出处:https://mip.orihonor.com/2024/12/18/33282.shtml