

端侧高效设计,性能大幅领先
Megrez-3B-Omni采用了30亿参数的黄金规模,适配手机、平板等端侧设备。其推理速度在同等精度模型中实现300%的提升,具备同时处理图片、音频和文本数据的能力。在多模态性能评测中,该模型取得了领先的综合表现。
图像理解:媲美大规模模型
在图像理解领域,Megrez-3B-Omni尽管模型规模仅为3B,但其综合性能超越了34B规模的LLaVA-NeXT-Yi-34B,成为OpenCompass、MME、MMMU、OCRBench等主流测试集上的顶尖图像理解模型。
语音理解:支持多轮对话与模态切换
Megrez-3B-Omni支持中英文语音输入及复杂的多轮对话场景,具备跨模态处理能力。例如,可对图片或文字输入进行语音提问,实现模态之间的灵活切换。
文本理解:显著降低计算成本
在文本处理方面,Megrez-3B-Omni在压缩至3B规模的同时,保留了上一代14B大模型的能力,计算成本大幅降低。在C-EVAL、MMLU、AlignBench等多个权威测试集上,该模型成为端侧领域的精度标杆。
未来展望
目前,Megrez-3B-Omni处于能力预览阶段,无问芯穹计划持续优化Megrez系列,以提升自动化水平,使用户通过简单语音指令即可完成端侧设备的设置与操作。
