

Meta上周推出的Llama 4 Maverick在LM Arena基准测试中表现亮眼,但这份成绩单正面临越来越严厉的审视。多位AI研究人员在社交平台X上指出,测试使用的版本与开源社区获得的版本存在技术差异。
根据Meta官方披露,参与LM Arena测试的是经过对话优化的特殊版本。这与开发者通过Llama官网获取的标准版本形成对比——后者未针对特定测试环境进行调优。这种差异直接反映在模型行为上:测试版本倾向于使用更多表情符号,且回答普遍更为冗长。
基准测试的可靠性本就存在争议。斯坦福大学2023年发布的《AI基准测试白皮书》曾指出,现有测试方法对多轮对话和复杂推理的评估仍不完善。但行业惯例是保持测试模型与发行版本的一致性,Meta此次打破常规的做法让开发者难以准确评估模型在实际应用中的表现。
更值得关注的是,这种"双版本"策略可能扭曲行业竞争格局。微软研究院首席科学家Sara Hooker评论称:"当企业开始为测试而非实际应用优化模型时,基准测试就失去了横向比较的价值。"目前Chatbot Arena组织尚未回应是否将调整评分规则以杜绝此类行为。
Meta的沉默态度加剧了质疑。截至发稿,该公司既未说明两个版本的具体差异程度,也未承诺未来会统一模型版本。对于依赖Llama系列模型的上万家企业用户而言,这种不确定性可能影响其技术选型决策。
