这项由阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)的Fan Zhou、Zengzhi Wang等研究团队完成的突破性研究发表于2025年4月 ...
比如DeepSeekMath使用了1200亿个Token的数学数据,而Qwen-2.5-Math更是使用了1万亿个Token。 相比之下,现有的开源数学数据集规模最大的也只有几百亿Token,质量也难以保证。