搞AI的真没钱了，MoE架构成为全球关注焦点

搞AI的真没钱了，这句话或许在过去听起来有些玩笑，但如今却成为了现实。最近，一个来自MIT、普林斯顿等研究机构的华人团队发布了自己的大模型JetMoE，仅用10万美元的训练成本，就可以训练出媲美LLaMA2级别的大模型。这一消息让人们开始认识到，AI行业的确面临着资金短缺的困境。

MoE架构作为一种可以降低运营成本、提升训练效率的技术，吸引了全球大模型公司的关注。虽然MoE架构有着诸多优点，如可扩展性强、推理成本低等，但其训练难度也不容忽视。门控网络的选择可能导致部分“专家”得不到充分训练，影响模型的稳定性和性能。然而，对于AI企业来说，至少可以通过软件技术解决这些问题，而不是束手无策地面对资金困境。

在国内，MoE架构的产品进展也较为乐观。MiniMax作为最早发力MoE架构的公司之一，已经获得了一系列大客户的认可。阿里更是参与了MiniMax的融资，显示出头部资本对MoE技术路线的认可。另外，APUS最近宣布将开源其MoE大模型4.0，参数规模达到1360亿，成为国内开源模型中参数规模最大的一个。

然而，并非所有企业都选择搞MoE架构。面壁智能发布了端侧模型Minicam，以小尺寸模型超越大模型，实现了成本的降低。CEO李大海表示，成本是大模型的隐形竞争力，而面壁追求的是如何实现更合理的训练。这种小模型的尝试或许能够在一定程度上解决资金短缺的问题，但是否会导致在AGI层面的发展落后，还有待观察。

AI行业正经历着一场资金紧缺的考验。MoE架构成为全球关注的焦点，企业们在降低成本、提升效率上不断探索创新。无论是选择MoE架构还是小模型，都是为了在这个资金紧缺的时代中生存下去。在AI技术发展的道路上，商业故事将如约继续，直至GPT-5的发布。

ai 大模型神经网络