搞AI的真没钱了,MoE架构成为全球关注焦点

科技 2024-04-06 12:54 阅读:31

搞AI的真没钱了,这句话或许在过去听起来有些玩笑,但如今却成为了现实。最近,一个来自MIT、普林斯顿等研究机构的华人团队发布了自己的大模型JetMoE,仅用10万美元的训练成本,就可以训练出媲美LLaMA2级别的大模型。这一消息让人们开始认识到,AI行业的确面临着资金短缺的困境。

MoE架构作为一种可以降低运营成本、提升训练效率的技术,吸引了全球大模型公司的关注。虽然MoE架构有着诸多优点,如可扩展性强、推理成本低等,但其训练难度也不容忽视。门控网络的选择可能导致部分“专家”得不到充分训练,影响模型的稳定性和性能。然而,对于AI企业来说,至少可以通过软件技术解决这些问题,而不是束手无策地面对资金困境。

在国内,MoE架构的产品进展也较为乐观。MiniMax作为最早发力MoE架构的公司之一,已经获得了一系列大客户的认可。阿里更是参与了MiniMax的融资,显示出头部资本对MoE技术路线的认可。另外,APUS最近宣布将开源其MoE大模型4.0,参数规模达到1360亿,成为国内开源模型中参数规模最大的一个。

然而,并非所有企业都选择搞MoE架构。面壁智能发布了端侧模型Minicam,以小尺寸模型超越大模型,实现了成本的降低。CEO李大海表示,成本是大模型的隐形竞争力,而面壁追求的是如何实现更合理的训练。这种小模型的尝试或许能够在一定程度上解决资金短缺的问题,但是否会导致在AGI层面的发展落后,还有待观察。

AI行业正经历着一场资金紧缺的考验。MoE架构成为全球关注的焦点,企业们在降低成本、提升效率上不断探索创新。无论是选择MoE架构还是小模型,都是为了在这个资金紧缺的时代中生存下去。在AI技术发展的道路上,商业故事将如约继续,直至GPT-5的发布。