中国超算另辟捷径——专访中国科学院院士钱德沛
中国科学院院士钱德沛强调应用实效并不意味机器性能不重要,只是不以机器性能为唯一指标,而是把更多的力量放在软硬结合、应用优化上,以取得应用实效为硬道理算力的巨大需求刺激超算发展...
中国科学院院士钱德沛强调应用实效并不意味机器性能不重要,只是不以机器性能为唯一指标,而是把更多的力量放在软硬结合、应用优化上,以取得应用实效为硬道理算力的巨大需求刺激超算发展...
图片来源@pixabay“预训练大模型的发展为实现通用人工智能提供了可能。其中算力一定要有比较大的进步,才可能有下一代。但短期内不太可能是GPU架构本身的明显跨越,而是需要千...
机器之心报道机器之心编辑部没想到,自2012年AlexNet开启的深度学习革命已经过去了12年。而如今,我们也进入了大模型的时代。近日,知名AI研究科学家...
据知情人士透露,李飞飞因开发了ImageNet图像数据集而声名鹊起,被誉为“AI教母”,最近为SpatialIntelligence筹集了种子轮融资,投资方包括硅谷风投公司And...
大家都知道,目前的大型模型主要基于Transformer架构。Transformer的核心结构是多头自注意力模型。大型模型具有重要的能力,即上下文学习。当大型模型的参数训练完成后,...
ML-Summit2024全球机器学习技术大会在上海站圆满闭幕,各界专家学者齐聚一堂,共同探讨大模型技术的未来发展。CSDN高级副总裁、Boolan首席技术专家李建忠在主旨演讲中...
在AI领域,技术派和市场派各持己见。技术派认为长期投入大模型研发是未来趋势,而市场派则更看重商业化变现。王绍兰指出,技术与市场并非对立,而是相辅相成的。智谱AI是一家由清华大学技术...
数学应用题求解一直是小型语言模型(SLM)面临的挑战之一。以往的研究表明,要在GSM8K基准测试中实现80%以上的准确度,需要一个庞大的模型,拥有340亿个参数。为了在较小的模型...
近日,MicrosoftResearch的研究人员提出了一种名为LongRoPE的新方法,成功将LLM的上下文窗口扩展至200万个token,仅需简单微调即可实现与短上下文窗口相...
全球AI研究者们为了训练大模型而苦恼数据不足的问题,然而来自人大系的智子引擎团队却率先打破了这一难题。他们推出了具备自我更新能力的Awaker1.0,这款多模态大模型不仅能够自主...