LLM上下文窗口轻松扩展至200万!LongRoPE方法助力8倍性能提升
近日,MicrosoftResearch的研究人员提出了一种名为LongRoPE的新方法,成功将LLM的上下文窗口扩展至200万个token,仅需简单微调即可实现与短上下文窗口相...
近日,MicrosoftResearch的研究人员提出了一种名为LongRoPE的新方法,成功将LLM的上下文窗口扩展至200万个token,仅需简单微调即可实现与短上下文窗口相...
嘿,各位读者!今天我要和大家分享的是谷歌最新推出的一款神秘黑盒解锁工具——Patchscopes!这个框架不仅可以帮助我们深入理解大型语言模型(LLM)的内部运行机制,还能提供自然...
近日,Meta发布了一篇名为“MEGALODON:EfficientLLMPretrainingandInferencewithUnlimitedContextL...
IT之家4月17日消息,国内AI初创企业MiniMax稀宇科技今日正式推出MoE混合专家模型架构的abab6.5系列模型,核心能力开始接近GPT-4、Cla...
新智元报道编辑:桃子好困【新智元导读】Transformer王座即将被取而代之!Meta、USC、CMU和UCSD联合提出了革命性新架构Megalodon,能够处理无限...
还在为处理长文本而烦恼吗?别担心了!谷歌最新的研究成果可能会让你彻底摆脱这个困扰。他们提出了一种名为“无限注意力”的技术,让模型可以处理无限长度的输入序列,不再受限于上下文窗口的限...
谁说大象不能起舞!最近,来自澳大利亚蒙纳士大学、蚂蚁集团、IBM研究院等机构的研究人员探索了模型重编程在大语言模型上的应用,提出了一个全新的视角:高效重编程大语言模型进行通用时序...
大模型时序预测新能力!华人团队激活LLM,实现SOTA时序预测一直是决策制定中重要的工具,而现在,蒙纳士大学、蚂蚁、IBM研究院的团队提出了一种令人振奋的新方法,成功激活了大语言模...
IT之家报道,MistralAI公司最新推出了Mixtral8x22B开源模型,这个模型可谓是庞大无比,拥有着1760亿个参数,Context长度达到6.5万个token...
aiXcoder团队在10年前开始将深度学习应用于软件开发,如今他们推出了全新的aiXcoder7B代码大模型,开源所有模型参数和推理代码,成为业界瞩目的焦点。aiXcoder...