大模型长文本能力百倍增长 成AI发展新标配

robot
摘要生成中

长文本能力: 大模型新的"标配"

随着人工智能技术的迅速发展,大模型的长文本处理能力正在成为衡量其先进性的新标准。从最初的4000 token到如今的40万token,大模型的上下文输入长度在短时间内实现了百倍增长。

目前,国内外顶级的大模型技术公司和研究机构都将扩展上下文长度作为重点升级方向。国外方面,OpenAI通过多次升级将GPT-3.5和GPT-4的上下文长度分别提升至1.6万和3.2万token。Anthropic更是一举将其模型Claude的上下文长度扩展到10万token。LongLLaMA则将上下文长度推至25.6万token甚至更多。

国内方面,大模型初创公司月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token。港中文和MIT联合开发的LongLoRA技术可将7B模型的文本长度扩展到10万token,70B模型扩展到3.2万token。

长文本能力的提升带来了多方面的益处。首先,模型可以处理更长的输入文本,从短文扩展到长篇小说乃至整本书籍。其次,长文本能力推动大模型在金融、司法、科研等专业领域的应用,为长文档摘要、阅读理解、问答等任务提供了基础。此外,长文本有助于减少模型的幻觉问题,通过提供更多上下文和细节信息来辅助模型理解和推理。

然而,扩展长文本能力也面临着挑战。主要存在文本长度、注意力机制和算力需求之间的"不可能三角"困境:文本越长,越难聚焦关键信息;注意力机制的计算量随文本长度呈平方级增长;处理长文本需要大量算力,提高了成本。

为解决这些问题,研究人员提出了多种方案,包括借助外部工具辅助处理、优化自注意力机制计算、利用模型优化等方法。尽管如此,长文本处理能力的提升仍然是一个复杂的技术挑战,需要在文本长度、注意力和算力之间寻求最佳平衡点。

总的来说,长文本能力的提升标志着大模型进入了新的发展阶段。它不仅解决了大模型早期存在的一些问题,还为推动产业应用和超级APP的落地提供了关键技术支持。未来,随着技术的不断进步,长文本处理能力有望继续提升,为人工智能在更广泛领域的应用铺平道路。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 3
  • 分享
评论
0/400
GasFeeTearsvip
· 07-18 02:56
模型还是看不懂千字文咋说
回复0
quiet_lurkervip
· 07-18 02:35
吹了半天没说具体能长多少
回复0
论坛潜水怪vip
· 07-18 02:31
又在吹能力值 差评
回复0
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)