大模型長文本能力百倍增長 成AI發展新標配

robot
摘要生成中

長文本能力: 大模型新的"標配"

隨着人工智能技術的迅速發展,大模型的長文本處理能力正在成爲衡量其先進性的新標準。從最初的4000 token到如今的40萬token,大模型的上下文輸入長度在短時間內實現了百倍增長。

目前,國內外頂級的大模型技術公司和研究機構都將擴展上下文長度作爲重點升級方向。國外方面,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將其模型Claude的上下文長度擴展到10萬token。LongLLaMA則將上下文長度推至25.6萬token甚至更多。

國內方面,大模型初創公司月之暗面推出的Kimi Chat支持輸入20萬漢字,約合40萬token。港中文和MIT聯合開發的LongLoRA技術可將7B模型的文本長度擴展到10萬token,70B模型擴展到3.2萬token。

長文本能力的提升帶來了多方面的益處。首先,模型可以處理更長的輸入文本,從短文擴展到長篇小說乃至整本書籍。其次,長文本能力推動大模型在金融、司法、科研等專業領域的應用,爲長文檔摘要、閱讀理解、問答等任務提供了基礎。此外,長文本有助於減少模型的幻覺問題,通過提供更多上下文和細節信息來輔助模型理解和推理。

然而,擴展長文本能力也面臨着挑戰。主要存在文本長度、注意力機制和算力需求之間的"不可能三角"困境:文本越長,越難聚焦關鍵信息;注意力機制的計算量隨文本長度呈平方級增長;處理長文本需要大量算力,提高了成本。

爲解決這些問題,研究人員提出了多種方案,包括借助外部工具輔助處理、優化自注意力機制計算、利用模型優化等方法。盡管如此,長文本處理能力的提升仍然是一個復雜的技術挑戰,需要在文本長度、注意力和算力之間尋求最佳平衡點。

總的來說,長文本能力的提升標志着大模型進入了新的發展階段。它不僅解決了大模型早期存在的一些問題,還爲推動產業應用和超級APP的落地提供了關鍵技術支持。未來,隨着技術的不斷進步,長文本處理能力有望繼續提升,爲人工智能在更廣泛領域的應用鋪平道路。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 5
  • 分享
留言
0/400
熊市修行僧vip
· 6小時前
短短长长挺好
回復0
NFT慈善家vip
· 20小時前
只需将内存块代币化,让DAO治理处理扩展问题
查看原文回復0
GasFeeTearsvip
· 07-18 02:56
模型还是看不懂千字文咋说
回復0
quiet_lurkervip
· 07-18 02:35
吹了半天没说具体能长多少
回復0
论坛潜水怪vip
· 07-18 02:31
又在吹能力值 差评
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)