# 长文本能力成为大模型厂商新"标配"大模型正以惊人的速度提升其文本处理能力,从最初的4000 token扩展到目前的40万token。长文本处理能力似乎已成为衡量大模型厂商实力的新标准。目前,国内外顶级大模型公司和研究机构都将扩展上下文长度作为重点升级方向。OpenAI的GPT系列模型经过多次升级,上下文长度从4千增至3.2万token。Anthropic更是一举将上下文长度提升至10万token。国内的月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token。长文本能力的提升意味着模型可以处理更长的输入文本,增强了阅读理解能力。从最初只能读完一篇短文,到现在可以处理一本长篇小说。这不仅扩展了模型的应用场景,也为金融、法律、科研等专业领域的智能化升级提供了可能。然而,文本长度并非越长越好。研究表明,模型支持更长上下文输入与效果提升并不能直接画等号。更重要的是模型对上下文内容的有效利用。月之暗面创始人杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量相关,而执行步骤数即上下文长度。长文本技术既可以解决大模型早期的一些问题,也是推进产业落地的关键技术之一。目前,长文本技术在信息提取、代码生成、角色扮演等方面展现出强大潜力。但在实际应用中仍存在一些问题,如无法联网获取最新信息、生成过程无法暂停修改等。长文本技术面临"不可能三角"困境:文本长短、注意力和算力三者难以兼顾。这主要源于Transformer结构中自注意力机制的计算量随上下文长度呈平方级增长。为解决这一困境,目前主要有三种方案:1. 借助外部工具辅助处理长文本2. 优化自注意力机制计算3. 利用模型优化的一般方法虽然长文本的"不可能三角"困境暂时无解,但这也为大模型厂商指明了探索方向:在文本长短、注意力和算力三者之间寻找最佳平衡点,以处理足够信息的同时兼顾注意力计算与算力成本限制。
大模型长文本处理成新标配 挑战与机遇并存
长文本能力成为大模型厂商新"标配"
大模型正以惊人的速度提升其文本处理能力,从最初的4000 token扩展到目前的40万token。长文本处理能力似乎已成为衡量大模型厂商实力的新标准。
目前,国内外顶级大模型公司和研究机构都将扩展上下文长度作为重点升级方向。OpenAI的GPT系列模型经过多次升级,上下文长度从4千增至3.2万token。Anthropic更是一举将上下文长度提升至10万token。国内的月之暗面推出的Kimi Chat支持输入20万汉字,约合40万token。
长文本能力的提升意味着模型可以处理更长的输入文本,增强了阅读理解能力。从最初只能读完一篇短文,到现在可以处理一本长篇小说。这不仅扩展了模型的应用场景,也为金融、法律、科研等专业领域的智能化升级提供了可能。
然而,文本长度并非越长越好。研究表明,模型支持更长上下文输入与效果提升并不能直接画等号。更重要的是模型对上下文内容的有效利用。
月之暗面创始人杨植麟认为,大模型的上限由单步能力和执行步骤数共同决定,其中单步能力与参数量相关,而执行步骤数即上下文长度。长文本技术既可以解决大模型早期的一些问题,也是推进产业落地的关键技术之一。
目前,长文本技术在信息提取、代码生成、角色扮演等方面展现出强大潜力。但在实际应用中仍存在一些问题,如无法联网获取最新信息、生成过程无法暂停修改等。
长文本技术面临"不可能三角"困境:文本长短、注意力和算力三者难以兼顾。这主要源于Transformer结构中自注意力机制的计算量随上下文长度呈平方级增长。
为解决这一困境,目前主要有三种方案:
虽然长文本的"不可能三角"困境暂时无解,但这也为大模型厂商指明了探索方向:在文本长短、注意力和算力三者之间寻找最佳平衡点,以处理足够信息的同时兼顾注意力计算与算力成本限制。