Capacidade de texto longo: o novo "padrão" dos grandes modelos
Com o rápido desenvolvimento da tecnologia de inteligência artificial, a capacidade de processamento de longos textos dos grandes modelos está se tornando um novo padrão para medir sua sofisticação. Desde os iniciais 4000 tokens até os atuais 400.000 tokens, o comprimento de entrada de contexto dos grandes modelos cresceu cem vezes em um curto espaço de tempo.
Atualmente, as principais empresas de tecnologia de grandes modelos e instituições de pesquisa, tanto nacionais quanto internacionais, estão focadas na ampliação do comprimento do contexto como uma direção de atualização prioritária. No exterior, a OpenAI aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respetivamente, através de várias atualizações. A Anthropic foi ainda mais longe, expandindo o comprimento do contexto do seu modelo Claude para 100.000 tokens. O LongLLaMA levou o comprimento do contexto a 256.000 tokens ou até mais.
No âmbito nacional, a Kimi Chat, uma startup de grandes modelos lançada pela empresa "A Face Oculta da Lua", suporta a entrada de 200 mil caracteres chineses, o que equivale a cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto do modelo de 7B para 100 mil tokens e do modelo de 70B para 32 mil tokens.
A melhoria da capacidade de lidar com longos textos trouxe múltiplos benefícios. Em primeiro lugar, o modelo pode processar entradas de texto mais longas, expandindo-se de pequenos textos a romances longos e até livros inteiros. Em segundo lugar, a capacidade de lidar com longos textos impulsiona a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica, proporcionando uma base para tarefas de resumo de documentos longos, compreensão de leitura e perguntas e respostas. Além disso, longos textos ajudam a reduzir o problema de alucinação do modelo, fornecendo mais contexto e detalhes para auxiliar na compreensão e raciocínio do modelo.
No entanto, a capacidade de expandir textos longos também enfrenta desafios. Existe um dilema do "triângulo impossível" entre o comprimento do texto, o mecanismo de atenção e a demanda de poder computacional: quanto mais longo o texto, mais difícil é focar nas informações-chave; a carga de cálculo do mecanismo de atenção cresce em proporção quadrática ao comprimento do texto; processar textos longos requer uma quantidade significativa de poder computacional, aumentando os custos.
Para resolver esses problemas, os pesquisadores propuseram várias soluções, incluindo o uso de ferramentas externas para auxiliar no processamento, a otimização do cálculo do mecanismo de autoatenção e métodos de otimização de modelos. Apesar disso, a melhoria da capacidade de processamento de textos longos continua a ser um desafio técnico complexo, que requer a busca do melhor equilíbrio entre o comprimento do texto, a atenção e a capacidade computacional.
De uma forma geral, a melhoria na capacidade de lidar com textos longos marca a entrada de grandes modelos em uma nova fase de desenvolvimento. Isso não só resolve alguns problemas que os grandes modelos apresentavam no início, mas também fornece suporte técnico crucial para impulsionar a aplicação industrial e a implementação de super aplicativos. No futuro, à medida que a tecnologia continua a avançar, espera-se que a capacidade de processamento de textos longos continue a melhorar, pavimentando o caminho para a aplicação da inteligência artificial em áreas mais amplas.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
12 Curtidas
Recompensa
12
5
Compartilhar
Comentário
0/400
BearMarketMonk
· 07-21 02:25
Curto e longo é bom.
Ver originalResponder0
NftPhilanthropist
· 07-20 12:53
ser... apenas tokenize os blocos de memória e deixe a governança dao tratar da escalabilidade
Ver originalResponder0
GasFeeTears
· 07-18 02:56
O modelo ainda não consegue entender como se diz "千字文".
Ver originalResponder0
quiet_lurker
· 07-18 02:35
Soprou durante meio dia e não disse exatamente quanto pode crescer.
Ver originalResponder0
ForumLurker
· 07-18 02:31
Outra vez a falar sobre valores de habilidade, avaliação negativa.
A capacidade de longo texto dos grandes modelos subiu cem vezes, tornando-se um novo padrão para o desenvolvimento de IA.
Capacidade de texto longo: o novo "padrão" dos grandes modelos
Com o rápido desenvolvimento da tecnologia de inteligência artificial, a capacidade de processamento de longos textos dos grandes modelos está se tornando um novo padrão para medir sua sofisticação. Desde os iniciais 4000 tokens até os atuais 400.000 tokens, o comprimento de entrada de contexto dos grandes modelos cresceu cem vezes em um curto espaço de tempo.
Atualmente, as principais empresas de tecnologia de grandes modelos e instituições de pesquisa, tanto nacionais quanto internacionais, estão focadas na ampliação do comprimento do contexto como uma direção de atualização prioritária. No exterior, a OpenAI aumentou o comprimento do contexto do GPT-3.5 e do GPT-4 para 16.000 e 32.000 tokens, respetivamente, através de várias atualizações. A Anthropic foi ainda mais longe, expandindo o comprimento do contexto do seu modelo Claude para 100.000 tokens. O LongLLaMA levou o comprimento do contexto a 256.000 tokens ou até mais.
No âmbito nacional, a Kimi Chat, uma startup de grandes modelos lançada pela empresa "A Face Oculta da Lua", suporta a entrada de 200 mil caracteres chineses, o que equivale a cerca de 400 mil tokens. A tecnologia LongLoRA, desenvolvida em conjunto pela Universidade Chinesa de Hong Kong e pelo MIT, pode expandir o comprimento do texto do modelo de 7B para 100 mil tokens e do modelo de 70B para 32 mil tokens.
A melhoria da capacidade de lidar com longos textos trouxe múltiplos benefícios. Em primeiro lugar, o modelo pode processar entradas de texto mais longas, expandindo-se de pequenos textos a romances longos e até livros inteiros. Em segundo lugar, a capacidade de lidar com longos textos impulsiona a aplicação de grandes modelos em áreas profissionais como finanças, justiça e pesquisa científica, proporcionando uma base para tarefas de resumo de documentos longos, compreensão de leitura e perguntas e respostas. Além disso, longos textos ajudam a reduzir o problema de alucinação do modelo, fornecendo mais contexto e detalhes para auxiliar na compreensão e raciocínio do modelo.
No entanto, a capacidade de expandir textos longos também enfrenta desafios. Existe um dilema do "triângulo impossível" entre o comprimento do texto, o mecanismo de atenção e a demanda de poder computacional: quanto mais longo o texto, mais difícil é focar nas informações-chave; a carga de cálculo do mecanismo de atenção cresce em proporção quadrática ao comprimento do texto; processar textos longos requer uma quantidade significativa de poder computacional, aumentando os custos.
Para resolver esses problemas, os pesquisadores propuseram várias soluções, incluindo o uso de ferramentas externas para auxiliar no processamento, a otimização do cálculo do mecanismo de autoatenção e métodos de otimização de modelos. Apesar disso, a melhoria da capacidade de processamento de textos longos continua a ser um desafio técnico complexo, que requer a busca do melhor equilíbrio entre o comprimento do texto, a atenção e a capacidade computacional.
De uma forma geral, a melhoria na capacidade de lidar com textos longos marca a entrada de grandes modelos em uma nova fase de desenvolvimento. Isso não só resolve alguns problemas que os grandes modelos apresentavam no início, mas também fornece suporte técnico crucial para impulsionar a aplicação industrial e a implementação de super aplicativos. No futuro, à medida que a tecnologia continua a avançar, espera-se que a capacidade de processamento de textos longos continue a melhorar, pavimentando o caminho para a aplicação da inteligência artificial em áreas mais amplas.