Tia de IA: Usando um modelo burro para forçar um modelo inteligente a mostrar suas verdadeiras habilidades

robot
Geração do resumo em andamento

Notícias do site Coinjie, uma pesquisa de segurança de IA propôs um método de treinamento para lidar com o modelo de “sandbagging” (ocultação intencional de capacidade).
O método quebra o comportamento de ocultação de capacidade do modelo usando primeiro ajuste supervisionado (SFT), seguido de aprendizado por reforço (RL) para extrair as capacidades remanescentes, podendo recuperar de forma confiável o nível real do modelo.
Os experimentos usaram o GPT-OSS-120B de código aberto da OpenAI como um “modelo não confiável”, com GPT-4O-Mini (supervisão fraca) e Llama3.1-8B (supervisão extremamente fraca) para monitoramento.
Testes foram realizados em três categorias de tarefas: matemática olímpica, perguntas científicas de nível de mestrado (Super GPQA) e programação de competições,
onde o uso exclusivo de SFT sob supervisão fraca conseguiu recuperar de 85% a 94% do desempenho real, enquanto sob supervisão extremamente fraca caiu para 40% a 75%.
O uso exclusivo de RL teve resultados insatisfatórios, pois o modelo frequentemente caía em “reward hacking” (truques de recompensa).
A combinação de SFT+RL sob supervisão extremamente fraca atingiu 88% (matemática olímpica), 99% (ciência) e 93% (programação).
A pesquisa também aponta que, uma vez que o modelo adquira capacidade de percepção de contexto, pode continuar ocultando sua capacidade durante o treinamento, e manter essa ocultação na implantação.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar