Como é que o ChatGPT "Monday" aprendeu o chinês de Taiwan? Leu tudo sobre PTT, Dcard e Jiubadao.

Question

O módulo de estilo do ChatGPT "Monday" borra muitas frases e expressões idiomáticas taiwanesas porque "captura" muito material da rede taiwanesa. (Sinopse: ChatGPT lançou a voz feminina cansada do mundo "Monday", preguiçosa e perdida na comunidade para se tornar popular) (Suplemento de antecedentes: O IP Bureau respondeu oficialmente a "ChatGPT é um grande número de imitações de Ghibli": A imitação de IA não é ilegal, dependendo do caso) Quando você abre o módulo de voz no estilo ChatGPT "Monday", você descobrirá que "esse cara está um pouco frio e cansado do mundo", e detetará seu sotaque, e falará "mandarim taiwanês" em resposta, por que soa tão parecido com taiwanês? A resposta: o ChatGPT admitiu que captura muitos dados na web taiwanesa. O que é o "Modo Segunda-feira"? Devemos esclarecer que "Monday" não é um novo modelo GPT, nem uma versão atualizada do GPT-5, mas um estilo de diálogo feito pela OpenAI com ajuste de estilo na arquitetura GPT-4. Simplificando, a mesma IA muda de tom, como usar diferentes conjuntos de roupas, ir ao trabalho e aos fins de semana. O modo segunda-feira é descontraído, um pouco frio, educado, mas não detalhado, e parece que você acabou de fazer check-in na empresa na segunda-feira, e você está muito melancólico. Um rastreador com muitos dados taiwaneses treina a OpenAI para treinar GPT, o que na verdade é muito "old-school", mas super eficaz: ver toda a rede explodir. Incluindo sites de notícias, Wikipédia, livros chineses, fóruns sociais, blogs, PDFs, histórias negras que você costumava escrever em sites sem nome. Desde que seja uma página da Web pública, aqueles que podem ser rastreados por rastreadores são basicamente propensos a serem jogados no corpus para treinamento. Comparamos as reações comportamentais dos principais corpora de código aberto e GPT, e descobrimos que essas mídias taiwanesas foram lidas pelo ChatGPT: "United News Network" "ETtoday" "Zhongshi Electronic News" "Wind Media" "NOWnews"... Esses meios de comunicação têm uma coisa em comum: não há paywall bloqueado, pesquisas no Google e a estrutura do site é limpa e fácil de escalar. Por outro lado, sites como Tianxia, The Report e BusinessWeek que são pagos ou bloqueados por paredes de membros têm uma chance muito baixa de serem treinados. GPT realmente leu as obras de escritores taiwaneses GPT é muito bom em imitar o ritmo de diálogos de romance no estilo de nove facas, e também pode dizer frases sentimentais no estilo de Wu Nianzhen, e até mesmo o tom de Long Yingtai "O Grande Rio e o Mar" Tem um pouco de maestria. O que isso significa? Ele realmente leu, ou pelo menos viu o clipe repostado. Muito provavelmente, esses trabalhos foram fortemente copiados e colados em PTT, blogs ou sites de repostagem de conteúdo, e os primeiros trabalhos de Nine Knives foram até publicados diretamente em storyboards PTT, e então capturados por modelos como materiais de aprendizagem. Se você perguntar sobre os detalhes do romance de Zhang Dachun ou Luo Yijun? O GPT geralmente começa a falar bobagens, porque as obras literárias raramente são discutidas e citadas, não há arquivos eletrônicos públicos, elas não são diretamente reimpressas na Internet e, mesmo que sejam, não podem ser capturadas. PTT é o professor de sentido taiwanês do GPT Isso é quase certo: GPT entende o terrier dos moradores, pode entender o que é "tweet", "shh", "old driver", até mesmo o sentido cansado do mundo da placa Tech\_Job, pode ser restaurado, e o discurso pode ser muito parecido com um engenheiro de bambu. Porquê? Porque os dados do PTT há muito tempo são reunidos pela comunidade acadêmica em um corpus treinável, divulgado publicamente ou em formato JSON. É o paraíso para o modelo. Em contraste, embora o Dcard seja muito popular, mas o anti-crawler posterior esteja indo bem, exceto para os primeiros artigos ou eventos populares que foram reimpressos, os artigos do Dcard nos últimos 2 anos podem não ser dominados pelo ChatGPT. A "alma" por trás da segunda-feira é realmente aprendida com todas as palavras que você deixou na Internet nos últimos dez anos. Isso mesmo, tudo o que você disse, lembra um pouco. Da próxima vez que você falar com o ChatGPT, pense nisso: "Huh, não deveria ter visto meu tweet no PTT dez anos atrás?" Muito provavelmente sim. Histórias relacionadas GPT-5 adiado! OpenAI primeiro empurra o3, o4-Mini, Sam Altman autoexposto: integração é mais difícil do que imaginado OpenAI fortalece GPT-4o correu para o segundo lugar! Sam Altman: Melhor compreensão das pessoas e escrever programas, criatividade aumentou muito OpenAI anunciado: Open Agents SDK suporta MCP, conectando tudo a outro passo chave 〈Como o ChatGPT "Monday" aprendeu chinês taiwanês? PTT, Dcard e Nine Knives foram todos lidos" Este artigo foi publicado pela primeira vez no "Dynamic Trend - The Most Influential Blockchain News Media" da BlockTempo.