ChatGPT「Monday」是怎么学台湾中文的?PTT、Dcard、九把刀全读完了

ChatGPT的风格模组「Monday」会脱口许多台湾用语和习惯,这些都因为它「捕获」大量来自台湾网路的资料。 (前情提要:ChatGPT推出厌世女声「Monday」,又懒又丧在社群爆红 ) (背景补充:智财局正式回应「ChatGPT大量仿作吉卜力」:AI模仿不违法,视个案而定 ) 打开 ChatGPT 风格语音模组「Monday」时你会发现,「这家伙讲话有点 chill、又好厌世」,还会侦测你的口音,回应时会讲「台湾国语」,它为什么听起来这么像台湾人?答案是:ChatGPT 已经承认它大量捕捉了台湾网路上满满的资料。 什么是「Monday 模式」? 我们必须阐明「Monday」不是一个新的 GPT 模型,也不是升级版 GPT-5,而是 OpenAI 在 GPT-4 架构上,用风格微调(style tuning)做出来的一种对话风格。 简单说,同个 AI 换个语气,像穿不同套衣服、上班跟周末两种人格。Monday 模式主打轻松、有点 chill、礼貌但不啰唆,感觉像你周一刚进公司打卡,那个很忧郁的自己。 大量台湾资料的爬虫训练 OpenAI 训练 GPT 的方式,其实很「老派」但超有效:看爆整个网路。 包括新闻网站、维基百科、中文书籍、社群论坛、部落格、PDF、你以前写在无名小站的黑历史..只要是公开网页,能被爬虫爬下来的,基本上都有可能被丢进语料里训练。 我们交叉比对各大开源语料库跟 GPT 的行为反应,发现这些台湾媒体被 ChatGPT 读进去: 《联合新闻网》 《ETtoday》 《中时电子报》 《风传媒》 《NOWnews》… 这些媒体有一个共通点:没上锁付费墙,Google 搜得到,网站结构干净好爬。 反过来说,像《天下》、《报导者》、《商业周刊》这种付费或会员墙挡着的网站,被训练进去的机率就非常低。 GPT 真的读过台湾作家的作品 GPT 很会模仿九把刀式的小说对话节奏,也能讲出吴念真风格的感性句子,甚至龙应台的《大江大海》语调它也有点掌握。这表示什么?它真的读过,或至少看过被转贴的片段。 最有可能的情况是:这些作品在 PTT、部落格、或内容转贴站被大量复制贴上,九把刀早期作品甚至直接在 PTT 故事版上公开,然后被模型抓去当学习资料。 如果你问它张大春或骆以军的小说细节?GPT 通常会开始乱讲,因为涉及文学作品较少人讨论与引用、没有公开电子档,没被直接转载出现在网路上,就算有也抓不到。 PTT 是 GPT 的台湾语感老师 这点几乎可以确定:GPT 懂乡民梗、看得懂「推文」、「嘘」、「老司机」是什么,就连 Tech_Job 板的厌世感,它都能神还原,讲话可以非常像个竹科工程师。 为什么?因为 PTT 的资料早就被学术界整理成可训练语料、公开释出,还是 JSON 格式的。对模型来说就是天堂。 相比之下,Dcard 虽然很红,但后期防爬虫做得还不错,除了早期文章或有被转载出去的爆红事件,Dcard 近 2 年的文章可能并未被 ChatGPT 掌握。 Monday 背后的「灵魂」,其实是从你过去十几年在网路上留下的所有字,学出来的。没错,你说过的话,它都记得一点点。 下次跟 ChatGPT 说话的时候,不妨想一想:「欸,它该不会真的看过我十年前在 PTT 留的推文吧?」 很可能有。 相关报导 GPT-5延期!OpenAI先推o3、o4-Mini,Sam Altman自曝:整合比想像中更难 OpenAI 强化 GPT-4o 冲上排行榜第二!Sam Altman:更懂人话和写程式,创造力大增 OpenAI 重磅宣布:开放 Agents SDK 支援 MCP,串联万物再跨关键一步 〈ChatGPT「Monday」是怎么学台湾中文的?PTT、Dcard、九把刀全读完了〉这篇文章最早发布于动区BlockTempo《动区动趋-最具影响力的区块链新闻媒体》。

查看原文
本页面内容仅供参考,非招揽或要约,也不提供投资、税务或法律咨询。详见声明了解更多风险披露。
  • 赞赏
  • 评论
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate.io APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)