大语言模型成功的产品化,给未来增加了许多不确定。大家都在问:
短期
员工:我会不会被替代?哪些行业的工作岗位会以什么速度、什么幅度减少?我的孩子需要学习或不学什么技能?
教师:教育的意义是什么?应该培养学生什么技能?各个年龄段的学校哪些还需要存在?
创业者、投资人:有哪些商业机会?大语言模型到底是大公司操作系统里的一个功能、与现有产品对接的插件,还是它会带来全新的交互方式?
政客:社交媒体零门槛的创作、零成本和个性化的分发,打破了媒体精英对信息的垄断,同时也带来了不同群体之间叙事的分叉。这一波 AI 革命让更加逼真的多媒体内容生产成本为零。社会叙事又会怎样变化?
中期
政客:应该只有中国和美国公司有能力开发大模型。两地大模型 AI 分别和本土、海外产业链条会以什么方式结合,由此对地缘政治将产生什么新影响,在军事方面有哪些应用?失业主要集中在哪些行业?这些人可以平滑转换到其他行业吗?
经济学家:劳动和资本在价值创造中的比例是否会产生变化?过去大半个世纪的技术都偏向高技能从业者,接下来会偏向谁?或者说“高技能”是不是需要重新定义?
长期
椅子道德哲学家:大模型生成内容的过程是个黑盒,生成的内容也是以概率性而不是决定性的。所以业内人士对大模型的安全普遍表示担忧。最有名的是回形针问题,即 AI 为了优化某个目标,把手段当作了目标。而且一旦它被接入足够多核心基础设施,“断电”都无法应对。再比如,之后的 AI 应该会自己提出改进算法并基于此自己改进。到时候,人类如何了解那时候的 AI 长什么样,人类如何控制?
椅子科学哲学家:历史上都是先有技术,后有科学吗?大语言模型“有用”但理论上我们无法完全理解——工程师改进的过程相当于根据合理猜测拼乐高。火、药物、自行车这些人类历史上其他的重要发明,好像都是先有发明再有科学(模型解释)。现代高等教育因为侧重理论模型,让我们以为科学先于技术。事实上,一直是都是先有技术、后有科学解释吗?
下面我简单记录我对其他热门问题现在了解的信息、做出的猜测。两年后再来看。
大语言模型替代什么工作?能替代情感工作吗?
现在主流的经济学研究范式是从任务而不是岗位角度思考,因为一个岗位的任务可以灵活变化,不同岗位做的任务本质上可能高度重叠(例如都包括“分析数据”、“写文字总结”)。美国劳动统计局在普查中对每个岗位的具体任务有详细调查。例如,下面右侧是教师和烘焙师在做不同任务的比重。研究人员把任务分成了分析型、手工型、交互型三种。
过去几十年的机械自动化让“打包、邮寄、运输”这样的“手动任务”需要的人力大幅减少。而这一波 AI 冲击的是“分析型任务”下面大量的任务——研究、评估、设计、画图、修改、计算、编程、理解规则等任务都不再需要那么多人力。之前五个人做的事情,现在两个人可以在机器辅助下完成。
技术发展的这条路径,计算机研究人员 1980 年代就已经知道:“Moravec 悖论”说,意识以上的事情(即人成年后才会的事情)计算机做很简单,意识以下(即人刚生下来就会)的事情反而很难。
关于情感任务是否能被替代,大家想法不一。一个研究宏观经济的朋友说,过去二十年,任务中包含“分析”这个词的岗位数大幅增加、收入大幅提高,他认为,接下来,任务中包含“同情”、“关怀”这类词的岗位会大幅增加。
我倒不这么想。涉及情感的岗位里,其实也有很多任务可以被替代,因为:
情感任务(例如安慰、鼓励)很多只需要比特传输,不连接原子世界。参数数量级,或者说复杂程度,小于自动驾驶这种需要在物理世界移动的任务。
复杂情感任务的规则来自近几十年甚至近几年的社交互动而不是进化,而社交互动的数据已经在训练集。
情感任务是人需要意识才能解决的复杂问题,所以机器反而更擅长。
非医学治疗型的情感任务,容错率很高,而且用户可以低成本判断生成内容是否符合要求。所以部署场景很多,机器根据人类反馈进步的场景也很多。
我的另一项证据是互联网已经满足了一些情感需求,代替了一些原先面对面才能完成的任务。下图是美国高中最高年级学生拥有驾照、尝试过酒精、约过会、打过工的比例。
下图是美国初高中生几乎每天见朋友的比例。
只看这两张图无法解释趋势,因为同时发生的事情太多了。但很显然互联网、社交媒体、智能手机是重要因素。数字化让被动娱乐内容的数量和丰富度、主动关心和聊天对象的数量和丰富度、获得情感服务时间和地点的灵活度都大幅提高。 推广到大语言模型,它生成的图片、视频肯定不如最厉害的人类团队,但它量大、便宜、你也可以参与制作。它驱动的情感助手、机器朋友,肯定不如你最好的人类朋友、你最喜欢的人类咨询师。但它随时随地可以调用,便宜,你也可以不断给它反馈。你还可以选择让它掌握你的行为数据,这样它会知道很多可能你自己都不知道或不愿意承认的,关于你自己的事情。
一个好理解的比较可能是“博主”、“偶像”——我们这一代可能每个人都有自己关心的偶像、博主,我们日常关心他们的成长、因为他们难过而感到难过、很久没看到他们的消息会想起他们。但这种“类社交”关系人类历史上从没出现过(至少不是在这个规模和情感投射程度),老一代人无法想象。AI 朋友如果够个性化,算力等相关成本够低,我们和我们喜欢博主、追踪偶像现在的关系,可能就是下一代人和他们 AI 朋友的关系。
当然了,美国同期调查也发现更多青少年说自己更加孤单。强大的 AI 只会加剧这样的问题。但这些青少年(以及你我)在意识到自己更加孤单的情况下,也没有改变自己的行为。所以如果你相信人比较理性,那么孤单可能是我们为了便宜、多样、即时娱乐愿意付出的代价。情感关系里没法剥离的可能只剩下 1)原子世界的“看护”,即扶你下床、走路;2)肉身接触带来的感受。任务包含前者的工作不会受到冲击,反而会因为发达国家老龄化而岗位数、收入提高。后者,要看神经科学模拟这些感受的技术发展到了哪里?
最上面那张图里的“互动任务”,有些在数字化阶段已经受到巨大冲击——娱乐、教学的岗位,因为数字分发而头部从业者获利更加集中。接下来的问题,就是人类有多大程度上在意提供娱乐、教学服务的是人类,愿意为人类付多少溢价了。便宜、即时、个性化互动、多样、不断改进的机器,可能在很多场景下都好过人类。涉及到协调、谈判、管理的任务,肯定还是由人来完成,只是这些岗位确实不会有很多。
真正的智能什么时候到来?
现在业界对“弱通用人工智能”到来的预期是 2026 年。Open AI 公开的产品让这个预期大幅提前。“弱智能”的定义是机器达到一系列人类的标准化考试的 90 百分位,机器答对一系列文字、图像的题目(接近脑筋急转弯)。
我觉得下面这两个陈述同时成立:
2023 年的大语言模型、之后会出现的弱人工智能都不是真正的智能
人类经济活动中绝大多数任务不需要真正的智能,所以目前的大语言模型已经产生巨大的经济价值(或者说会毁灭现在的许多经济价值)
什么是真正的智能
不同人对智能的理解不同。我对智能的理解是能在复杂问题、少量例子上能建立极简(也就是参数很少)的模型,且在遇到新问题、新情况的时候知道应该怎样修改原有模型。
我觉得用测试人类的题目来测试机器,并把机器得高分看作机器获得智能,非常不合适:
人类记忆力相比于机器来说很差,所以人类的考试题不需要和课本例题相差太多就可以看出谁有能力建模,谁只是在死记硬背课本。机器已经看过太多例题和习题,所以如果考试卷和习题类似,它只需要简单规则匹配,不需要人类的“推理”就可以做出。
人类标准化考试的目的是区分考试的人类,所以考题难度只要足够区分人类就行,不是用来测试智能。(人类考试题每年都要更新,出题成本很高,所以人类考试题绝大多数都是课本例题的简单变化。)
测试机器应该用专门给机器出的题目,题目需要和课本例题、习题有较大变化。知名的 Monty Hall 问题,如果你现在问机器,只要你把题目稍微改一下机器就不会了,原因是课本例题有隐含假设。原版 Monty Hall 是这样的:
你面前有三扇门。一扇门背后是一辆车,其他两扇背后是羊。你选了第一扇门。节目主持人知道门背后分别有什么。节目主持人打开第三扇门,你看到门后面是羊。请问你要换选第二扇门吗?
这题的答案是应该,因为你对第二、第三扇门背后有什么掌握了更多信息。选 2 获胜的概率是选 1 的两倍。
但其实这道题还有一个隐含假设,即主持人在有选择的情况下(即你选了车的情况下),打开二或三的概率是一样的。如果这个假设不成立,那么这道题的答案不一样。这道题的几个变种:
1)主持人在你选完后不小心滑倒,意外打开了剩下两扇门中一扇。这扇门背后恰好是羊。
2)主持人很累,他只想打开最近且背后是羊的门。如果你选了第一扇门且第一扇门背后是车,主持人只会打开第二扇而不是第三扇门。
在这两个变种下,这道题的答案就变了。但 GPT-3.5(ChatGPT)和 GPT-4 都没有答对。解题思路和答案见这篇文章。
还有网友问了很多文字上看起来是 Monty Hall 但实际上根本不涉及概率或者打开门的问题,但机器因为文字相似,仍然把这个问题当作 Monty Hall 来解答,非常滑稽。
我觉得真正的智能,是在遇到新问题时知道为旧问题建的模型基于哪些假设,这些假设在新问题下是否成立。但现在,机器在进入新环境之后并不能调整。回答需要高度抽象思考的问题,例如 LeetCode 最难的问题、数学奥赛证明(甚至数学猜想证明),也完全不行。以后测试机器智能,问全新的脑筋急转弯,好过问它标准化考试题。为了防止移动测试标尺,测试人应该提前把问题写下来。但为了防止题目进入训练数据,题目不能上网。
经济活动中需要智能吗?
当然了,人类中能答对 Monty Hall 变种题目的,估计不到 0.1%。能证明出新数学猜想的,历史上也没几个。所以机器不真正智能,不妨碍它替代经济活动中的人类完成的很多任务。
数字化早期,机器只能分析结构化数据。这一波 AI 的厉害之处在于处理非结构化数据。写营销企划、分析法律案例,人的任务就是从过去非结构化的数据里面找出规则,再把这些规则应用到一个新的但是高度相似的案例中。这类任务被 AI 替代是显而易见的事。很多看起来需要创意,实际上基本是重复过去的工作,例如游戏、电影行业的很多任务,AI 也胜任。
认为“人工智能还没达到真正的智能”,和认为“人工智能会对人类社会产生巨大影响”,之间并不矛盾。
一个有趣的观察角度可能是技术被部署的速度。数字化早期的很多技术,其实部署速度并不快。现在很多员工大量的时间,仍然花在“手动把 PDF 转成 Word”、“手动制作 Excel 表格”上,哪怕技术已经可以一秒完成上述任务。我的理论是,数字化主要影响公司内部的运营,所以只要公司人工成本低,或者其他地方效率高,仍能生存。
但这一波大语言模型带来的冲击有些不同——信息的输入量会大幅增加(例如客服请求都会变成机器生成),所以信息处理不得不引入新技术。设想,哪怕在劳动力很便宜的地方,用人工客服来接机器打来的投诉,肯定接不完,必须机器对机器。如果你的客户都是通过机器在下单、描述需求,你也得用机器来对接才行。如果给你写邮件的同事都是机器,你也得用机器把他们写好的大段文字变成列表才能看完。
机器大量接入原子世界生活后,一定会带来新的问题。每个人、每家公司都会有很多几乎自主行动的 AI,这些 AI 之间不经人类直接互动,它们也在不断优化自身。最重要的是,它们产生的结果是概率的而不是确定的,产生过程也是黑盒,所以我们谁也无法预测、解释结果。这么大规模的 AI 互动会产生什么新情况,谁也不知道。很多短期的投资问题、产品问题,甚至是政策、社科人士喜欢讨论的谁被替代、什么制度能创新的问题,在巨大社会变革、终极哲学问题面前不值一提。