胡翼青胡欣阅：作为语言基础设施的ChatGPT

chatgpt2024-05-28 10:18:01496

先做个广告：如需代充值GP4会员及购买GPT帐号，请添加站长客服微信：gptchongzhi

ChatGPT4.0的发布掀起了一股人工智能狂潮，它的特性、功能以及带来的影响和作用受到热议。ChatGPT从1.0版本开始，就有一套成熟可行的编码方式。不断生成和完善自身语料库的能力彻底改变了ChatGPT的角色，它不再只是玩具一般的数码物，相反，它本身成为一个数字化的语言基础设施。语言基础设施的广泛使用有两个可以预见的结果：一是人类将生活在标准化语言的注视之中，二是基础设施媒介将从背景走向前景。这意味着人类自我认识的危机再度来临。

推荐使用ChatGPT中文版，国内可直接访问：https://ai.gpt86.top

ChatGPT（Chat Generative Pre-trained Ttransformer）最近在全球引发关注，它不仅频频登上热搜，而且几乎在各种职业、各个阶层都引起震荡。很多人认为，这个由对谷歌技术霸权和技术垄断不满的一群年轻人研发出来的技术，将会改变互联网和人工智能的未来。作为美国OpenAI公司推出的应用程序，它被视为“生成型预训练聊天机器人”（喻国明，2023），“通用任务助理”（张洪忠等，2023），“最新的知识新媒介”（周葆华，2023），“数字大模型”或“语言大模型”，比元宇宙有更多的生活应用场景等。如果仅仅如此，ChatGPT也谈不上是什么划时代意义的人工智能媒体。事实上，ChatGPT最重要的特性恰恰是它被人们嘲笑的1.0版本就体现出来的一种潜能：它擅长处理很长的句子与段落，这与以往所有靠模板写作的写作机器人都不一样，因为它以自己的方式生成了人类的语言。而正是这种不需要通过模式设定就能够自动生成语言的能力，使ChatGPT与所有的人工智能技术自然地发生了断代。

语言曾是人类的专利，并几乎是人类的代名词，它与人的共生性在所有技术中是最彻底的。恩斯特·卡西尔把人称之为“符号的动物”（卡西尔，1985：34），而海德格尔曾经断言“词语缺失处，无物存在”（海德格尔，2004：152）。这些观点显然在用语言标识人的本质特征：“语言是最切近于人之本质的。触处可见语言。所以用不着奇怪，一旦人有所运思地寻视于存在之物，他便立刻遇到语言，从而着眼于由语言所显示出来的东西的决定性方面来规定语言”（海德格尔，2004：1）。即使像海德格尔这样的预言者（尽管他准确预言到了哲学之后将是一个控制论的时代）都无法预料到，语言会因为机器的发展而外化和物质化，数字化的语言使一种比人类语用更为标准的“语言”出现在这个世界上，并使人将其作为自身语法是否标准的重要参照。这是一场真正意义上的语言革命，就像传播因为电报的发明而从此不再完全依赖交通基础设施，语言将因为ChatGPT而不再完全依赖人的大脑而生成，它可以被机器生成，从而真正成为一种“数码物”。

一、语言的物化：何以可能

ChatGPT之所以能生成语言，与二进制数字世界在21世纪的全面扩张有着千丝万缕的联系。计算机的数制完全不同于数学的常见数制——十进制。如果说在十进制中，数字是用于阐释对象物的话，那么在二进制中，数字则被用来代表对象物：“0和1不再作为事物的代理者被理解，而是将它们变成了系统的精髓。在系统内部，事物才显现出来。0和1实际上不再是数字，而是代表了系统自身，代表了不存在和存在”（布克哈特，2008：35）。这就必然带来这样一个后果：“二进制意味着数字技术与人的主要关系已经不再是阐释关系，技术以透明和霸道的方式嵌入并中介着人类的生活，因而也构成了技术与人的背景关系和具身关系。数字技术倒逼着人们不断采取行动改造和创造社会现实，而不是被人们用来理解头顶的星空和脚踩的大地”（陈羽峰，胡翼青，2022）。

二进制之所以能够代表对象物，与其无限的编码能力有关。而语言，尤其是基于字母表的语言，特别容易与二进制编码对接。不仅如此，由字母表所生成的表音文字，其编码方式与二进制的编码方式几乎是同一种逻辑。因此，ChatGPT从1.0版本开始，就有一套成熟可行的编码方式。每一个英文字母对应于五位数的二进制码，然后进一步对词性、成分、多义性、应用领域等进行赋值，最后对词与词的相关程度进行赋值，从而形成了从词与词关系概率的角度生成语言的能力。所有这些都说明，字母表生成的表音文字，比较容易与二进制世界相联结，因为它们基于同一种编码逻辑。如果是汉字，那么这种二进制赋值的过程将会变得异常复杂，因为汉字的编码逻辑相对比较具象，比表音文字复杂得多。

在《字母表效应》一书中，洛根有一段颇受争议的论述：“字母表产生重大影响，又促进了西方抽象、逻辑、系统的思维。这可以用来解释：为何科学兴起于西方而不是东方”（洛根，2012：5）。以十进制数学为根基的自然科学与字母表生成表音文字，在逻辑上确实是自洽的，不过自然科学的兴起确实不是字母表的后果，相反，从历史的角度来考察，自然科学的兴起在很大程度上重塑了西方各国的语言。不过洛根的思考并非毫无价值，因为确实如他所说，“拼音字母表的魔力在于，它不仅是一个文字系统，而且是一个组织信息的系统”（洛根，2012：1）。也就是说，表音文字才是一套文字系统，而字母表是这套文字系统的组织方式。在洛根看来，这套语言的组织方式和数字的组织方式是相关联的，“位置数符号和文字系统一直是紧密相关的”（洛根，2012：114）。洛根试图从元素、集合、可重复和排序这四个方面去说明，字母表其实就是个26进制的数制，是表音语言的化学元素周期表。洛根看到的问题很重要，因为这说明表音文字是一种可编程文字，与数字世界有着高度的自洽性。但洛根的视野依然局限于他作为物理学教授的知识背景中，他没有看到的是字母表与二进制的关系比十进制更亲密，因为二进制更接近于字母表的排列组合方式，所以表音文字轻而易举地成为一套二进制的数码物。

经典语言学教科书从如下四个特点区分了人类语言和动物语言：二层性、位移性、能产性、递归性（Yule， 2010：11-15）。与动物相比，人们能够不断地嵌套、补充自己想表达的含义，从而随时随地不断地表达自己，解释自己的想法。这既与二层性的结构性特征有关，也与位移性、能产性和递归性这样的生成性特征有关。正如乔治·尤尔所说，人类语言的这种反身性（reflexivity）与动物语言有明显的区别（Yule， 2010：11）。这也意味着，人的语言具有自身的独特性。自文字出现以后，语言的外在化和客观性进程拉开了序幕。然而，无论是文字还是印刷术，它们都不能模拟无限能产性和无限递归性，相反，一旦语言经由文字或印刷术的转化，其鲜活性便消失了，语言变成了静止的语用，交流变成了一种揣测。而ChatGPT则不然，它以自身的方式再现了人类语言的无限能产与递归。因此，仅仅依靠单词与单词之间出现的概率，它就可以做到与不同的人就各种主题进行人机对话。于是，作为数码物的ChatGPT不再是静止的，它具有动态性和行动力。

语言的基础设施化：从编码物到行动者

当然，仅仅将语言变成具有行动性的数码物，恐怕说不清楚ChatGPT为什么让人感受到那么大的威胁。事实上，将语言编码、物化的工作一直在进行，本雅明对机械复制可能带来的后果的分析，就是学术史上对机械复制技术带来的语言和文本的大规模物化的深入思考。对语言机器的发明也早就开始，将语言机器化的努力从冷战时期就持续推进，比如翻译机器在情报行业的创造和使用。今天，翻译软件的发展和使用已经达到相当成熟的阶段。计算机的发明使人机互动成为可能，因此追求完美的聊天机器人成为计算机科学重要的发展方向。这些年来，已经有几款民用聊天机器人（ChatBot）问世，其中苹果公司推出的智能语音助手Siri，就是一款能够联通用户手机程序并为之提供聊天服务的程序。这些技术早已将语言变成一种数码物，不过，ChatGPT并不仅仅只是一种应用性的数码物。

ChatGPT除了具有一套复杂的编码技术可以让它生成长段落的语言之外，它的成长一直与能够学习语料数据库中的海量语用紧密地联系在一起。它的1.0版本便从BooksCorpus数据集（一个涵盖7000本网络小说的数据库）学习如何造句和写作，2.0版本则开发了一款能获取高质量网页文本的网络爬虫工具。到了3.5版本，Transformer架构的大型语言模型（Large Language Model）开始成熟，使其具有开放式理解文本内容并进行深度学习的能力（令小雄等，2023）。按照这一速度发展下去，最迟到2026年，ChatGPT将穷尽所有人类最重要的优质英文语料库，届时它的英语写作能力将超过绝大多数人，成为人类英语语用的新标准。

在海量的英文语料数据库面前，ChatGPT利用人类反馈强化学习技术（reinforcement learning from human feedback）不断提高自己的语言能力，这种学习技术具体表现为三个步骤：预设初始语料库、训练偏好数据模型、自动比对微调（张洪忠等，2023）。综合来看，ChatGPT的整体特性主要分为三个方面：

一是从对话模式来看，它遵循着“用户提问—关键词识别、数据库筛选、匹配概率—生成回答”的基本机制进行运作。二是从对话内容来看，通过概率运算，它的语言生成机制近乎人的自然语言系统。它试图摆脱刻板的机器式回答，而尝试将人脑回路接入系统中，从而与用户间建立像朋友之间惯常的交往对话。三是从技术框架来看，它具有二次学习的能力，不仅能够通过用户不断细化问题、提供更多关键词来辅助搜索更多相关内容，还能够将平台上的所有内容都转化为新的学习内容，以供充实自身数据库。

不断生成和完善自身语料库的能力彻底改变了ChatGPT的角色，它不再仅仅只是个玩具一般的数码物，相反，它本身成为一个数字化的“世界”，或者用现在最火的媒介术语“媒介基础设施”来套用它，可以称它为“语言基础设施”。

基础设施是指广泛共享而不可或缺的“社会—技术”系统，并能够长期为经济生产和居民生活提供服务，例如交通、水力、通信等，它们共同的特点是可靠性、广泛共享性和不易察觉性等。在《奇云：媒介即存有》中，彼得斯提出“基础设施媒介”概念（他又将其称之为“后勤型媒介”），用来分析媒介如何成为铁路一般的基础设施。对彼得斯来说，将基础设施从工程学领域迁移到媒介研究当中，是为了将它作为一个重要隐喻，借以勘破媒介如何构成社会运维与人类存有的前提。为此，彼得斯给这个概念下了一个还算清晰的定义：“如何理解媒介对我们产生的影响？基础设施主义为我们提供的一个视角就是将其视为在本质上是后勤型的。我称具有基础性作用的媒介为‘后勤型媒介’。这类媒介的功能在于对各种基本条件和基本单元进行排序。如前所述，记录型媒介压缩时间，传输型媒介压缩空间，它们都具有杠杆作用，而后勤型媒介则在它们的基础上更进一步，具有组织和校对方向的功能，能将人和物置于网络之上，它能协调关系，又能发号施令。它整合人事，勾连万物。”（彼得斯，2020：42-43）不仅如此，彼得斯还把基础设施分成软基础设施和硬基础设施，因而他提出“网站（通讯）协议和大坝及高速公路一样，都是基础设施”（彼得斯，2020：37）。借用这种视角，我们不仅可以将互联网看作是一种基础设施媒介，而且可以把互联网看作是软基础设施和硬基础设施的集合。比如数以万计的机站和计算机硬件系统完全可以被看作互联网的硬基础设施，而平台操作系统以及后台的数据库则可以被看作是软基础设施。

随着互联网的基础设施化，它逐渐展现出远超传统基础设施的行动能力，通过将自己的触角延伸到既有的交通、金融基础设施，深刻地再造着各个传统领域的运行规则与逻辑。互联网基础设施绝不仅仅是物质工程意义上的技术系统，它将默默地服务于用户的生活方式和存在方式，颠覆和建构他们精神世界和社会生活的秩序。而且这一技术系统通常以一种背景性的方式存在着，因而我们可能很难觉察到。这一切都非常类似于基础设施在日常生活中扮演的角色，“‘能让人忘记其存在’也许是所有基础设施具有的关键特征”（彼得斯，2020：42）。

随着人工智能互联网的崛起，视频识别软件、算法软件等人工智能软件在平台上广泛应用，将各种应用软件、网络社群和用户个体组合在一起，形成了特有的时空和权力秩序。以谷歌这个互联网头部平台来说，它从搜索引擎服务起家，逐步拓展出影音、邮箱、地图导航、聊天、输入法、阅读软件等，所有应用均在谷歌个人账户下互通，实现了“一号在手，生活无忧”。用户的日常生活之所以高度依赖谷歌，是因为它能够提供全方位、多场景的服务，一旦离开谷歌，用户可以会觉得自己根本无法适应这个世界的生活。从某种意义上讲，谷歌之所以能被看作是一种媒介基础设施，就是因为它是一个能够默默提供各种互联网服务的规模巨大的应用软件数据库。

与谷歌不同，ChatGPT以另一种方式嵌入用户的生活，而这恰恰是ChatGPT的优越之处。与传统的搜索引擎不同，ChatGPT在为用户解答疑惑的同时，其AIGC（AI generated content）功能致力于为用户提供更多符合日常工作和学习场景需要的服务，例如翻译、做题、撰写文章、润色文稿、编写邮件、分析预测等。同时，ChatGPT站在前人技术基础之上，正以极快的速度与手机端和PC端的操作界面兼容：已经有用户成功将ChatGPT接入苹果语音助手Siri中，并称Siri一下变得更聪明了；而与Windows各个操作界面之间的对接，使ChatGPT很有可能成为整个微软操作系统的语言后台。语言基础设施与人类社会的互嵌度远远超过像元宇宙或者位置媒介这样的基础设施。人类社会是无法脱离语言、文字与交流而存在的，当更加成熟且庞大的GPT5.0、6.0向世界走来，正如电力系统已经蔓延到人们日常生活的方方面面，作为语言基础设施的ChatGPT也将如影随形，成为人类社会交往的语言后台。

从搜索引擎、算法到社交媒体机器人再到ChatGPT，互联网技术彰显出越来越强大的行动力。如果说媒介环境学当年只能依靠媒介的偏向来说明媒介对社会的影响，那么今天媒介作为非人行动者，其行动力已经强大到足以重构用户的主体性。马克思在100多年前曾经说过：“自动机在资本家身上获得了意识和意志”（马克思，1975：442），他想借此说明大机器技术怎么能够从资本逻辑中获得权力，从而成为行动的主体。而今天，作为语言基础设施的ChatGPT，正在借助服务于用户的语言需求，成为一个重新型构社会秩序的行动者。如果说，以前传播学以一种结构功能的静态视角来看待媒介与社会的关系，那么今天可能需要用一种行动者的动态视角来审视媒介与社会的关系。所以笔者倾向于将大众传播研究时代命名为“媒介静力学”时代，而将当下的传播研究命名为“媒介动力学”时代。

语言基础设施意味着什么？

也许讨论ChatGPT对人类意味着什么还为时过早，因为虽然大家都在热烈地关注它，但离普遍使用还有一段时间。持乐观态度的学者将视野由当下投向未来，着力探讨ChatGPT的技术性在不同行业场景下的助力，而持反面态度的学者则主要对ChatGPT引发的版权、伦理问题提出质疑。然而问题的关键并不在这里，问题的关键是语言的基础设施化让人感到ChatGPT对人类的未来构成了威胁。这种威胁来源于人对自身存在方式发生不确定性变化的不适应，也来源于人对自由意志受到其他种类行动者限制的担忧。因为，如果连语言都基础设施化了，那么还有什么不能客观化和外化呢？比如以后会不会出现基于情感的基础设施媒介呢？到那时，什么是人的本质特征？

在笔者看来，语言基础设施的广泛使用有两个目前已经可以预见的结果：其一是人类将生活在标准化语言的注视之中；其二是基础设施媒介将从背景走向前景。

一方面，作为语言基础设施，ChatGPT将作为一种语用的绝对标准而存在。对于英文世界而言，以后我们将很难看到比ChatGPT更标准的语法和更优美的语用。所以，即便什么都没有发生，人们也一定会以ChatGPT的语用作为自身语用的标准，人们的语法生成不再是自身的随心所欲，而是一种在语言基础设施凝视之下的语法生成。标准化，这一直是媒介史发展的一个重要方向。文字所建立的标准化使苏格拉底等学者感伤于口语之中孕育的创造力在文字时代走向凋零；印刷术所建立的标准化则让人意识到文字的世界仍然存有艺术的灵韵；打字机建立的标准化终于让人意识到印刷术时代人还是创作的主体，而打字机的出现只能是让“话在说人”。而这一切在ChatGPT面前不过是“小巫见大巫”，与以往的一切技术都不同，ChatGPT不是“媒介即讯息”意义上的潜在的标准化，而是明示的标准化。标准的语言包围并主宰着我们，而且，这种语言上的标准化必然预示着知识型和社会生活的进一步标准化。在ChatGPT之前，已经有不少AI语音助手问世，例如“小度”，它们采用类人合成音，尝试通过类人声增加拟人真实度。它们身上有明显的机器痕迹，因为它们只能与人做简单的问答，在触及知识盲区时会生硬地回复不知道，或让用户重新询问。而当用户使用ChatGPT4.0时，却很少出现这种情况，在GPT回答不出问题时，会“圆滑”地给出模棱两可的中立回答，被学者称为“褶子式回答”（张生，2023）。这是ChatGPT作为语言基础设施最重要的能力之一：从对话逻辑根本着手，不是简单地模拟人说话的声音，而是模拟人们脑内世界思考问题的内在逻辑顺序。然而，问题就在于，这种回答仍然不带有任何真正的人类情感。如果将来我们以这种语用作为自己说话和写文章的标准，人类的情感也将越来越淡漠，很有可能人的情感也会不可避免地走向“人工智能化”。机器越来越像人，人越来越像机器，这样的“双向奔赴”或许并非人类所愿意看到的。

基特勒关心媒介技术变革所带来的人类铭刻体系的深刻变革，而这种铭刻体系的变革带来了历史的断裂，因而他用断代话语网络来形容铭刻体系的变化。他认为，话语网络1800与话语网络1900彼此割裂，“后者在19世纪下半叶伴随着新型模拟媒介技术来临”（温斯洛普-扬，2019：41），后者的到来使一切的书写都必须符合模拟技术的标准。ChatGPT所带来的“话语网络2000”，一定会是铭刻体系的又一次重大历史断裂，由二进制世界掀起的这场数字化革命，将机械化的书写变成了数字化的书写。

另一方面，ChatGPT将从人机互动的后台，渐渐进入人们社会交往的前台，并重塑基础设施媒介与人的关系。从麦克卢汉开始，媒介性作为一种背景性得到高度重视，他的“媒介即讯息”和“媒介即人的延伸”就是这种观点的重要表征，麦克卢汉不谈内容因而也就无视媒介的居间性。因此，与所有看到媒介居间性的学者不同的是，麦克卢汉及媒介环境学的代表性学者看到的是媒介的背景性：“媒介环境的观念，是把媒介视作一种包围或弥散的物质，它不是在两点之间画一条直线连接二者，而是用一个圈包围两点，就像鱼儿在水中游动，人在空气中生存一般”（Strate， 2008）。用这种观点来解释基础设施媒介是很有说服力的，因为后者是社会秩序的安排者，往往是人类存在的背景。基础设施媒介支持着我们的社会交往，但我们却视而不见，这就是基础设施媒介的具身性。这种具身性主要源自于界面的吸引或界面的不起眼，前者可以用影院效应来加以解释，后者则跟界面本身的设计有关：“尽管基础设施结构庞大，它的界面却可以很小。这些小界面如水龙头、气泵、电源插座、计算机终端、手机或机场安检设施等，都发挥着‘门’的作用，都通向更大的和更隐蔽的系统”（彼得斯，2020：36）。这种具身性也会被当作是理所应当或自然而然而被忽视。但不管怎么说，以往的基础设施并不威胁人的主体性。

然而，ChatGPT可能注定不会是这么一个低调的基础设施媒介，它不仅默默地服务于人们的社会交往，而且也同时会在工作和学习世界里高调地扮演着引人瞩目的角色。随着其技术性能的不断提升，它不仅可以生成内容帮助人们沟通，也不仅以人机对话的方式与人们沟通，它本身也可以成为人们沟通的话题。这样一来，媒介基础设施将不仅仅是后台背景性的存在，它可以是居间性和背景性的统一，它不仅将人“浸润”其中，而且会在人与世界的几乎每一次联结中都扮演中间者的角色，而人的主体性也将因此遭遇前所未有的挑战。当人的一切“本质”都可以用概率论的方式媒介化以后，基础设施媒介的威力将不仅仅体现在物的层面，而且直接体现在人的精神层面。如果说机器化的存在者将以其独特的方式展示人的存在，那么人作为存在者又能以何种独特的方式展示存在？

很多年前，马克思曾经预测到人在机器面前的悲惨命运：“在机器上，劳动资料的运动和活动离开工人而独立了。劳动资料本身成为一种工业上的永动机，如果它不是在自己的助手——人的身上遇到一定的自然界限，即人的身体的虚弱和人的意志，它就会不停顿地进行生产。”（马克思，1975：442）在发达的技术面前，人是资本逻辑最想替代掉的对象，AI正是资本逻辑在当代的重要体现，这是我们无法回避的现实。

从功能的角度，ChatGPT为代表的AI技术当然给我们带来很多便利，但我们也该自反性地思考：在存在的层面，语言基础设施的存在对人存在的意义到底意味着什么？失去语言（或者说拥有了外在客观化语言）的人还能不能把语言作为自己存在的特征？恩斯特·卡西尔曾经宣称，认识自我是哲学研究的最高目标，他认为符号思维和符号活动是人最富代表性的特征，符号和语言中所富含的情感，绝不是“人是理性的动物”可以形容和可以代表的。卡西尔认为他用“人是符号的动物”解决了人类自我认识的危机。然而，ChatGPT和语言基础设施的出现，其实已经意味着人类自我认识的危机再度来临。

（胡翼青胡欣阅：《作为语言基础设施的ChatGPT》，2023年第6期，微信发布系节选，学术引用请务必参考原文）

本期专题

→ 黄旦：作为人类文明进程动因的媒介——从ChatGPT说开去

→ 刘海龙连晓东：新常人统治的来临：ChatGPT与传播研究

本刊唯一投稿信箱：xwjz@sumg.com.cn