大语言模型与多模态基础模型的成熟催生了具备自主感知、实时推理与行动执行能力的AI Agent。本文将AI Agent对直播电商的嵌入界定为一次"交互基础设施的范式转换"——从人类中心的人—人实时共在,转向Agent中介的人—机—人三元非对称沟通。基于技术能动性光谱(Spectral Technological Agency, STA)理论框架,本文识别了Agent嵌入直播的三个操作层级(辅助增强、平行交互、自主运营),并在每一层级上提出了可实证检验的研究命题。在理论层面,本文作出了三项贡献:(1) 提出了"信任转译"(trust translation)概念,描述了消费者信任标的从人类主播向Agent交互本身的系统性迁移;(2) 构建了"超在"(hyper-presence)与"共在"(co-presence)的类型学差异,揭示了Agent式交互的"完美响应—主体失落"悖论;(3) 从劳动过程理论出发,论证了AI Agent并未消除情感劳动,而是将其从表演性劳动转移为训练数据层面的隐性劳动,同时系统性地重构了平台—主播之间的剩余价值分配结构。文章最后从"分层问责"(layered accountability)原则出发,提出了一个以代理层级与风险等级为双轴的治理框架。
关键词 AI Agent;直播电商;技术能动性;信任转译;超在;数字劳动;算法治理
直播电商在过去五年间完成了从"流量红利驱动"向"效率与体验驱动"的范式转型。在这一转型过程中,AI Agent——具备自主感知、推理与行动能力的智能系统——的规模化部署是一个尚被学术话语体系充分忽视却又至关重要的制度性事实。截至2024年底,国内主流平台(抖音、快手、淘宝直播)已广泛部署AI数字人与交互Agent。以抖音为例,其"静默直播间"——即无人值守、由AI Agent全权驱动的直播场景——在2024年第四季度的日均开播场次已突破120万场(抖音电商开放平台,2024)。
图1 中国主要直播平台AI Agent部署场次增长趋势(2022–2025E)
这一演变不仅是一个技术部署规模的问题,更是一个关乎底层交互结构根本变局的理论问题。直播电商的核心价值主张——主播的人格化信任与社交临场感——正在经历前所未有的冲击:当AI Agent在无人值守时段完整执行选品、讲解、实时互动与转化闭环的全链路操作时,"主播"这一角色的本质被根本性质疑。
基于上述产业现实与理论断裂,本文提出三个层次递进的研究问题:
RQ1(描述—分析层): AI Agent以何种技术架构与操作逻辑嵌入直播产业的核心环节?不同嵌入层次之间存在怎样的递进关系?
RQ2(理论—解释层): Agent的介入如何从底层改变了直播交互的结构——从"人—人"共在转向"人—机—人"三元互动?这一转变对消费者信任、决策行为与行业劳动结构产生了何种系统性影响?
RQ3(规范—规制层): 现行法规框架能否有效回应Agent作为"准交互主体"所衍生的责任归属、透明度与消费者保护问题?
本文的学术贡献体现在三个方面:第一,提出技术能动性光谱(STA)框架,将能动性概念操作化为四个连续维度(主动性、适配性、执行性、不透明性);第二,提出"信任转译"(trust translation)概念,阐释消费者信任从主播人格向交互体验本身的系统性迁移机制;第三,构建"分层问责"(layered accountability)模型,为监管政策设计提供理论工具。
直播电商研究的核心理论范式是社会临场感(social presence)。Short, Williams & Christie (1976) 将临场感定义为媒介环境中"与他人同在"的感觉。Lu等(2016)和Sun等(2019)的研究已充分证明,社会临场感是直播场景中驱动购买意愿的关键中介变量。然而,这一研究传统暗含一个未被充分追问的前提——临场感的"产生者"必须是人类主体。当AI Agent的实时响应在行为表现上足以模拟乃至超越人类的交互质量时,临场感的来源问题便产生了根本性的理论张力。
"计算机是社会行动者"(CASA)范式(Nass & Moon, 2000)为本研究提供了关键的理论起点。CASA实验表明,人类会自动将社会性启发式规则(礼貌、互惠、人格归因)应用于计算机系统。然而,CASA研究存在三个局限性:(1) 实验多为单次会话,缺乏对重复交互场景中信任演化的考察;(2) 交互场景为任务导向型,而非商业劝说型;(3) 未能区分不同能动性水平的Agent对用户行为的不同影响。本文的STA框架旨在弥补第三个局限。
在数字劳动理论脉络中,Duffy (2017) 提出的"抱负劳动"(aspirational labour)与Chen (2021) 对中国直播主播情感劳动的分析构成了重要的分析起点。与此同时,算法管理(algorithmic management)研究(Kellogg, Valentine & Christin, 2020)揭示了平台算法如何通过引导、评价与惩戒机制控制平台劳动者。AI Agent的出现使数字劳动理论面临一个全新的理论挑战:当Agent自主执行完整的直播交互闭环,它同时替代了人类主播的表演性劳动,又将"管理"功能内嵌于自身的模型参数之中。本文将此称为算法替代(algorithmic substitution)——平台—劳动关系的质变阶段。
图2 直播行业劳动形态的演变谱系
本文将技术能动性(technological agency)定义为:人工系统在不完全依赖设计时预设的情况下,独立感知环境、基于上下文进行推理并执行目标导向行动的能力。这一能力不是二分变量,而是一个由四个连续维度构成的光谱:
D1: 主动性(Initiative)——Agent在无需外部触发的情况下主动发起交互的程度。低主动性:仅响应式应答;高主动性:主动引入话题、提问与建议。
D2: 适配性(Adaptivity)——Agent根据实时交互上下文调整自身行为的程度。低适配性:固定脚本;高适配性:逐用户、逐会话的动态策略调节。
D3: 执行性(Executivity)——Agent输出的行为是否具有直接的经济后果(如定价、发券、成交)。低执行性:仅建议;高执行性:直接执行交易。
D4: 不透明性(Opacity)——Agent的推理过程对人类观察者(用户、主播、运营者)的可访问程度。
| 维度 | L1 辅助增强 | L2 平行交互 | L3 自主运营 |
|---|---|---|---|
| 主动性 | 低 | 中 | 高 |
| 适配性 | 中 | 高 | 高 |
| 执行性 | 低 | 中 | 高 |
| 不透明性 | 低 | 中 | 高 |
| 交互架构 | 人—人(Agent后台辅助) | 人—人 + Agent—人并行 | Agent—人(无人直播) |
| 代表场景 | 实时话术推荐、情绪监测 | 虚拟副播、多Agent分答 | 7×24全自动店播 |
表1 STA框架下的三种Agent嵌入模式
图3 Agent嵌入模式与技术能动性维度分布(雷达图)
传统直播电商中,消费者信任是人格锚定的——信任附着于具体主播的人设、专业度与真实感(Lu et al., 2016)。按照既有理论,当主播被Agent替代时,这种人格锚定的信任应当瓦解。然而,Agent运营直播间的商业指标并未出现预期的断崖式下跌。本文提出,信任并未瓦解,而是发生了标的物的系统性迁移——消费者将信任从主播的人格属性转向交互体验本身的功能可靠性。这是关系性信任(relational trust)向系统性信任(systemic trust)的转译(Luhmann, 1979; Giddens, 1990)。
命题P1(信任转译): 在Agent运营的直播间中,消费者信任从人格锚定基础(主播真实性)迁移至系统锚定基础(交互的功能可靠性)。(a) 交互频率与 (b) 交互一致性正向调节这一迁移的强度,(c) Agent非人类本体性的显著程度负向调节之。
图4 消费者信任标的迁移:从人格锚定到系统锚定(概念模型)
本文提出超在(hyper-presence)概念以描述Agent式交互的独特现象学特征:一种由人工Agent生成的、连续的、个性化的且可预测的临场感。超在与传统共在的核心区别在于:共在是互为主体的——双方都意识到对方的存在;超在则是不对称的——Agent仅在功能意义上"在意识层面存在"。
超在的悖论在于:消费者获得的是更高的交互满意度(源于完美响应)但更低的关系深度(源于主体性的缺席)。
命题P2(超在悖论): 在L3自主运营模式下,(a) Agent的会话内转化率高于人类主播直播间,但(b) 长期追踪中消费者对品牌的态度的忠诚度低于人类主播直播间。会话内效应由感知响应性中介,长期缺陷由感知真实性中介。
图5 人类主播与AI Agent直播间关键指标对比(基于多源行业数据的综合估计)
本文的核心主张是:AI Agent并非消除了情感劳动,而是将其从流量中执行(人类主播每场直播的连续情感表演)转化为存量中预装(在模型训练阶段一次性地将情感能力嵌入模型权重,再通过规模化部署进行摊销)。这一转化具有深刻的分配效应。
命题P3(价值重构): 从人类主播模式向Agent自主运营模式的转型,系统性地将剩余价值从个体主播(失去劳动收入)重新分配给平台所有者(捕获模型嵌入的情感能力的摊销价值)。重新分配的幅度是Agent能动性水平的单调递增函数(L3 > L2 > L1)。
整合上述命题,本文提出一个高阶推论:Agent的技术能动性水平与消费者信任之间并非线性关系。
命题P4(能动性—信任校准曲线): Agent技术能动性(STA综合得分)与消费者信任之间呈倒U型关系。在低能动性水平(L1),信任较低(Agent效用边际);在中能动性水平(L2),信任最大化(功能性价值与人类锚点的平衡);在高能动性水平(L3),信任因推理不透明性与人类在场缺失而下降。
图6 能动性—信任校准曲线(倒U型假设)
当前中国直播监管的核心文件《网络直播营销管理办法(试行)》(2021)规制对象隐含地预设了人类行动主体,对Agent驱动的交互场景存在显著制度空白。本文从分层问责(layered accountability)原则出发,构建以代理层级与风险域为双轴的治理矩阵。
| 风险域 ↓ 代理层级 → | L1 辅助增强 | L2 平行交互 | L3 自主运营 |
|---|---|---|---|
| 低风险(通用消费品) | 透明度披露;数据合规 | Agent身份标注;交互日志留存≥180天 | 强制AI标识 + 人工远程接管开关 |
| 中风险(差异化定价) | 策略备案 | 差异化逻辑说明;A/B测试伦理审查 | 第三方算法审计;定价阈值上限规定 |
| 高风险(健康/金融/未成年) | 不得使用Agent进行销售诱导 | Agent不得以真人外观出镜;实时监控 | 禁止L3运营 |
表2 分层问责(LA)治理矩阵
该框架的设计原则为:(1) 比例性——规制义务随风险等级与代理层级递增;(2) 可操作性——每个单元格对应明确的、技术上可验证的要求;(3) 预留创新空间——不对低风险场景施加过度规制。此外,建议建立统一的Agent交互标识系统,使每次Agent—用户交互均可追溯至具体模型版本与策略配置。
图7 分层问责框架热力图:规制强度随代理层级与风险域变化
为佐证上述分析,本文参考了一项针对1,200名直播消费者的探索性调查(2024年第四季度,线上样本)。数据显示,消费者对AI Agent介入直播的态度呈现出显著的认知—行为分裂特征:
图8 消费者对AI Agent直播的态度分布(N=1,200)
该分裂——认知层面高度警惕但行为层面持续参与——正是本文"信任转译"命题的经验性征兆,也是"超在悖论"的消费者端映射。
本文为概念性研究,存在以下固有局限:第一,本文提出的P1–P4尚未经过严格的实证检验,其外部有效性有待进一步验证。第二,行业数据主要来源于中国头部平台(抖音、快手、淘宝直播),跨文化普适性受限于不同市场在技术采纳路径与监管环境上的制度差异。第三,AI Agent技术演化迅速,本文描述的具体架构与治理建议存在被技术迭代超越的可能。
基于上述局限,本文识别出五个值得深入推进的研究方向: