论文发表/paper

中国比较文学 | 刘洋:文学情感计算的五大方向及其问题
日期:2025-09-10 20:55来源: 作者:
摘要    


    将情感识别和计算应用于文学作品逐渐成为近期数字人文研究中的一个热门方向。大多数计算方法主要依赖于情感词典,即通过检索研究文本中的情感词汇并通过词典进行赋值。在当前的文学文本情感计算中,常见的研究方向包括对情感极性的分析、情感弧线的绘制、不同文类流派的情绪模式分类、人物指向的情感分析以及情绪与时空关联的计算。然而,由于在计算方法上还存在很多缺陷,同时文学作品本身的风格多样性和叙事复杂性也为情感计算带来不少额外的困难,所以这一领域还有许多尚待解决的问题。



Abstract    


The application of emotion recognition and computation to literary works has gradually become a hot topic in recent digital humanities research. Most of the computational methods mainly rely on the sentiment lexicon, that is, by retrieving the emotion words in the research text and assigning values through the lexicon. In the current research, the common directions include the sentiment analysis, the drawing of sentiment arcs, the classification of emotional patterns of different genres, the emotional analysis of character orientation, and the calculation of the relationship between emotion and space-time. However, there are still many defects in the calculation method, and the stylistic diversity and narrative complexity of literary works also bring many additional difficulties to emotional computaion. There are still many problems to be solved in this field.



关键词/Key words    


 情感计算    文学研究    情感词典    数字人文  

emotional computing; literary study; sentiment lexicon; digital humanities




   
   
   
   


刘洋,理学博士,重庆大学中文系副教授。研究方向:数字人文、科幻文学与创意写作。电子邮箱:liuyangsf@cqu.edu.cn。


* 本文为国家社科基金一般项目“文学计算批评路径研究”(编号:23BZW017)的阶段性成果。



 情感计算,即通过各类计算设备与算法的结合来自动识别、理解和计算与人类情感相关的特征,已成为当前认知科学的一个研究热点。通过图像、音频、视频、文本等多种模态的数据,计算机可以进行情感的多特征融合,以更高的精度识别人类的情感并实现高质量的人机互动。单纯基于文本的情感计算,在社交媒体和电商平台等领域也得到了广泛的应用。对这些平台产生的大量文本数据进行情感分析,可以帮助政府和企业方便快捷地掌握大众对某个事件或产品的舆论趋势或情感变化,带来巨大的社会效益和经济利益,因此也受到了研究者的广泛关注,成为当前自然语言处理领域的一个重要分支。

近年来,一些学者将情感计算方法引入文学领域,对各种文学作品的文本进行定量的情感分析,从而开拓了计量文学研究的一个新领域。计量文学研究虽然有着漫长的历史,但长期以来,文学计算都严重依赖于语言学模型,很大程度上忽视了情感这一重要维度。而在传统的阐释批评研究中,对文本的情感分析一直是一条重要的研究路径。特别是在叙事学中,情感被视为与叙事结构紧密相关的一个因素,并因此发展出“情感叙事学”这一跨学科叙事理论。因此,情感计算的出现,可以说填补了在计量文学研究中的一项关键缺失,也使得建构一种超脱于传统语言学模型的更高层次的计算批评理论成为可能。

文学情感计算提供了一种量化分析的工具,使得研究者能以一种前所未有的方式探索文学作品中蕴含的情感模式。这不仅可以帮助我们把文学计算从词频风格分析延伸到情感叙事层面,还有助于揭示和归纳叙事文本中情感结构的复杂模式,并帮助我们了解作家如何通过语言构建情感体验。这种定量分析与传统质性研究相结合,可以为文学批评提供更加丰富和立体的视角,从而深化我们对特定时期、文类或地域文学特性的理解。通过分析不同时期或地域文学作品所表达的情感倾向,我们可以追踪到社会态度、价值观的变化或分布趋势,进而探讨这些变化背后的社会、经济和文化根源。此外,从文化传播的角度来看,文学情感计算的研究成果能够辅助出版业和影视改编行业进行内容创作和市场定位。通过对读者或观众可能产生共鸣的情感点进行精准预测,制作者可以在保持原作精神的基础上,优化叙事策略,增强作品的吸引力和传播效果。

本文将根据研究方向的类别,结合具体的案例,对这一新兴领域进行一次全面梳理,并指出其目前存在的问题。

一、方法:为何依赖于情感词典?

具体而言,对文本的情感定量计算实际上分为情感极性分析(sentiment analysis)和情绪分析(emotion analysis)。前者将文字背后的情感分为正面和负面两类,通过文本计算,得出整体的情感极性及其数值;后者则基于一组更丰富的情绪分类,如普拉奇克(Robert Plutchik)提出的八种基本情绪:快乐、信任、恐惧、惊讶、悲伤、厌恶、愤怒和期待,在一个更多维的向量数组中为文本所呈现的情绪定位。

情感计算的技术手段可以粗略地分为两类:一是基于情感词典或词袋模型等简单直接的方法,二是通过机器学习或深度学习等算法来产生一个有效的预测模型。后者大多数时候需要在有监督的情况下进行,而且依赖于大量预先标注好的语料数据。在商业应用语言学研究中,这类对文本数据的标注工作大多可以通过在众包平台上发布任务,征集大量的第三方标注者来共同完成某一任务。然而,以文学研究为目的的语料标注,通常对标注者的资质有较高要求,这使得任务很难分包给普通人来完成。比如,在一个专门为文学文本情感计算而标注的小说语料库里,注释者均为语言学研究生,并需要定期与专家讨论标注中遇到的问题。由于情感表达的高度可变性、小说文本的潜在隐喻性和前后文的普遍关联性,标注需要在深思熟虑下进行,这使得整个注释过程变得极为冗长、乏味且具有相当程度的挑战性。对于一些古老和复杂的历史文学文本,注释则更加困难,不同注释者之间的一致性较低,因为对文本所体现的情绪往往有多种理解角度,这导致注释过程充满了主观性。例如一个旨在对格林童话进行情绪分析的项目,在注释过程中就遭遇了显著的注释者差异:两个小组在对同样的文本进行情绪注释后,根据不同的情绪分类标准,其标注一致的占比仅有45%至76%, Kappa一致性检测的结果也低至0.24,高于大部分自然语言处理任务的标注差异。

另一方面, 与计算语言学不同, 文学计算领域的研究者并不期望开发一种通用的算法,而是着眼于具体的作品或作品集,解决与之相关的一些特定问题。例如在一项对西班牙作家、诗人克维多(Francisco de Quevedo)诗歌的情感计算和分类研究中,研究者首先从四组英语的情绪唤起词出发,通过查找“英语-西班牙语”翻译词典,得到了与这四类情绪相关的众多西班牙语词汇,其中不仅有名词和形容词,还包括翻译过程中用到的一些动词。计算时,只需要在对应的诗歌文本中检索这些词汇,就可以将每首诗歌转换成一个四维的数组,每个数字对应于文中所找到的一类情绪词的数量。显然,这一研究所用的词典是一个不完备的、临时性的、有特定任务的词典,但对于相应的文学计算项目来说,它却已经足够有效了。因此,在普遍缺乏文学文本的情感标注语料库的情况下,当前的大多数文学作品情感计算研究仍然基于情感词典而进行。相比于依赖大量标注语料的第二类方法,它不仅更为简便、可行和灵活,在算法上也具有更高的透明度和可解释性,从而为文学阐释和批评留下了必要的空间。

在中文文本的情感计算中,常用的情感词典有知网Hownet情感词典、波森公司研发的BosonNLP情感词典、台湾大学自然语言实验室构建的中文极性情感词典、大连理工大学构建的中文情感词汇本体库等。以中文情感词汇本体库为例,其收录了两万多个不同的词语或俗语,并标注了相应的情感极性和情绪分类,如表1所示:

表1:中文情感词汇本体库示例

表中给出了每个词语的词性、情感分类、极性及其强度等数据,比如“脏乱”一词, 其词性为adj(形容词),情感分类为NN(贬责类),极性为2(贬义)。词典将各词语的情感强度分为1、3、5、7、9五档,9表示强度最大,1为强度最小。“脏乱”对应的强度为7,属于贬义词中情感较强的。值得注意的是,词典划分的极性除了1(褒义)和2(贬义)之外,还有0(中性)和3(兼有褒贬两性)。此外,我们还可以看到,某些词语具有多个词义,因此在表中将其进行了区分,并给出了不同词义下的情感数值。比如“好事”一词, 在某个词义下是强度为5的褒义词,在另一个词义下却成了强度为5的贬义词。

这一词典中所说的情感分类(准确地说应该是情绪分类), 依据的是保罗·埃克曼(Paul Ekman)的基本情绪理论。该理论认为,在人类所有的情绪中,有些情绪比其他情绪更“基本”。埃克曼与其他一些研究者定义了基本情绪与其他情绪的区分标准,从而得到了六种基本情绪,包括愤怒、恐惧、喜悦、悲伤、惊讶和厌恶。词典的编撰者大致遵循了这一分类,但将“喜悦”一类进行了细化,分为了“乐”和“好”两类,以此形成了乐、好、怒、哀、惧、恶、惊七类情绪,并再次细分为21个小类,如表中的PH(赞扬类)、 PA(快乐类)、NC(恐惧类)等。

通过词典进行情感计算的过程简洁明了,即检索和统计文本中的情感词,将其与词典进行比对,获取各词的情感极性、情感强度或情绪分类,然后再基于对应的数值做代数运算。可以说,正是因为其内核机制的简明性,才使得情感计算在文学研究中的应用迅速扩展,并逐渐形成一个新的研究热点。


二、文学情感计算的不同方向

按照研究方式或目标的差异,对文学作品进行情感计算的课题可以分为若干不同的方向。虽然都基于大致相当的对文本进行的情感赋值过程,但有的研究是为了对文学作品的情感模式进行分类;有的则专注于情感弧线的生成,以便进行故事模式的分析;有的则将目光聚焦在特定的人物之间,对其彼此间的互动进行情感分析;有的在不同的文类流派中寻找情感模式的差异;还有的着重分析文本中的情感与特定时空的关联。

(一)情感极性分析

目前所能找到的最早对文学作品进行情感计算的研究来自安德森(Anderson)和麦克马斯特(McMaster),两人在1982年发表的一篇论文里,首次在计算机的辅助下对文本段落的情感基调进行了定量计算。他们的动机在于分析为何不同故事的吸引力有区别。他们认为,引人入胜的故事的一个特点是“情绪紧张感的起伏”,而这种紧张感会在“故事接近尾声时逐渐释放出来”(Anderson and McMaster 1)。为此,他们使用了海斯(Heise)建立的一个包含了1000个常见单词的情感极性词典,来计算不同文本段落的情感得分。其计算过程是半监督式的,即通过程序扫描文本,发现其中出现的海斯词典中的词汇,对单义词直接叠加计算,多义词则弹出选择项,通过人机对话选出其中一个义项进行计算。通过这样的方式,他们对乔伊斯·卡罗尔·欧茨(Joyce Carol Oates)的长篇小说《奇境》(Wonderland)的第二章,以及毕翠克丝·波特(Beatrix Potter)的五个儿童故事进行了情感计算,并将不同文本块所得的情感分数连接起来,为每个作品绘制出一个反映情感走向的折线图。在《奇境》的折线图中,第28、29个文本块所在位置呈现出陡峭的峰值,研究者将其称为“情感灾难”(emotional catastrophes)(Anderson and McMaster 5),并认为正是这样突然的情感变化增强了作品的吸引力。

安德森等人的工作表明,对文学作品进行情感的建模和计算是可行的,其展示的情感极性分析案例也为之后的研究提供了一个有效范式。例如,几个新近的研究案例包括一个基于人工注释的对莱辛(Gotthold E. Lessing)六部戏剧的情感极性研究、通过自行建立的拉丁语情感词典对贺拉斯(Horace)抒情诗集《颂歌》(Carmina)的情感极性分析、基于自己编写的一个情感分析软件对20世纪的一些意大利诗歌和小说进行的情感词统计分析,等等。在这些研究中,情感极性的赋值一般分为正负两极,正值表示正面情感,负值则代表负面情感。这种赋值方式固然是对人类丰富情感体验的一种极度简化的投影处理,但相对于传统的情绪分析方法,它具有一些显著优势:其一,基于词典的赋值方法具有客观性和一致性,可以避免人为分析中的主观性,即在不同时间或对不同作品进行分析时出现标准偏差;其二,它具有易操作性,由于情绪分析过程中尽量减少了主观判断的介入,分析者不再需要成为情绪或认知方面的专家,只需要熟悉算法流程即可;其三,计算机进行情绪赋值和数据处理的速度远远超过人类,因此可以在有限时间内进行大批量的文本情感计算,并基于大数据建模分析。

此外,也有研究者采用情感值的高低作为二元极性的划分方法,并以此研究早期美国小说中感伤主义流派的语言模式。一个对格林童话进行情绪计算的研究虽然采用了多种情绪进行文本标注,但在分析时却只将这些情绪分为积极和消极的两类。他们发现,这些童话故事的开头部分往往并不带有太多极性情绪,在第二部分中消极情绪出现明显增长,而积极情绪则在结尾部分大幅增加,意味着它们基本上都有一个好的结局。事实上,一些基于情感极性的研究专门将目标放在作品的结尾,致力于通过故事结局的圆满与否来对其进行“好结局/坏结局”的分类。有研究者认为,识别结尾是否圆满幸福有助于我们更好地理解作品的整体情节结构。他们的研究结合了词典、人工注释和机器学习算法:首先通过专家对两百余部德国小说进行结局好坏的分类,然后基于一个情感词典计算出各小说分块之后的情感值,从而得到一个多维数组,最后将数组和专家注释的结果作为输入数据,通过支持向量机的算法进行机器学习。

需要指出的是,所谓幸福结局或悲剧结局,一般是对故事的主要人物而言的,一个作为主角对手的反面人物落得悲惨下场,并不意味着悲剧结局,事实上这反而是幸福结局的主要特征之一。因此,研究者需要在对文本中的情绪进行赋值的同时,将其与特定人物关联起来,也就是进行“情绪归因”的工作。然而,由于情绪归因在技术和操作上的困难性,大部分此类研究都只是笼统地对各序列的情感词汇进行数值叠加,得出该序列的情感值,并没有进行精细的归因工作。这导致在各序列的情感计算中,主角和其他人物的情感数值产生了平均效应,降低了结果判断的准确性和方法的有效性。与此同时,平均主义的处理方式也让研究者无法精确分析文本结尾处的微妙情绪,对于某些结局悲中有喜或喜中藏悲的作品而言,此类计算很可能只能得到一个平庸的结果。此外,作品的悲剧结局通常与人物性格、时代背景等因素密切相关,没有归因的情感计算自然也就很难进行此类更为深层的文本分析。

(二)情感弧线提取

很多研究者都试图从情感分析中获得与文本情节相关的信息,通常他们会借助“情感弧线”(Sentiment Arcs)的概念——这是美国作家库尔特·冯内古特(Kurt Vonnegut)在20世纪中叶首先提出的。他认为,以文本序列为横轴、不同文本序列的情绪为纵轴,绘制出的线条是对故事情节的一种可视化表征。上文中提到的安德森等人的研究,其绘制的折线图本质上就是情感弧线,虽然在他们的论文里并没有直接提到“情感弧线”一词。其实,在20世纪20年代的创造社时期,成仿吾就在“《残春》的批评”一文中表述过类似概念,即用一个坐标轴来表征文学作品中情绪的发展走向。不过成仿吾使用情感曲线的目的是为了论证“高潮”对于小说是非必需的, 因为一旦高潮结束之后,情感曲线势必下降,他认为这会导致“有害而无益的蛇足”,所以与其“有一个有害的最高点,我们宁可欢迎没有最高点的文艺”(成仿吾44)。成仿吾把情感曲线简单抽象为一个抛物线,并略显偏激地认为高潮是有害的,但冯内古特认为上升和下降的曲线对于一个故事都是必要的,不同的故事可以通过这些弧线的形态进行分组,而且这种分组的数量或者说情感弧线的模式数量——是有限的。

里根(Andrew J. Reagan)等人通过对古腾堡计划(Project Gutenberg)小说集中1327个故事的情感弧线进行绘制和分类,找到了六个核心的弧线模式,某种程度上印证了冯内古特的观点。他们首先用基于词典的方法计算出每个小说文本不同文本块的情绪值,得到它们的情感弧线,然后将奇异值分解、聚类和机器学习算法结合起来,从这些情感弧线中提取出几种共同的结构模式。在此之前两年,马修·乔克斯(Matthew Jockers)就在自己的个人网站上发表文章,认为情感弧线是一种检测故事情节的有效方案,并在网上发布了自己开发的软件包Syuzhet。在此之后,他与其他学者以网上发文的方式进行了深入讨论,发现了软件包存在的一些问题,对其进行了更新。有研究者使用该软件包分析了英国作家伍尔芙(Virginia Woolf)的意识流小说《到灯塔去》(To the Lighthouse),以检验现代主义小说是否打破了传统的情节结构。在此之前,已有研究者做过类似的尝试,即通过情绪词汇的检测和统计来辅助分析故事情节。最近,还有学者提出一种新的基于自我监督的情感弧线提取方法,认为其可以应用于包括文学作品在内的长文本的情感与叙事分析。

需要指出的是,在情感弧线的绘制方式上,并不局限于以上的简单线图模式。有的研究者通过彩色编码的密堆条形图来呈现情感值在不同文本区块中的变化,还在不同条形图与其对应的文字之间建立超链接,使读者可以直接访问原始文本。另一些研究则通过自适应滤波器来过滤原始的极端不规则的情感弧线,并从这种过滤所体现的趋势中来提取关于文本的隐藏特征。

不管其表现形式如何,情感弧线的绘制都是对文本情感极性随着文本序列起伏趋势的一种可视化表征。在叙事文本中,情感状态通常与故事发展有着紧密关联,因此,情感弧线必然从某种程度上反映了故事情节的走向,从而使得研究者可以利用它对故事模式和情节结构进行建模分析。对于传统的基于词频、句长等微观特征量进行数学建模的文学计量研究来说,由于很难在特征量与情节叙事层面建立联系,所以无法实现对叙事等较高层次的文学概念进行建模。情感弧线多少弥补了这一缺失。然而,通过情感进行故事建模,毕竟是一种间接的方式,因为情感走向与故事发展并不一定完全合拍。同时,正负两极的简化处理所得的情感数值与真实而丰富的人物情感也必然产生偏离,从而无法完全反映文学作品中的情感状态。

另外,在情感弧线的生成中需要将文本划分成连续的文本序列,但是,应该如何适当进行文本序列的划分,仍然是一个值得思考的问题。在很多研究中,研究者只是简单根据固定字数(单词数)进行序列的切分。毫无疑问,这种机械的切分方式会割裂文本的自然结构,导致与某种情绪相关的文本段落出现断裂,从而对计算结果造成误差。另外一种较常见的处理方式是利用小说原本的章节进行序列的切分,虽然避免了文本结构的割裂,但这种方式完全依赖作品本身的章节结构,缺少主动性,无法按需调整。比如在需要进行文本间的比较时,相差甚远的章节数会让情感弧线的细腻度产生巨大差异,影响比较的进行。其实,文本序列的划分在文学计算中是一个普遍存在的问题,在计量叙事研究中,也同样需要划分出不同的叙事序列,以便观察作品的叙事节奏和故事结构。最合理的方法其实是基于故事场景来进行序列的划分,因为场景往往也是叙事推进和情绪转变的基本单元。目前,虽然已经有了一些对文学作品进行场景自动切分的尝试,但其有效性和便捷性仍然无法让人满意。

(三)情绪分析与文类流派

从阅读经验中我们可以提出一个假设,即不同的文类可能会使用不同的情感词组合或呈现出不同的情感词汇分布。如果假设成立,我们就可以借助情绪分析的方法来对不同文类或不同文学流派进行聚类分析,在不同的类型中挖掘其独特的情绪模式。

萨莫斯拉基斯(Spyridon Samothrakis)等人试图检验这一假设。他们从古腾堡计划的文本库中收集了3403篇不同类型的小说,囊括了科幻、恐怖、西部、狂热、犯罪、神秘、幽默等类型标签,然后基于埃克曼的基本情绪分类,使用名为“WordNet-Affect”的软件来进行情绪词检测,计算出每个句子的情绪值,其结果是一个对应于六个情绪类型的六维数组。接着,便可以文本进度为横轴、不同情绪的数值为纵轴,在同一坐标中绘制出六条曲线图——本质上就是进行了情绪细分的“情感弧线”。这种细分的情感弧线可以帮助我们直观地看到诸多文类在情绪模式上的差别:例如恐怖小说具有极高的情绪值,且恐怖情绪通常集中在故事的最后出现;而科幻小说则普遍具有较低的情绪值。此外,在使用随机森林分类器的情况下,加入了情绪数值后进行文类分类的结果,其准确度几乎是之前的两倍,这也表明不同文类的确潜藏着某些独特的情绪模式。

另一个与之相近的项目同样在古腾堡计划中收集了2019本书,包括冒险、科幻、神秘、幽默和浪漫五类,然后基于词典为每部作品建构出基于普拉奇克八种基本情绪的细分情感弧线,将其作为特征集的一部分输入随机森林算法中进行分类。与萨莫斯拉基斯等人的结果一样,情绪特征集的加入显著提升了分类的准确性。研究者还分析了在每个文类中各类情绪的情感弧线的一致程度,发现恐惧和愤怒在同文类中的一致性最好,期待和信任的一致性最差。这意味着,对基于情绪的自动分类来说,恐惧和愤怒的数值是更好的特征量。通过综合各种情绪的弧线,不同文类得以呈现出不同的趋势特征,比如冒险小说,其典型的情绪特征为:信任和期待在开始部分处于高值,接下来悲伤、愤怒和恐惧的情绪值达到峰值,但在故事最后,信任往往再次成为主导情绪。不过,虽然以上情绪模式适用于语料库中的大部分作品,但研究者同时注意到,在每一种模式中都有少量的显著偏离模式的例子,而这些例子里优秀作品的比例很高。这代表着创作者对情感发展模式的某种超脱和革新的愿望,这种创新的愿望正是孕育杰作的温床。

以上两个研究都使用机器学习算法作为分类器。事实上,在文本分类领域,近年来有越来越多的项目用到了各种机器学习或深度学习算法。这些算法有效地提高了分类的准确性和有效性,但同时也带来一个必然的负面效应,即降低了计算方法的透明度和可阐释性。除了算法本身的可解释性问题之外,其在计算过程中使用的超参数——如数据平滑过程、学习率、深层神经网络隐藏层数等,也会对结果产生重要影响。那么,这些超参数在计算中是否会扭曲和误导数据与文学意义之间的关联呢?目前仍然缺乏一个广泛而系统的研究。在文学计算中,特别是在想要深入到文本分析和文学批评领域的研究里,应该更审慎地使用这些会降低算法可阐释性的工具。

此外,一个对西语裔美国小说的研究显示,不同的子类型具有不同的情绪特征。比如, 感伤主义小说在叙述文本中具有较低的信任值和较高的期待值;历史小说在叙述文本中包含了较多的恐惧和愤怒;而那些具有更强的西班牙本土性的小说,其叙述文本在悲伤情绪上比社会政治小说更弱,在信任情绪上则强于感伤主义小说。该研究的另一亮点在于,它把文本中的叙述部分和对话部分进行了区分处理,从而让情绪计算更为精准。本质上,这相当于一个弱化版的情绪归因,因为叙述部分的情感词很多时候来源于作者的叙事意图,而对话中的情感词则更多地从属于对话角色本身。另一个研究则通过情感词的分布密度来分析不同文类间的差异。该研究发现,与小说相比,童话故事在期待、厌恶、喜悦和惊喜情绪上的词密度明显更高,但信任情绪的词密度更低。还有研究者通过一个名为“SentiProfiler”的可视化情绪分析系统进行了一个更为微妙的研究——分辨哥特小说中的心理恐怖(terror)和本体恐怖(horror)两个子类型在情绪上的区别。结果显示,胆怯、焦虑和害羞的情绪在心理恐怖小说中更为常见,恐惧和厌恶则在本体恐怖小说中更常见,恶心则通常是本体恐怖小说中独有的情绪。这意味着,即便在通常认为的同一类型內部,不同亚型之间也可能存在情绪模式的差别。同时,我们也注意到,上述几个研究总体仍然偏向验证层面,其结果基本没有脱离人们的认知经验,因此虽然使用了很新颖的量化方法,但对于文学研究而言价值不高。对于文类间不同的情绪模式及其成因,未来应该结合故事模式、叙事需求,作者风格等因素进行更深入和细致的分析。

(四)人物指向的情感分析

在通过情感弧线进行故事模式识别和分类的研究中,一个隐藏的假设是故事视角的单一性。因为从文字识别出的情绪主要源于当前视角下的人物,如果该视角贯穿故事的始终,那么情感弧线很大程度上可以被看作是故事发展进程在主角情绪上的一个投影,因此可以基于此进行故事的建模。但通常来说,文学作品中都存在两个或更多的视角,此时的情感数值便成了众多人物情绪的一种平均值。因为传统的粗粒度的情感分析并不能分辨检测到的情绪究竟对应于哪个人物,比如:“张三看着一脸平静的李四,心里却很害怕,因为李四拿刀的手开始颤动”,这句话所检测到的恐惧情绪或负极情感,应该归于张三, 而与李四无关。因此,在进行文学作品的情绪分析时,不仅应该关心从文本中检测到的情绪类型,更应该关心该情绪指向的人物究竟是谁,这就是“情绪归因”的工作。如果不进行情绪归因,上述例句中从“害怕”提取的负面数值与从“一脸平静”提取到的正面数值会互相中和,最终削弱总和数值对故事走向的映射效果。换句话说,只有经过情绪归因,我们才能将分析深入到虚构人物的本体和关系层面,并最终为更精细的情节分析服务。

对于戏剧等具有结构化对话格式的文学作品来说,情绪的识别和归因较为简单。因此,纳利斯尼克(Eric T. Nalisnick)等人首先通过识别人物对话中的情绪词,对莎士比亚戏剧中不同角色之间的情感动态进行了分析。他们将一组人物彼此间的极性情绪绘制到同一幅情绪弧线中,让两者间的关系变得一目了然。比如,对《奥赛罗》的情感分析图显示,奥赛罗“在故事开始阶段对他的新婚妻子具有强烈的积极情绪”,但随着奥赛罗越来越深地陷入伊阿古的欺骗中,这种积极情绪出现了“迅速下降”(Nalisnick and Baird 481)。之后,纳利斯尼克等人将这一工作进行了扩展,提出了人物情感网络的概念,即在一般的角色网络的基础上,将人物间情感的极性值作为网络中的边的权重。他们测试了从莎士比亚戏剧中提取的情感网络是否符合结构平衡理论(Structural Balance Theory)——即朋友的朋友也是你的朋友,但结果并不如预期。其原因可能在于,研究者所用的浅层情感分析方法很难识别言语中的讽刺和欺骗等元素,而这些元素对于人物情感关系的判断至关重要。这正是当前情感计算中的一个重要障碍,对于隐喻、讽刺等深层情感表达方式,当前仍然没有一个较好的建模和分析方式。

金(Evgeny Kim)等人将情感网络的建构分析应用到了非结构性的文学文本中。他们建立了一个由19部同人短篇小说组成的语料库,对其进行情感和关系注释之后,通过机器学习算法来建构其中角色的情感网络。之后,在另一项研究中,他们通过同一语料库重点观察了人物间的情感是如何通过非语言的途径来表达的,比如通过面部表情和声音特征来表现快乐的情绪,通过手势和身体姿势来传递信任的情绪,等等。显然,他们在这两项研究中选择同人短篇构建语料库,是因为这些文本共享同样的人物设定,因此也就遵循同样的人物情感关系。这相当于变相地扩大了学习语料的数量,有利于提高关系抽取的精确度。但是,对于大部分文学作品来说,并不存在以其为基础的同人作品,这种情感网络的提取方法是否还适用呢?或者说,其有效性会受到何等程度的影响呢?同一年,中国人民大学的张旋等学者则在构建人物关系网络时引入一个亲密度函数,通过一个基于情感词典的方法来进行计算,并以此分析了14部金庸武侠小说中的爱情模式。但这一方法的识别结果受到文本分析的窗口宽度的影响,在不同窗口宽度上,识别的精确率和召回率会出现显著差异。总体来看,目前对文学作品中的人物情感关系的提取在方法上仍然不成熟,因此尚不能进入更深层的情感网络量化分析和情节分析阶段。

另一些研究对虚构人物间的情感关系进行了更为精细的数学建模。比如贾法里(Sajad Jafari)等人提出了一个基于微分方程的动力学模型,对阿拉伯古典爱情故事《莱拉和马吉努》(Layla and Maynun)中的人物感情发展过程进行了模拟。其特别之处在于,情感被处理为一个二维向量,而不是极性的一维——这意味着人物之间的情感是由爱与恨的两个分量所耦合而成,因此能够复现出一些更现实,更复杂的情感关系。此外,还有更多类似的情感动力学模拟研究成果,大多发表在物理学期刊上。它们大多只是通过对数学模型的调试,来模拟某一特定文学作品中的情感模式,目的是对模型本身的有效性进行检验,因此并不关心文本本身,自然也无意于探索更深入的文学问题。

当然,情感分析也可以聚焦于人物本身,而不仅仅是考虑与他人的关系。金等人在一项研究中将人物的情感与其产生原因连接起来,这种细粒度的情感提取方法对于文学批评无疑是更有用的。还有研究者提出可以对文学人物的内心世界进行建模,从文本中出现的语言描述来展开情感分析,以捕捉和推断人物的心理特征。国内也有研究者进行过类似的尝试,例如中科院心理研究所的吴育锋等人通过其计算网络心理实验室研发的“文心”中文心理分析系统,对小说《平凡的世界》中的人物进行了心理分析和大五人格预测。此外,还有一个有趣的研究值得一提:通过人物的情感关系来判断《西游记》中孙悟空在“真假美猴王”事件前后的身份真实性是否发生转变。研究者对孙悟空与其他角色的对话进行情感分析,发现在事件前后孙悟空对猪八戒,沙悟净等人的态度几乎没有转变,对唐三藏的正面情感有明显上升,对神佛群体的态度明显转好,由此发现孙悟空并没有被六耳猕猴取代,这一事件却“消灭了孙悟空的反抗精神”(即诛灭了“心魔”)(张辰麟等 125)。

(五)情绪与时空的关联

前述的研究基本上都将研究重心聚焦于文学本身,通过情感计算对文本的叙事模式、人物关系或文类区别进行分析,但也有研究将其拓展到社会层面,在文学作品的情绪和特定的时代、地域和族群之间寻找关联。20世纪下半叶以来,在人文社会科学“空间转向”的潮流之下,地理信息系统(GIS)已经被广泛用于各种研究课题之中,其数据管理、空间分析和可视化的强大功能同样可以用于文学研究,包括用于文学情绪地图的建立。

海瑟(Ryan Heuser)等人建构了一个包括5000余部在18和19世纪出版的英语小说语料库,找到作品中出现的伦敦地名并计算了与之相关的情绪值,从而得到了一个直观的伦敦情绪地图。在这张地图中,绿色所代表的欢乐情绪区域一般位于那些开阔的公共空间,如圣詹姆斯广场、海德公园等,而红色所代表的恐惧情绪区域则通常位于那些具有强制拘禁性或封闭性较强的空间附近,如新门监狱、精神病院或伦敦。此外,他们还对情绪地图在不同时代的变化进行了分析,发现在两百年间,作品中的欢乐情绪基本维持在一个稳定的比例上,但恐惧情绪则出现了大幅度减弱的趋势,特别是在18世纪上半叶与下半叶之间,其“关键因素”可能在于现代文明的发展,例如“夜间电灯、保险政策、警察部队”(Heuser 7)在伦敦市区的普及。

然而,如果将统计范围扩大到更大规模的文学文本或非英语写作的文本,这一情绪涨落的结构似乎就不太成立了。例如,莫林(Olivier Morin)等人通过一个结合了谷歌图书和古腾堡项目的大型英文小说语料库,分析了从18到20世纪的不同时间段内,文学作品中情绪值的变化趋势。他们发现,从19世纪开始,英语文学中情感词的出现频率就逐渐下降,而且这种改变完全是由于积极情绪相关词汇的减少所导致的,而与消极情绪相关的情感词的频率则几乎没有下降。另一项稍早的研究则将目光聚焦于20世纪,研究者引入了一个基于文学文本情绪计算的“文学苦难指数”(literary misery index),将其与作者所在国的经济苦难指数相对比,发现两者之间具有很强的相关性——这一结论不管在英语文本还是德语文本中都同样成立。海瑟与莫林等人的研究所得出的不同结论显示,研究语料的语言种类和数据规模差异有可能对结论产生很大的影响,这同时也削弱了此类研究本身的普适性和科学价值。

来自中国科学院大学的陈曦东等人则对宋词中的情感特征进行了时间和空间上的定量分析。他们挑选了340篇写景类的宋代诗词,并从中提取出时间、地点和情感信息。基于罗素(James Russell)所提出的情绪环形分类模式,他们对快乐、旷达、平静、愤懑、悲伤、忧虑和思念这七类情绪词各自赋予一个极性强度(前三类为正值,后四类为负值),然后结合统计到的各类情绪词的数量,对文本中的情绪进行量化。计算结果显示,作品中情感值的变化整体上与宋代国势的发展趋势相吻合,而且“宋朝词人情感的时空分布变化与重大历史事件发生的时间和地理位置有很大关联”(陈曦东等 1147)。

还有一些研究将文学文本的情绪与某一特定的族群联系起来。比如,有研究者将目光聚焦在二战期间的韩国慰安妇群体上,对其自述经历的个人叙事文本进行了情感挖掘。他们发现,恐惧是这些文本中最突出的情绪,悲伤、遗憾、愤怒和绝望等情绪也很常见,特别是悲伤和遗憾,通常出现在文本的结尾。研究者通过可视化的方式将这些结果呈现出来,以帮助读者在时间、空间、情感和认知元素之间建立联系,促进人们对这一群体和历史事件的了解。

21世纪以来,“文学地理学”展现出日益蓬勃的发展势头,地理学的视野和方法论与文学研究相结合,在文学史、文学批评、文化研究等领域都取得了丰硕的成果。此类基于情感计算的时空关联研究,可以被视为文学地理学的一个重要组成部分,它填补了传统分析数据中在情感这一关键维度上的缺失。

三、当前的困难与可能的解决方案

像大多数数字人文项目一样,对文学作品的情感计算目前仍然处于较为初级的发展阶段。在前面的叙述中,我们已经提到了在每一类研究方向上可能会遇到的具体问题。接下来,我们主要从整体上来说明一下该领域所面临的困难。

在技术上,主要的困难有以下几个方面。其一,缺少一个专用的文学计算情感词典。在大部分研究中,人们使用的都是通用型的情感词典,它们基于新闻、学术著作、社交文本等各种各样的语料库中对某一词语的使用状况来对其进行情感赋值,并不能完全贴合其在文学作品中的情感呈现状况。其二,很多情感词都具有多义性,某些较少使用的情感意向有可能在情感词典中被略去,从而造成计算的误差。即便收录了多种情感意向,但如何根据文本分析合理地从词典中选择正确的项目,仍然是一个巨大的挑战。其三,在一些机器学习的项目中,对情感数值进行人工标注具有较高的门槛,很难通过普通的外包来完成。这进一步加深了这一领域对情感词典的依赖。其四,对检测到的情绪进行人物归因的时候,其定位的规则和有效性仍然有待提升。这不仅是情感计算领域的问题,在文学计算的其他领域——比如人物对话网络的提取——也往往需要将检测到的对话进行人物归因。但情感的归因比对话的归因更为复杂,因此需要建立更复杂的规则, 而且往往还缺少通用性。

以上这些困难都阻碍着文学作品情感计算向更精确、更细致的方向发展。但这些技术困难还并非问题的全部。文学作品本身风格的多样性和叙事的复杂性,也为情感计算带来了很多额外的障碍。

其一,情感计算对白描、留白、隐喻或者隐性的场景叙事是失效的。有时候,作者并不会正面书写某个场景,而只是通过一些侧面的描摹来暗示某件事的发生或烘托某种特定的氛围。比如汪曾祺小说“受戒”的结尾:“[……]青浮萍,紫浮萍。长脚蚊子,水蜘蛛。野菱角开着四瓣的小白花。惊起一只青桩,擦着芦穗,扑鲁鲁鲁飞远了。”(141)看起来只是单纯对芦苇荡的景色描写,其中也没有极性值很高的情感词,但事实上这里是小英子和明子私定终身后的场景,水鸟青桩被惊起,其暗示意味已经很明显了。毫无疑问,这里应该是一个情绪的极高点,但这里蕴含的情感却很难被捕捉到。同样,当人物对话中隐含着讽刺和欺骗时,计算也会遭遇到类似的失效题。

其二, 当下的情感计算通常只借助于孤立的短文本单元,即通过词汇、句子等局部文本来给出一个量化的情感值。因此,故事的背景、前文的铺垫、人物的发展等因素便很容易被忽略掉,这也会给计算带来偏差。以废名的小说“河上柳”为例,其文末写道:“霹雳一声,杨柳倒了,——老爹直望到天上去了,仿佛向来没有见过这样宽敞的晴空。而那褪了色的红纸,顿时也鲜明不少。”(129)不管是宽敞的晴空,还是鲜明的红纸,乍看上去,都是明亮的、积极的,但这种明亮是柳树被木匠砍倒而产生的。在前文中,大量笔墨用于描写老爹和他妻子对这棵柳树的钟爱呵护以及他们一起在树下度过的幸福时光,因此,若联系前文来看,结尾处的晴空不仅不指向积极的情绪,反而是主人公内心空落的象征。

也就是说,在文学作品中出现的情感词,其表面和惯用的极性和情绪类别,并不一定适用于特定的语境。里德(Ethan Reed)曾经以美国黑人艺术运动中的诗歌为研究文本,试图通过情感计算的手段来分析其中与不公正相关的情感是如何依据种族和性别编码的。然而,他发现了情感词的表面含义与它们由文本、社会和政治背景塑造的更微妙的深层情感之间的脱节。比如,“来唱一首歌”(Come Sing a Song)是其“整个语料库中消极情绪值最高的诗”,但事实上这首诗在“对黑人生活和黑人艺术的表达上是积极和欢快的”(Reed 478)。这种情绪计算上的偏差可能是算法所用的文本长度受限所致,也可能是作者有意为之。在中文的诗歌里,就常用到情感的反衬手法,王夫之在《姜斋诗话》里说:“以乐景写哀,以哀景写乐,一倍增其哀乐”(10)。比如在李煜的“望江南”里,“还似旧时游上苑,车如流水马如龙,花月正春风”(转引自唐圭璋 114),通过描写旧时的欢乐景象,反衬出当下生活的凄苦。如何识别此类情绪反衬的写法,对于当下的情感计算来说仍然是一个巨大的挑战。

为了克服上述来自技术与文学本身的困难、推动文学情感计算向更深入的层次发展,以下拟提供一些较有潜力的解决方案。

首先,需要构建一套专用的文学情感词典。这一词典应基于大量文学作品的语料库,特别是那些情感表达丰富、风格多样的经典文学作品。通过自然语言处理技术,从这些文本中提取出情感词汇之后,再结合语义计算与专家标注,对这些词汇进行情感赋值。

其次,为了克服情感计算对局部文本单元的依赖,可以引入上下文感知的情感分析模型。这类模型不仅考虑孤立的词汇或句子,还能够捕捉到故事的背景、前文的铺垫和人物的发展等因素。例如,可以利用深度学习中的长短期记忆网络(LSTM)或Transformer架构,来建模文本的长期依赖关系。通过这种方式,模型能够更好地理解情感词在特定语境下的真实含义,从而减少计算偏差。

第三,为了有效识别文学作品中的隐喻、象征及情绪反衬等修辞手法,可以结合自然语言处理领域的最新进展,如预训练语言模型(BERT及其变体),它们能够较好地理解文本的深层语义。此外,还可以尝试融合其他形式的艺术分析方法,如视觉艺术、音乐等领域的方法论,以辅助理解和解释文学文本中的非直接情感表达。

当然,比起单纯的基于词典的情感计算来说,上述这些方案在技术层面上无疑更加复杂,超出了一般的文科学者或研究生的能力范围。因此,我们应该更加鼓励文学研究者和计算机科学、心理学等领域的学者进行跨学科合作,以便从更多角度理解人类情感及其表达方式,并构建出更为全面和细腻的情感计算框架,提高对文学作品情感解析的能力。未来,随着技术的不断进步和情感计算研究的深入,我们有理由相信,文学作品的情感计算将能够更好地服务于文学及社会学研究、人文教育与文化生产。



引用作品【Works Cited】  

 


Anderson, Clifford W. and G. E. McMaster. “Computer Assisted Modeling of Affective Tone in Written Documents.” Computers and the Humanities 16.1 (1982): 1-9.

陈曦东等:“宋词中情感的时空特征分析”,《地理科学进展》369(2017): 1140-1148

成仿吾:“《残春》的批评”,《成仿吾文集》,《成仿吾文集》编辑委员会编。济南:山东大学出版社,198539-44

废名:“河上柳”,《废名集》(第一卷),王风编。北京:北京大学出版社,2009年。125-129

Heuser, Ryan, et al. “The Emotions of London.” Stanford Literary Lab, Pamphlet 13 (2016): 1-9.

Nalisnick, Eric T. and Henry S. Baird. “Character-to-character Sentiment Analysis in Shakespeare’s Plays.” Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics 2 (2013): 479-483.

Reed, Ethan. “Measured Unrest in The Poetry of The Black Arts Movement.” Digital Humanities2018: Book of Abstracts (2018): 477-478.

唐圭璋编:《唐宋词鉴赏辞典》。合肥:安徽文艺出版社,2000年。

王夫之:《姜斋诗话笺注》,戴鸿森笺注。上海:上海古籍出版社,2012年。

汪曾祺:“受戒”,《受戒》。天津:天津人民出版社,2017年。121-141

张辰麟等:“基于情感分析的‘真假美猴王’存疑研究”,《中文信息学报》33, 3 (2019): 118-125