2026年4月15日下午13:30,中国科学院自然科学史研究所孙显斌研究员以“数字人文视野下的古籍数字化”为题做讲座,讲座由华东师范大学中文系古籍研究所张文副研究员主持。讲座参与者还有华东师大中文系刘成国教授、汤志波副教授、王耐刚副教授、朱学斌老师、刘宏辉老师、传播学院钱礼翔老师,南京师大文学院刘国宣副教授,以及华东师大中文系本科生、硕士生和博士生约三十多人。

讲座伊始,孙老师分享了人工智能发展的两个路径:其一注重逻辑推理,为演绎路径;其二重视大数据和概率判断,为统计路径。目前,统计路径是AI发展的主流,但以此训练出的AI存在幻觉、边际效应、黑箱等问题。唯有结合演绎与统计路径,以此研发垂类大模型和数据精良的知识库,方能解决此类问题。本次演讲主要围绕逻辑演绎路径在古籍数字化过程中的探索和运用来展开。
首先,孙老师提出,数字人文方兴未艾。他将数字人文定义为基于数据的人文研究,同时指出,由于阅读和接受是一个二次创造的过程,诞生于机器和数据的智能与人的智能是共生的,所以“人文”与“数字”不可偏废。孙老师又梳理了数字人文的国际发展概况,并着重介绍了华文世界的研究史以及相关机构、会议和期刊等。孙老师认为,数字人文是一个交叉学科,但实现跨专业需要先有人文专业的基础;数字人文是新文科的一个重要组成部分,其发展将进一步明晰新文科的定义;数字人文将改变当下基于纸质文本的人文研究范式,构建数据库、研发各种用于分析的大模型,将扩充研究资料,更利于开展面向世界范围的人文研究。
随后,孙老师回顾了中文古籍数字化的发展历程。他指出,我们处在一个特殊的时代,既面临严峻挑战又潜藏无限机遇,当下的文献资源最为丰富,也因数量庞大而难以被消化。为解决这一问题,我们应当紧抓和继续发展人文学科的核心研究方法——文本精读,因为人的体验和理解不可被机器代替。纵然文本精读面对大量材料会显得无力,但通过人工智能的远读法进行数据挖掘将弥补这一缺陷,所以如何使用大模型实现无幻觉的真正远读将是未来的研究方向。孙老师于是介绍了本体与文本标记这一先进技术,他首先梳理了典籍数字化的三个层次,即图像化、文本化和知识化(本体化),指出检索是数字化的关键目的,但由于文本数据质量不佳、语义指向模糊等问题,检索难以精准。由此孙老师引入了本体概念,以本体用来描述一个知识元,也即一个语义所指,将文本中的知识元进行标记,使语义相同的文本标记都链接到相应的同一知识元。如此,检索将变得精准,远读也将成为可能。
在此基础上,孙老师对当下古籍数字化的工程实例进行了简介。首先介绍了“资治通鉴分析平台”,讲解该平台对本体与文本标记技术的运用,展示了系统的功能,如全文增强阅读、本体导航、全景分析功能等,讲解了。其次介绍了最新成果“阅藏知津:中国历代典籍目录总库”,以王祯《农书》的传播史和知识史研究为例,展示了这一数据库的现有功能以及未来发展目标。

最后,孙老师对古籍数字化进行了展望,鼓励研究者关注古籍OCR技术、自动句读标点、命名实体标记和古籍大模型等。
报告结束后,主持人张文老师做了简要总结,孙老师和在座师生就数字人文技术、古籍数字化以及数据库建设等问题进行了深入交流。孙老师的演讲拓宽了在座师生的思路和视野,令人受益匪浅。