5月11日下午,华东师范大学古籍研究所“光华古文献学讲坛”第14讲,在闵行校区人文楼冯契学术成就陈列室举行。本次讲座由北京大学中文系杨海峥教授主讲,主题为“数智时代的文献学”。讲座由华东师大古籍所副研究员张文老师主持。

讲座讨论了古典文献学从传统到智能时代的发展,包括知识管理方式、研究范式转变、问题及展望等内容。杨老师首先阐释了古典文献学的定义,指出其核心内容是对文献本体的研究,可以关联古代文化和学术史的方方面面。文献学关注如何全面、快捷地获得文献,因此知识管理的理念在传统文献学中已经存在,目录、类书正是中国古人进行知识管理的产物。但是,古代的目录和类书实际并未能实现真正高效的信息检索,因此从明代开始,读书人开始编制索引。新中国成立后,索引成为古籍整理工作的重要组成部分。以上为传统文献学的知识管理方式。
智能时代的知识管理方式经历了数据库、知识库再到大语言模型的三次升级。数据库可以分为影像数据库(如中华古籍资源库)、全文数据库(如中国基本古籍库)和目录数据库(如中华古籍书目数据库)三种,为古籍研究提供了便捷的检索方式。知识库是在数据库基础上对古籍文本进行二次加工(包括标点、实名标注、信息抽取和整合、关联外部资料库等)后的产物,如中国历代人物传记资料库(CBDB)、中国历史地理信息系统(DSGIS)。大语言模型的出现将知识的数字化管理推向新的高度,用户可用自然语言提问,大模型根据固有知识或联网搜索整理信息回答。但目前大模型存在知识储备有限、产生“幻觉”等问题,可使用 RAG 技术提升。
技术发展带来研究范式的改变。随着古籍数据库的出现和成熟,学者利用电子数据库辅助研究,发展出“数字文献学”研究范式,如黄一农提出“e考据”概念并运用于曹氏家族和清代避讳研究,艾俊川用《四部全书》电子版检索语料,论证“莫须”在宋代的释义。以“远读(distant reading)”为核心概念的“数字人文”研究方法兴起后,在文献学领域产生了“计算文献学”。文本分析、网络分析、可视化分析是计算文献学研究的三种经典范式。
杨老师指出,数字人文对文献学的影响也带来一些问题,如研究者人文素养不足,无法做出有意义的解读,无法提出有意义的议题;当前技术的局限性无法穷尽复杂的人文材料,语义计算的工作逻辑与经典的“知人论世”“以意逆志”文学鉴赏和批评方法相悖,且大语言模型的人文数据总量不足;数字人文研究需要古典文献专业学生进行大量标注工作,但标注过程枯燥,消耗时间和精力,难以提升学养;该领域缺乏统一管理,各类数据库、知识库存在重复建设、缺乏合力的问题,商业运营也影响了资源的共享和利用。
谈及对未来的展望,杨老师提出了智能文史知识平台和公共资料库这两个构想。智能文史知识平台服务于沉潜文本的古典研究方式,以数字化的方式管理笔记(相当于数字札记或卡片),且能实现不同数据库之间笔记的互通、统一导出和管理,建成个人知识库。公共资料库则是个人知识库的基础,关键在于保障数据质量、统一协同标准,需要高校和商业公司的协作。

主持人张文老师对讲座进行了简要总结,他指出杨老师的报告内容丰富而厚重,体现了对学科发展前沿重大问题的思考,其中对各种数据库性质特点的详细介绍,对数字人文最新技术及研究范式的直观展示,以及对古典文献学未来发展趋向的展望,对智能文史知识平台和公共资料库建设的构想,对于从事古典文献学的研究具有重要指导意义。讲座的最后,杨老师与在座师生就“人工智能的归纳、演绎、逻辑推理功能”“数据库的资料来源”“AI时代的读书方式”等问题进行了深入交流。本次讲座在师生热烈的掌声中结束。