科技赋能,让尘封已久的字符重新跳动-世界观点
凝聚着前人的心血和智慧的古籍,是传承中华文明的重要载体。为传承文脉,我国2007年启动实施中华古籍保护计划,历经10余年的不懈努力,我国古籍保护事业已取得瞩目成就。然而,受人力、技术制约而造成的古籍保护与传承困境依然存在,一方面古籍数字化的工作还任重道远;另一方面,大众并没有太多机会接触到艰涩难懂的古籍文本。
【资料图】
在当下的数字时代,古籍的再生性保护备受业界关注。2月8日,作为2021年国家古籍数字化工程首批项目,由全国古籍整理出版规划领导小组规划指导,以“北京大学—字节跳动数字人文开放实验室”为基地,整合北京大学和字节跳动双方的力量组成联合设计与研发团队,完成的《永乐大典》高清影像数据库(第一辑),在古籍数字化平台“识典古籍”正式上线,免费面向公众开放。这一项目是《永乐大典》系统性保护研究整理工程的组成部分,致力于开展存世大典的文献数字化、全文化与数字版本征集,全面展示大典风貌及版本魅力,传播大典相关知识与文化,为相关学术研究提供文献资源支撑。
▲ 《永乐大典》(部分) 来源于中国古籍保护网
01
人工智能让古籍焕发新生
我国现存古籍有20万种,据不完全统计,其中已经进行数字化扫描影像的有8万种,而实现文本数字化的仅有3万种至4万种。这意味着,大量的古籍无法在网上找到,或只能阅读影像版本,无法进行内容检索,要找到所需信息,只能一页页翻阅。在业界专家学者看来,古籍保护传承应尽快推进古籍点校整理和数字化,探索多种方式活化古籍。然而当前,中国的古籍数字化还处于初级阶段,面临技术难度高、资金缺口大、人才紧张等难点。
目前数字化、平台化、智能化成为古籍再生性保护的方向。国内一些较为有名的古籍智能平台,在不断尝试让古籍善本以数字化的形式回归。这些平台有着各自的优势,但也各有各的局限性。在这样的情况下,更加开放的合作与探索也开始出现。
从2021年6月开始,字节跳动联合国家图书馆等机构和中国文物保护基金会等,在古籍修复、活化和数字化等领域开展了一系列合作,包括捐资1000万元,联合成立古籍保护专项基金等,定向修复百余册件珍贵古籍。2022年3月,北京大学与字节跳动合作成立“北京大学—字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在海量的古籍文献上,实现对古籍内容的智能化整理和古文本知识图谱的自动生成。2022年10月,古籍数字化平台“识典古籍”正式上线,应用了AI(人工智能)模型、分词检索技术等,向公众免费开放685部经典古籍。
过去,古籍的数字化整理主要依赖人工完成,而蓬勃发展的人工智能技术正在给古籍整理提速。据了解,“识典古籍”平台主要使用了3种技术,即文字识别、自动标点、命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
与其他古籍数字化平台相比,“识典古籍”具有自身的特点,页面简洁,浏览流畅,提供影印底本作为参照,还具备主题词检索和繁简体转换功能,便于专业研究人员、广大古籍爱好者使用。同时,“识典古籍”书目将持续更新,后续将上线手机移动版。未来,“识典古籍”将向全社会开放古籍阅读检索研究能力,还将实现全自动整理校对,更高效地实现存量古籍全部数字化。同时,平台也鼓励拥有文献的学者自行上传文献,用户甚至可参与再创作和再阐释,助力古籍文化传承和研究。
02
让古籍的传承发挥最大价值
北京大学教授安平秋曾说,古籍不仅仅要收藏,还要使用。大量读者的接触和阅读,是对中华优秀传统文化典籍的保护传承。国家图书馆副馆长、国家古籍保护中心副主任张志清同样在古籍推广活动中提到,希望大众从了解珍贵的古籍开始,亲近古籍,从而自觉地保护古籍。
对于传承保护工作而言,古籍普及、修复、妥善保存是第一步,也是传播的基础。接下来,古籍数字化则成为古籍保护的重要内容,也是降低古籍获取门槛的必要策略。尤其在数字时代,越来越多人的阅读习惯已经更替,读书再也不能狭隘地界定为看纸质书,通过电脑或者手机屏幕,一样可以进行深度阅读。这种习惯的更替趋势是不可逆的,适应全新的阅读习惯,才能更好地传承古籍。
《永乐大典》高清影像数据库免费上线,为古籍爱好者乃至多数普通人带来阅读、使用的便利,加大了古籍的活化利用水平,成为对古籍更好的一种保护方式。《永乐大典》高清影像数据库(第一辑)收录国家图书馆藏《永乐大典》40册、75卷,共涉及14个韵部、17个韵字、1800部书,除呈现《永乐大典》高精图像、整体风貌及相关知识外,尝试对部分大典内容做了知识标引示范,为后续《永乐大典》的知识体系化、利用智能化进行探索。
在面对古籍数字化这一问题时,项目设计与研发团队就一直在思考:如何让一个习惯刷手机的普通用户来看这些晦涩难懂的古代文献呢?对此,团队希望以“重新阐释”的方法来活化古籍。“这种重新阐释不是一字一句去翻译,而是要跟当代人生活结合在一起,为我们当代人精神提供养料,这样才能真正实现活化。”这意味着,将整理古籍这件事放到全球文明体系下来看待,典籍的重新整理不仅要连接过去与现代,而且要沟通东方和西方。这一理念也成为北京大学和字节跳动合作的一个终极目标,即要打造融媒体环境下典籍传承的完整生态,为当代人提供心灵滋养和精神寄托。
去年,“北京大学—字节跳动数字人文开放实验室”已经制定了初步目标:在未来3年内陆续完成1万种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。项目团队的技术理想是通过人工智能算法实现古籍全自动整理校对。如果能够实现这一目标,团队也非常愿意将其开放给全社会,让人们能够免费使用他们的平台。
03
古籍“活化”还有更大的想象空间
实际上,古籍的大众传播是个难点。但是近一两年,通过电视节目和纪录片,以现代方式解读古籍、记录古籍修复过程,正在逐渐拉近大众与古籍之间的距离,引发大众对古籍文学的关注和学习。艺术创新与媒介传播的方式加大了古籍的活化利用水平,成为对古籍更好的一种保护方式。这样的尝试也让更多人意识到,更多社会力量的加入将会成为古籍保护的巨大推动力。
为进一步推动社会力量参与古籍保护事业,实现传统文化与现代科技的深度融合,一些企业已经率先行动起来。此番字节跳动与古籍保护单位的合作并非偶然。随着短视频应用的普及,极其丰富的与非遗、传统文化相关的内容出现在短视频平台上,这些曾经小众、分众传播的内容结合互联网技术以及网络社交属性,不断融入生活,引发大众的关注和喜爱。古籍相关内容也不例外,据抖音平台的数据显示,抖音平台与四大名著、二十四史、四书五经相关的视频播放量超过600亿次,其中“人气古籍”占据前3位的分别是《西游记》《山海经》《三国志》,涵盖说书、漫画、影视、演绎、好书推荐、美食、音乐等多种内容体裁。可见,短视频助力古籍活化传承的优势已经有所体现。
一些从事古籍保护和修复的年轻学者,主动选择以短视频平台推广宣传古籍保护理念以及修复技术,通过平台记录修复过程。此前,字节跳动公益联合中国文物保护基金会、国家图书馆发起“寻找古籍守护人”活动,招募创作者通过抖音、西瓜视频、今日头条等平台,创作相关内容、推动古籍活化、助力传统文化传承。国家图书馆副馆长、国家古籍保护中心副主任张志清,古籍修复专家杜伟生,漫画家蔡志忠,学者周国平及抖音美食创作者李子柒等来自不同领域的9位专家学者、文化名人和抖音达人加入该活动,成为“古籍宣推官”。
当然,古籍保护并非只是保护古籍那样简单。2017年,我国首个古籍保护五年规划中就提到,“组织开展古籍宣传推广活动”“加强古籍文化创意产品开发”。这些举措都在充分发挥古籍自身的历史与文化属性,让古籍“走出”深闺,走进大众视野,从而为古籍保护工作提供内在的持续动力。因此,古籍保护中同样需要注重古籍价值的多元化利用。“寻找古籍守护人”这一活动强调古籍活化,激励创作者通过说书、绘画、复原美食等不同的形式,普及古籍知识、演绎古籍内容,让古籍鲜活起来。
浩如烟海的典籍资源不应被束之高阁,它应与现代生活联结,向大众普及。“汲古慧今”,这才是古籍保护在当下的意义。
2023年2月9日《中国文化报》
第6版刊发特别报道
《科技赋能,让尘封已久的字符重新跳动》
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓