社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
当前所处位置:首页>>综合呈现>>文献
选择文字大小[大] [中] [小]

刘春雪:我国出土文献数据库出版述论

发布日期:2019-07-29 原文刊于:《出版与印刷》 2019年第1期

摘要:文章通过梳理出土文献数据库出版情况,分析其存在的问题,并据此提出改进意见与建议,以改进目前出土文献数据库出版现状,提高出版质量,从而更好地实现出土文献资源的共享、保存、检索,进而推动其研究、传承、传播。

关键词:出土文献;数据库出版

出土文献,与传世文献相对而言,指出土文物中的文字资料,包括甲骨文献、金文文献、石刻文献、简帛文献及其他出土文献(玺印、砖瓦文字)等。据统计,自19世纪末至今,我国出土文献已达30余万枚(件),年代涵盖商、周、春秋、战国、秦、汉、三国及魏晋等,内容包含政治、经济、文化、军事、法律、宗教、哲学诸多领域,为各学科研究提供了新材料与契机。经过众多学者的抢救、保护与整理,大部分出土文献已经得到纸质影印出版。为了给读者呈现出土文献的原始面貌,此类纸质出版物包含有原始文字的影印照片、拓片等,出版商考虑印刷效果,往往用铜版纸印刷,导致出版物开本过大、纸张过厚、册数过多等。这些出土文献的纸质出版物分藏于世界各地,不利于读者收藏与查阅。加之百余年来海内外学者积累的简帛研究文献有万余篇(部),仅凭个人目力和精力难以穷尽。随着数字摄像与扫描技术、数据库技术与网络技术的日臻成熟,以及人们对古文字释读水平的不断提高,出土文献的数字化为解决这一问题提供了机遇,借助计算机的强大功能全方位开发利用出土文献,可实现出土文献资源的共享、保存、检索,从而推动其研究、传承、传播。

目前,针对中文古籍数字化整理的研究颇多,而专门就出土文献数据库出版的研究较少,笔者通过知网查询有以下几篇:梁松涛、赵艳平的《浅析我国出土文献数据库建设的制约因素及对策》,尤建辉的《出土文献数字化整理简述》,张文玥的《中文古籍与出土文献数字化述论》,以及毛建军的《金石文献数字化资源述论》《简帛文献数字化述论》《甲骨文献全文数据库之建设与思考》等。以上研究或兼论传世文献与出土文献数字化出版情况,或简要论述出土文献数据库出版情况,或就某一出土文献类别进行数字化出版研究,但总体而言缺少系统深入的研究。本文将在已有研究基础上,就出土文献数据库出版情况按出版地域进行系统梳理,分析其存在的问题并据此提出改进意见与建议,以期为出土文献数据库出版提供有益启示与参考。

一、出土文献数据库出版概况

出土文献研究学习中对出土文献数据库的依赖逐渐增强。近20年来,在出版转型升级的推动下,作为出土文献数字出版领域的重要组成部分,出土文献数据库建设得以快速发展。

1.日本对我国出土文献数据库出版情况

由于地缘因素,以儒学为重要内容的中国传统文化对日本产生巨大影响,日本各相关研究机构收藏有大量的中国简帛文献。近年来,以京都大学、早稻田大学和奈良文化财研究所为代表的日本研究机构致力于简帛文献数字化资源的开发与出版工作,取得一定成果。

甲骨文数据库:京都大学人文科学研究所研制。该数据库可提供文字检索和全文阅读服务,是以《京都大学人文科学研究所所藏甲骨文字》(日本汉学家贝冢茂树编著)为底本进行数据录入的。

楚简数据库:早稻田大学文学部工藤研究室研制。该数据库由楚系文字资料库和简牍资料库两部分组成,设计了检索功能,使用者可选择字词、篇章等进行检索。内容包括长沙子弹库楚帛书、河南信阳长台关楚简、鄂君启节、湖北江陵望山楚简、湖北随州曾侯乙墓竹简、湖北江陵天星观楚简、湖北荆门包山楚简、湖北荆门郭店楚墓竹简等地点出土的竹简、帛书及青铜铭文。

Web版木简数据库:奈良文化财研究所研制。内容有文书数据库、木简数据库、遗迹数据库与墨书土器数据库等,可进行全文影像阅读及文字(图像)检索。如《木简字典》数据库,将木简的各个文字的各种图像及注解等与木简本身的资料相互关联起来,可检索与检索词相一致的图像,也可通过详细设定项目来检索图像。

2.港台地区出土文献数据库出版概况

港台地区出土文献数字化出版情况良好,主要出版者是香港中文大学中国文化研究所、台湾中央研究院历史语言研究所及台湾成功大学。

汉达文库:香港中文大学中国文化研究所古文献数据库中心编辑出版。该数据库包括甲骨文资料库和竹简帛书资料库。甲骨文资料库收录了九种大型甲骨文书籍,共计卜辞6.7683万片,设有甲骨文字之字形总表,可同时显示甲骨文字原字形及隶定释文,并可以通过多种方式进行检索[1]37。竹简帛书资料库收录《马王堆汉墓帛书》等十二种竹简帛书出土文献,共约140万字[2]72,附有释文、图像逐简对照显示,提供便捷的检索方式,并且检索结果可以直接列印或存档,方便查阅。

甲骨文全文资料库:香港中文大学中国文化研究所与中国社会科学院历史研究所合作建立。该资料库以胡厚宣主编的《甲骨文合集》十三册释文集为底本,共计收入4万余片甲骨,约86万字卜辞。[2]73 

郭店楚简资料库:香港中文大学图书馆与香港中文大学中国语言及文学系张光裕教授共同研制。该资料库为《唐虞之道》《忠信之道》《成之闻之》《性自命出》《六德》以及《语丛》《老子》《穷达以时》《缁衣》等十六篇道家及儒家著作的释文修订本,可按竹简编号、书目或篇目、作者及出处或内容项下输入欲查检资料的关键词即可检获所需。

简帛金石资料库:台湾中央研究院历史语言研究所文物图像资料室建设。该资料库收录60余种简帛金石资料及研究书目、索引等共计340.1684万字纯文字数据,包括《睡虎地秦墓竹简》等资料著述较为集中的大型报告,支持布尔运算、复合检索、词组查询、排除字符及自然语言查询。

先秦甲骨金文简牍词汇库:台湾中央研究院历史语言研究所研制。该词汇库收录简牍、金文和甲骨文三种文字材料,共收录词汇约13万条。甲骨文主要采用《殷墟甲骨刻辞摹释总集》;金文收录《殷周金文集成》《新收殷周青铜器铭文暨器影汇编》,以2005年以前出土的青铜铭文为主;简牍包括《楚帛书甲乙丙本》《曾侯乙墓竹简》《包山楚墓竹简》《望山楚墓竹简》《江陵九店东周墓竹简》《郭店楚墓竹简》《新蔡葛陵楚墓竹简》七种文本的词汇资料。以上材料分为词汇检索与全文检索。另收录《睡虎地秦墓竹简》《云梦龙岗秦简》《上海博物馆藏战国楚竹书(1—7册)》,提供全文检索。

甲骨文拓片数据库:台湾中央研究院历史语言研究所研制。该数据库具有文字信息与拓片影像对照功能。该数据库共有拓片约4.5万张,包括历史语言研究所傅斯年图书馆所藏甲骨文拓片、史语所藏甲骨文拓片以及考古学门库房所藏《善斋藏契》拓片。

甲骨文全文影像数据库:台湾成功大学中文系甲骨学研究室、图书馆、信息工程研究所联合开发建设。该数据库将《甲骨文合集》《殷墟甲骨刻辞摹释总集》及《殷墟甲骨刻辞类纂》等相关征引资料全文整合录入,共计4.1956万片甲骨文影像及释文、摘要,具有释文、分类、出处、关键词、摘要检索、跨字段查询、词组索引浏览、快速显示数据、拓片局部缩放以及打印或存储等功能,可实现全文检索和全文影像阅读[1]38

3.中国大陆地区出土文献数据库出版概况

相较于港台地区出土文献数字化出版,大陆地区起步较晚,但因为大陆地区简帛文献收藏最为丰富,近年来数字化出版取得了快速发展。2007119日,《关于进一步加强古籍保护工作的意见》由国务院办公厅下发,提出了制订古籍数字化标准,规范古籍数字化工作,建立古籍数字资源库的要求。

简帛网站:武汉大学简帛研究中心设立。该网站编辑出版有简帛字形辞例数据库以及简帛文库数据库。简帛字形辞例数据库收录楚帛简(郭店1号墓简、上海博物馆藏简、包山2号墓简、望山简、九店简、长台关1号墓简、曾侯乙墓简、新蔡葛陵墓简、清华大学藏简)、秦简牍、汉简帛等,可按照单字、偏旁进行字形检索,或按照单字进行辞例检索。简帛文库数据库可按楚简、秦简、汉简、三国晋简、帛书、古文字等分类检索相关的研究论文。

复旦大学出土文献与古文字研究中心网站。该网站设立甲骨金文、战国文字与简帛等栏目,定期刊登金石简帛等出土文献的最新研究成果,并按季度汇总出版网站所载论文。另外,中心还编辑出版学者文库,按甲骨金文、战国文字与简帛等对论文进行分类汇总,可按类别检索查看相关论文。

清华大学出土文献研究与保护中心网站。该网站将《出土文献》纸质杂志论文在网站上进行全文数字化出版,并编辑出版学者文库,其中古文字研究按甲骨金文、战国简帛、秦汉简牍等进行论文分类汇总数字化出版。

出土文献文字数字化资源库:华东师范大学中国文字研究与应用中心建设。该资源库包括商周金文检索系统(按字头进行检索)、战国楚文字检索系统(提供随文显形功能,及GBK编码范围内通用字头的检索)、《古文字诂林》电子检索、花园庄东地甲骨检索系统、《金文文献集成》电子检索、常用古文字字形检索[1]36

瀚堂典藏数据库:北京时代瀚堂科技有限公司开发建设。该数据库是目前唯一的集成性中国出土实物文献数据库,其中专题文献库中的出土文献库,含有甲骨文、金文、简帛、印章、印谱、钱币和石刻分库,可利用标题、出处、书目或全文进行检索,支持打印、复制功能,并附有联机字典。

甲骨世界数据库:中国国家图书馆研制。该数据库包括甲骨实物:元数据2964条,影像5932幅;甲骨拓片:元数据2975条,影像3177幅。数据库的著录包括贞人名字、出土地点、时代、来源方式、尺寸、数量、材质、书体、缀合信息、内容主题、释文、参考信息、对应拓片等,读者可依据这些途径进行全文检索。此外,该数据库还有工具库链接功能,便于读者参考相关文献。

甲骨文资料数据库:首都师范大学教授黄天树与河南大学教授王蕴智主创研制。该数据库收录海内外32种重要的甲骨著录与缀合材料,录入计算机系统近8万片甲骨原片,共有15.73万余条刻辞,原文与释文达340万字,成为大数据、云平台支持下甲骨文字考释研究的重要基础。

甲骨文图文资料库:安阳师范学院历史系教授韩江苏课题组建设。该资料库把图、文、字结合起来,由甲骨文图片库、释文库、原形文字库三个数据库组成,收录了《甲骨文合集》《补编》《英藏》等九种甲骨著录共7.2264万片甲骨。

中国甲骨文献库:四川天元文化产业公司、成都商网信息科技公司联合制作。该数据库以宋镇豪先生主编的四十本《甲骨文献集成》为主要内容,包括海内外数千位学者的有关甲骨论著2000余种。图片扫描质量清晰,可方便地按原书页码浏览和存储。

国际敦煌学项目数据库(IDP数据库):中国国家图书馆和英国国家图书馆于1995年合作创建,利用统一的平台发布文献信息与图像。截至20167月,IDP数据库已经拥有文物文献图像数据达48.7万幅。其中,英国国家图书馆上传16.9万幅,中国国家图书馆上传4100件敦煌遗书的15.1万幅。若此项目最终完成,预计图片将超过100万幅。IDP设有高级检索、目录查找、书目检索等多层次检索系统,其中高级检索设有文献馆藏号检索。

敦煌文献数据库:中国国家图书馆创建。共选收流散英、法、俄等国的具有研究前景的汉文文献3000件,分为佛书编、遗书编和文书编。佛书编收录佛教经、律、论、疏释、赞文、陀罗尼、发愿文、启请文、忏悔文、祭文、僧传、经目等写本1000件;遗书编收录经、史、子、集四部典籍及道经、变文写本500件;文书编收录律、令、符、牒、状、帖、榜文、判辞、过所、公验、告身、籍帐等官文书,契券、社司转帖、帐历、书牍、分产等私文书,僧官告身、度牒、戒牒、僧尼籍、转经历、追福疏、诸色入破历、器物名籍等寺院文书共1500件。

敦煌古藏文文献数据库:西北民族大学海外民族文献研究所创建中。预计未来两三年该数据库将实现所有法藏、英藏敦煌古藏文文献的出版,数据库嵌入了智能检索等功能。

兰州大学敦煌学数据库:兰州大学敦煌学研究所创建。该数据库分为石窟子系统、遗书子系统及文献子系统三大类,每大类下又分为若干小类,可按照数据进行查询。

敦煌学术资源网:敦煌研究院创建。该资源网包括敦煌学馆藏目录数据库、期刊报纸会议论文全文数据库、电子书数据库、敦煌手稿文献数据库、敦煌石窟内容总录数据库、敦煌学研究图书目录数据库等。

敦煌文献库:陕西师范大学出版总社开发制作。该文献库收录北敦、斯号、英藏、伯号、法藏、俄藏、甘藏、北大、沪藏、津藏、台藏、港藏、美藏、爱尔兰藏十四类敦煌文献,由敦煌文献目录数据库和敦煌文献图版数据库两部分组成。目录数据库包含文献编号、文献编号备注、文献名称、文献名备注、备注说明、文献分类、收藏机构、题记说明、文献释文、规格品形、研究著录等;图版数据库收录了对应编号的原件图版文件,每个图版都有小图、中图、高清图三种类型,供用户按需使用。原版原貌,确保文献的准确性与研究价值。截至20165月,已入库文献涉及编号7.2513万个,不同印本重复计算为9.7046万条记录,收入图版文件51.7022万个(所有图版都收录了目前可能得到的最清晰图版文件),数据量近1TB。读者可以通过一般检索、模糊检索或高级检索精准查询功能快速找到需要的资源,也可以通过文献浏览模块,按照文献编号、文献名称、收藏机构三种方式浏览资源。

西夏文献数据库(西夏碎金):中国国家图书馆创建。该数据库以国家图书馆保存的西夏、元代孤本及各种西夏的珍贵实物资料为基础建设而成,包括西夏文献和西夏论著。其中西夏文献含书目数据124条,原件影像近5000幅;西夏论著含研究论文篇名数据1200余条。

二、出土文献数据库出版中的问题

出土文献数据库出版方兴未艾,存在一些急需解决的问题。

1.各类型文献数据库开发程度不均衡

出土文献数据库出版基本上以甲骨文为主要类型文献,上文所列举数据库中有接近一半数量是专门的甲骨文数据库,或是某一综合数据库的一部分。而帛书专门数据库建设非常薄弱,尚没有专门的数据库,只是零星分散于其他综合数据库中。关于镜铭、碑文、砖文、官印等也只是被少量数据库收录。

2.数据库重复建设现象严重

由于缺乏国家层面的宏观调控与管理,加之各数据库出版商不重视用户需求和市场环境,缺少市场调研,各建设单位之间缺少沟通协作,导致严重的重复建设,陷入内容同质化竞争中,造成数据库用户聚合度有所削弱。如相对出土较早的文献甲骨文,日本、港台地区及大陆地区等国内外研究机构先后共建设规模不等的数据库10余个,内容大都重叠,极大地浪费了人力、物力、财力。

3.数据库内容获取比较困难

由于出土文献距今久远,有的人为或自然损毁严重,与传世文献相比,其整理、研究难度更大,且研究成果分布零散,很难在短时间内将大量文献资料收集齐备。因此与其他文献数据库相比,其数据库建设制作和维护投资也更大。由于国家支持资金有限,所以大部分数据库建设通过以企业为主导的商业运作来完成。各建设单位因为考虑商业利益,往往对数据库进行加密,提供有偿使用或仅限于局域网使用,导致资源无法实现共享,削减了其使用价值。

4.各数据库无法兼容

由于数据库制作主体、方法和目的差异,目前出土文献数据库存取和读取格式、数据格式、访问方式及检索界面不尽相同,一个单位一个制式,一个地区一个标准”[3],尚无统一的行业标准和地方标准。从标准内容来看,虽然涉及著录标准、数据加工标准、元数据标准、对象数据标准、管理数据标准等,但标准内容不全面、不系统,尚缺采样、量化、字符编码、检索与应用等环节的管理标准与工作标准[4],导致各数据库无法兼容。

5.数据库集成性欠缺

受资金、人才及出土资料数量庞大、研究成果分散等方面的限制,目前尚缺少集成性出土文献数据库。从目前的产品来看,出土文献数据库的开发有三种主要方式:一是按照古籍的原貌原样扫描或影印的原样型数据库,如陕西师范大学出版总社开发制作的敦煌文献图版数据库;二是对古籍进行全文录入的文本型数据库;三是按照特定需求开发的知识服务型数据库,如中国甲骨文献库收录有关甲骨文中文及外文论著、论文达2000余种。目前只有少数数据库实现以上三种方式的集成,大多数出土文献数据库开发方式仍为单一型,不能满足读者对研究资源获取的一站式要求。

6.网站缺少互动功能

不少出土文献数据库网站缺少互动交流等个性化服务的设计,如简帛网站、清华大学出土文献研究与保护中心网站等数据库都没有设计互动和开放板块,读者与读者、读者与作者,以及读者、作者、研究所之间无法进行互动和交流,一定程度上限制了用户参与度。

7.数据库内容更新慢,整体质量有待提高

由于出土文献距今年代久远,且有些是用少数民族语言文字书写的文献,其文字释读难度较大,因此学术研究周期较长。随着研究的发展,虽然其内容处于不断更新、补充中,但由于原创人员的更换、数据库服务商及经费方面等原因,造成已建数据库知识、内容的更新、补充不及时。如《上海博物馆藏战国楚竹书》,其纸质出版物出版周期从2001年至2012年,历时12年,共计出版了9册,相关数据库如台湾中央研究院历史语言研究所研制的先秦甲骨金文简牍词汇库仅收录了其中的1—7册,目前还未完成其余2册的内容补充工作。

8.数据库著作版权纠纷

目前出土文献数据库内容一部分是通过扫描、拍照等方式制作获得的,一部分是将传统出版机构的已有内容集成在一起形成数据库产品。由于体制束缚和技术壁垒,我国出土文献数据库的出版以研究机构、科技公司为主导,而拥有内容资源的传统出版机构参与度不高,这就造成内容提供商与数据库出版商相分离,导致一些版权纠纷。

三、改进出土文献数据库出版的建议

1.加强选题论证,做好统筹规划

针对资源重复建设问题,各出土文献数据库出版商要加大调研力度,做好选题论证、数据采集等工作,尽量提供差异化的专业产品与服务,注重突出专业化特色。国家有关部门如国家图书馆、国家古籍保护中心等应按照统一规划、统一标准、合作共建、资源共享的原则来协调出土文献资源数据库建设,成立出土文献数据库建设选题管理与控制小组,可根据各研究机构的比较优势来分配数据库建设任务。

2.转变数据库产品开发模式

针对利益保护导致资源利用率低下问题,我国出土文献数据库产品开发模式应由以企业为主向政府规制模式转变,即由政府财政拨款,委托下属职能部门如图书馆、博物馆、文化馆、高校、科研院所等机构负责数据库建设,并向大众提供免费使用。出土文献的整理、保存与研究工作主要由以上研究机构承担,只要解决资金问题,由上述机构负责出土文献的数据库建设和开发,具有知识准确性、内容结构合理性、搜索设置科学性等优势。

3.制定统一数据库标准

国家有关部门要加快数据库标准的研制,整合现有标准,制定出既符合出土文献特点,又能够适应数字化技术,具有一定前瞻性的全国统一的强制标准,使用相同的数据格式,选用兼容的信息处理、传输、访问技术,采用同样文件格式标准,以实现数据库之间的兼容,保证数字资源质量,实现信息资源的共享。

4.加强数据库类型引导,加大国家财政支持力度

集成性出土文献数据库融出土文献原样、文本、知识服务于一体,可以节约研究者的时间成本与物质成本,从而提高研究效率,对相关研究深入推进具有重要意义,研究者对此具有迫切需求。国家有关部门应引导各出版商向建设此种集成性出土文献数据库倾斜,并以国家级课题经费、文化产业发展专项资金经费、新闻出版改革项目资金等形式给予一定资金支持。

5.改善网站设计,增设互动板块

由于出土文献距今久远且大多无传世文献可对照研究,因此研究结论具有很大开放度与争鸣性。针对此情况,出土文献数据库出版网站应将互动交流板块作为网站不可或缺的一部分,并派专人作为该板块管理员进行维护并根据出土文献研究重点、热点定期发起讨论话题。

6.密切关注相关研究动向,做好数据库的更新补充工作

与传统出版相比,数字出版具有出版内容后期快速更新与补充的优势。为提高数据库时效性及使用效率,增强数据库竞争力,数据库出版商要紧跟相关出土文献学术研究成果发展步伐,指定专门人员密切关注、搜索其最新研究成果,协调、督促数据库服务商在后台及时对数据库内容进行更新、补充,以使其更准确全面。

7.推动传统出版机构涉足数据库出版

拥有内容资源的传统出版社要转变思路,通过人才引进,主动涉足出土文献数据库出版,由传统出版商转变为数字出版商,从传统的出版内容提供商转型成为现代信息服务提供商,从而保证出土文献数据库版权的清晰。如陕西师范大学出版总社汉籍数字图书馆(敦煌文献库)、中华书局中华经典古籍库、国家图书馆国家数字图书馆(西夏文献数据库﹝西夏碎金﹞、甲骨世界)的建设都实现了内容提供商与数据库出版商的统一,避免了版权纠纷。

参考文献 

[1]毛建军.甲骨文献全文数据库的建设与思考[J].图书馆学研究,2010(23)37-38+36.

[2]尤建辉.出土文献数字化整理简述[J].黑龙江史志,2014(21)72-73.

[3]王耀辉.浅谈数字出版的优势和存在的问题[J].科技情报开发与经济,2009(10)81-83.

[4]任竞,袁嘉芮,袁佳红.巴渝古籍数字化开发模式研究[J].重庆文理学院学报(社会科学版),2018(2)74-79.