数学考15分的钱锺书出道计算机题 这些人研究了35年(3)
时间:2019-11-20 01:25 来源:网络整理 作者:bosi 点击:次
他来院里开会,常常先到计算机室落脚。每年过生日收到很多蛋糕和鲜花,都叫出租车送来计算机室,或让学生去他家取,鲜花插瓶,蛋糕分吃掉。 研究规范、规划和方案,都是钱锺书亲自制订的。 80年代中期,使用繁体字是一个敏感的事情,但钱锺书要求他们尊重著作原貌,必须使用繁体字。 先前录入《论语》时,栾贵明使用的是计算机自带的输入法,缺字严重。他们搜罗了近十个中文输入系统的资料,请钱锺书选定,钱锺书敲定了台湾的朱邦复创制的“仓颉输入法”。 这种输入法以字首笔作为分类,字身作为补充,可以随时添加新字。钱锺书给了栾贵明一万余元,购买了仓颉输入法硬卡。到现在,“中国古典数字工程”一直在使用这种输入法。 在仓颉输入法的框架下,他们研制出了有近3万汉字并具有繁体字自动生成功能的“全汉字库”。 钱锺书要求,数据库仅收录中华民国建立之前的古籍。他提出,打破经史子集的传统分类,用作者统揽作品,这在古籍整理领域是一种创举。 他还亲自指定了录入所使用的文献底本。他认为,受时代局限和政治考量的影响,乾隆年间完成的文渊阁本《四库全书》有很多不准确和遗漏之处,因此要避免采用。在《全唐诗》版本的选择上,他指定使用乾隆年间江南诗局的原刊本。 在《史记》版本的选择上,则使用张元济编的百衲本中的宋本。钱锺书认为这些版本收录全面,也更准确,同时能避免侵中华书局的权。而当时社会上普遍还没有版权意识,《中华人民共和国著作权法》要到1990年才首次颁布。 慎用现代汉语中的标点符号,正文和后人的注释不得混淆,也是一大规范。钱锺书告诫研究小组:“你们是裁缝,只能是量体裁衣,不能做外科医生。” 1986年,栾贵明和团队返工重新录入了一遍《论语》。第一部使用电脑编制的《论语数据库》于1987年由人民日报出版社正式出版,钱锺书题写了书名。 钱锺书为栾贵明修改该书“前言”时,写下一段评论:“有了纸墨笔砚‘文房四宝’,准还有人用刀笔和竹简;有了汽车、飞机、电报电话,也还有不惜体力和时间的保守者。对新事物的抗拒是历史上常有的现象,抗拒新事物到头来的失败也是历史常给人的教训。” 根据先“文”(《论语》)、后“诗”、再“经”的顺序,钱锺书给研究小组布置的第二项任务是《全唐诗》。 比起《论语》,《全唐诗》可谓浩如烟海,需要增加设备和录入人员,这些都需要经费。栾贵明找所里,所里解决不了;找院里,院里也不能立项。他一遍遍跑院科研局,局长王焕宇下决心冒一次风险,同意从院科研经费中拨出10万元,以借款方式给栾贵明,并约定了还款时间。 研究小组花了近三年时间,录入了27册《全唐诗》的全部正文、异文、补遗和注文,经11次校对,于1988年发布了《全唐诗数据库》。 通过运算,《全唐诗数据库》判定全唐诗共有53035首、作者3276位,订正了4万多首和两千多人的传统说法。 1988年10月的一天,栾贵明到院办公室找当时分管人事的社科院副秘书长兼新闻发言人杨润时,请求以新闻发布会形式向社会公布《全唐诗数据库》成果。并说明,此前曾向院科研局借款10万元,计算机室现有设备足可抵顶这10万元,要求以实物还账,然后把计算机室人员遣散。 杨润时听后,觉得“借款搞科研”在中国社会科学院闻所未闻,也不合规,“拆庙还债”更令人啼笑皆非,表示要先了解情况再说。 经过调查,他核实了栾贵明所说的情况,感到现在的关键是要对《全唐诗数据库》作出评估。他向时任社科院院长胡绳和常务副院长丁伟志报告后,邀请中科院计算所的专家和古典文献研究方面的学者,组织了评估会。 评估会上,一位红学家要求当场检索《全唐诗》中有没有出现过“红楼梦”一词、出现过几次。两分钟后,计算机给出答案:总字数达340余万字的《全唐诗》中,“红楼梦”曾在472卷中蔡京的《咏子规》出现:“凝成紫塞风前泪,惊破红楼梦里心。” 有老学者兴奋地说,做学术研究时,查书抄卡片是件很辛苦的事,所以常有“皓首穷经”的感慨。有了这种数据库,等于大大延长了科研人员的学术生命。大家认为,如果数据库广泛应用,社会科学研究在手段、工具、方式等方面会发生革命性变化。 (责任编辑:admin) |