历代人物传记资料库的视觉化实验:如何绘制中国的家谱树?
栏目:历史机构 发布时间:2024-08-30

  如果大量的家谱数据库被公开,历史研究者就可能利用历史资料追根溯源——把相关的人物按照家庭关系连接起来,以获得更悠长、更广泛的家族族谱,并绘制出一棵家族大树,让我们获得一张“寻根”的地图。

  本文描述了一个大型家族树绘制的过程,在过程中发现了RT 算法的不适性,但这种不适性却能够帮助学者在观察中快速发现历史文献中的问题,尤其是唐宋时期的“一子多父”现象。本文中的两个案例,都为历史研究提出了新的问题。

  我们都曾经问过“我从哪里来”, 这个“哪里”指从母亲的子宫转向到家庭、地方、地区、国家,时代、文化、基因等概念。家谱是我们寻根最直接的依据,家族树则是家谱中常见的一种信息呈现方式,它不仅可以表现家族的血缘关系,也象征着生命持续地繁衍发展。随着视觉技术的发展以及越来越多的人口数据库的开放,我们可以通过个人信息推断出更多的家庭关系,并连接起比传统家谱更纵深、更宽阔的树形结构。那么是否可以将开放的家谱数据绘制成为参天大树?

  目前有许多商业开发的家谱软件包、网站提供给个人去查询自己的家族历史, 例如:MacfamilyTree 软件[1]以及网站可以帮助拥有大型家谱的个人去观察自己的家族结构。但是这些家谱树看起来一点都不像自然的树形,甚至无法看清其中的支系关系。

  韩国艺术家Jin Wan Park 曾在2007 年绘制了自己的家族树Jokbo[2],其中包含27404个家族成员。这棵家族树也不像树,而是一个“星爆”的发散形式,让人只能看到一个人口增长的分布趋势而非成员之间的细节关系。作者认为这是一个抽象的艺术作品(图1),它并不具有功能性。可以说,将数据转化为树形图像本身已经不是计算机能力的问题,那么为什么至今我们还是很难见到某个人种、民族、家族或部落的大型家族树呢?

  “几个世纪以来,家谱关系一直以手工绘制的几十个人图表的形式呈现。系谱软件现在可以在技术上容纳数十万个个体的数据集。然而,没有任何软件能够以一种清晰的方式将大型数据集视觉化”。[3]

  银河集团网址登录

  “随着图形大小的增长,这些图已被证明很快变得不可读”。[4]不少研究者都认为树形视觉化的问题在于可读性,因为当上千万的家族成员密密麻麻分布在一个树形上时,这个树形结构的顶端会变得更加紧密,让人无法在宏观中兼顾其中微观的小家族、家族成员之间的关系结构。为了解决可读性的问题,有研究者尝试了交互的方式,例如马丁·瓦滕伯格(MartinWattenberg, 2008) 等开发的文字树(TheWord Tree)[5](图2),它可以让用户检索和查看关键字与其他文字之间的关系。但是这个方式又牺牲了信息的全景,只有与关键词相关的句子才会出现。

  可以说,研究者们还在寻找合适的家族树形来展现大型家谱信息。那么我们是否可能运用中国历代人物信息发现大型的家族树呢?发现之后,还能否看到不同家族树的姿态差异呢?

  我们采用中国历代人物传记资料库( 以下简称:CBDB),它是由哈佛大学历经数年主持开发而成的,包含从传记资料索引、史料、文学作品、官方文书等收录的7 世纪至19 世纪的37 万人的资料。[6]但是,CBDB 并不是一个纯粹或者现成的家谱数据库,其中只有一部分人有家族关系记录。

  我们在家谱中检查两个人之间的家庭关系性质,例如检查两个人之间是否有共同的父亲,从而确定兄弟关系;找到兄弟关系,从而确定他们共同的父亲;找到多个人之间是否有共同的祖父,则可以确定他们是否是同一辈人。构成一棵棵家谱树形是我们的初衷,因此我们采用了RT 算法(Reingold-Tilford Algorithm),运用Processing 程序将每个家族(按照姓氏)的个人转化为节点,节点之间相互用线连接,根据父子关系由下向上延展出层层分支,最终生成了几个姓氏的视觉化家谱图像。(图3)

  这些图像都显示出了人口总量的差异以及同一家族的信息在不同朝代的差异。例如,崔氏家族鼎盛于隋唐时代;李氏家族自唐代就是一个大型家族。整体来说,我们可以看到CDBD 数据库中拥有的数据集中于唐、宋、明、清朝几个历史阶段,朝代之间则有信息的空白。每一个姓氏并没有形成一个整体的家族树,而是一个个小的丛林。明代区域的一棵棵小家庭树如同展开的雨伞,并不纵深,只有四五代人的信息;而唐宋之间有一些明显的家族树,其中横陈了大量的杂乱连线)

  当我们以手工方式清理唐宋时期的杂线结构时发现,那些看起来杂乱的横线大部分是由于“一子多父”的情况造成的。也就是说,RT 算法并不能满足“一子多父”的关系,它是一个单向发展的、父亲的位置总是处于子女中心的关系分布方式,而当多个父亲出现时,这些父亲只能被留在一个无法控制的位置与子女之间拉出一条不合理的长线。这些长线看起来是横向的,实际上则应该是纵向的,只是因为父子关系之间的层级高差不大,而RT 算法无法控制第二个父亲与子女之间的横向距离,因此彼此之间横向距离较远的父子之间的连线就变成了乱线。这个乱线的现象在Jokbo 中同样存在,但是作者并没有对其进行深度的解释。

  我们调整了RT 算法,并结合手工整理(缩小部分树枝之间的分布距离),看到了王氏、张氏、李氏、崔氏及朱氏家族中所有的“一子多父”案例。(图5)

  根据个案的考察,我们发现“一子多父”的现象有多种情况。例如有的人完全嫁接于另一个家庭、多个父亲的名字看起来相似、多个父亲的名字完全一致。而两个父亲的现象更多出现在大家族的中段,或是小家族的根部。我们猜想有些原始文献本身是错误记录的,某些家族关系则是人为嫁接的,而有些则是在历史文献抄录、数据库录入中出现的,这些混乱的现象恰恰应该是历史信息的真实状态。例如一个人的两个父亲都叫张植,这可能是因为这两个张植在CDBD 数据库中有不同的识别号码。(图6)

  从绘制中国历代家谱树的目标来说,RT 算法并不合适,它只适合于由下向上的分支结构,而我们的数据库中存在向下分支的需要。因此,RT 算法好像增大了噪声的音量,让可能深埋于数据库中的虚假、矛盾、错误的信息变得明显了起来,为历史学研究激活了新的问题点。

  在“一子多父”的家族树中,我们对其中一些特点突出的家族结构进行考证,尝试利用文献资料考察这些特点形成的原因。

  在王氏的家族树中,我们发现了王果家族的家族谱系中有一支明显的嫁接支系。树冠结构中的王阮是南宋中兴诗坛的重要诗人,与张孝祥、朱熹、周必大、范成大、 王质、陆游等著名诗人交游甚密。根据《宋史》,其曾祖、祖父、父亲都是有功之人,王阮本人对自己的祖辈倍感自豪,在诗词中也经常炫耀家世,例如《题东林一首》《 谢赵宰拜襄敏墓并留题二首》 都是表达对祖父的敬佩怀念之情。[7]但是,王阮自豪的祖辈关系在家族树中却看起来是嫁接的。(图7)嫁接点的人物是王阮的父亲王彦博的两个儿子:王龟龄和王松龄,从名字的构成来看王阮与兄弟们无血缘关系。

  王彦博的两个父亲也是值得探究的问题点,CDBD 所搜录的宋人传记资料索引(电子版)中王彦博的父亲是王丕,但王丕支系的祖辈并没有显赫的人物。虽然王阮在《雪山集序》 中记录过其父王彦博因为靠近秦桧而被除名后死于贬所,但是拥有曾祖王韶对于王阮来说应该是有利的,因为王韶与大文人苏辙、王安石都有交情,而作为王韶曾孙的王阮,与南宋著名文人交往也是在身份上对等的。

  因此,我们可以怀疑,王阮颂扬祖父的诗文可能是刻意的自我身份表达,而其祖父未必是王阮的祖父。王阮是宋代诗歌研究中经常提及的人物,他也是历史学者研究的对象,但是王阮家世中的疑点至今没有学者提及,而是将王阮作品当作可信的史料。将家族树与史料对照之后,历史学家可能对王阮其人、其作品会有新的解释。

  在“一子多父”的树林中,有不少大型的家族树,集中于隋唐时期,其中李氏的家族树最为庞大,而崔氏则有不少的独立家族树,是什么原因造成了崔氏家族树多且相对较大的现象呢?一方面,当我们对比崔氏家族研究的文献来观察家

  族树时,了解到崔氏家族确实是中国中古时期的世家大族,它有不同的支系,对于中国古代历史研究有着重要的意义。

  而至今可查的崔氏家族相关的研究都是以世系表格的形式呈现人物关系,并不能表达家族之间的宏观关系。我们所绘制的家族树没有历史文献描述得那么长,却将个体之间的关系明确地联系了起来,呈现了与文献描述所一致的一些支系结构。例如郑州崔氏的家族树就非常独立和清晰,具有比文献更多的信息。

  另一方面,某些家族树通过人工比对合并之后,呈现了比文献记载更清楚的家族结构。例如,当我们在家族树图中合并了崔寅等三个同名同姓的祖父、父亲和儿子的位置之后,两只家族树合为一棵大树,这个结构恰好应对了《世系表二下》所描述的家族关系:“清河大房:逞少子諲,宋青、冀二州刺史。生灵和,宋员外散骑常侍。生后魏赠清河太守宗伯。生休、寅。休号大房”“清河小房:寅字敬礼,后魏太子舍人,乐安郡守。……” 同时,这个家族树结构充实了《世系表》记中所记载的家族支系中“房”的概念,例如“崔氏定著十房:一曰郑州,二曰鄢陵, 三曰南祖,四曰清河大房,五曰清河小房,六曰清河青州房,七曰博陵安平房,八曰博陵大房,九曰博陵 第二房,十曰博陵第三房”[8]。文中所谓的“房”与“房”之间的逻辑关系并不清晰。家族树的结构表明,清河大房、清河小房共有一个六世祖父,应算同一个支系,与青州房的开端也不是同时代。因此可以说,“崔氏十房”的房与房之间并不是同期形成的。也许这也正是为什么“不少学者在对崔氏家族进行研究时就非常容易混淆这两个支系的成员”[9]的原因。(图8)

  以上两个实证研究案例都揭示了尚未被研究者意识到的问题。我们认为,这种将视觉化结构图与文献对照的考察方法应该是有效的、有需求的,它可以帮助学者更有效率地获取信息,快速地发现历史文献中的矛盾点,并对应史料进行进一步考证。

  我们的实践证实,绘制整个中华民族的族系森林是尚不可能的事情,尽管这个初衷是符合逻辑的。原因在于:一方面历史数据并不充分;另一方面,点线型的树形结构只适用于表现小型家族,并不适用于展示上千人大型家族脉络和人物关系我们获得了对于中国历代人物家族关系的鸟瞰视野,发现了一些大型的家族,以及“一子多父”的普遍现象。“一子多父”的现象让我们相信,真实的人类家族关系并不会如同自然的树形一般生长,它的结构可能兼具生物性与非生物性特征。

  RT 算法虽然并不适用于绘制“一子多父”的家族树,但是其不适应性恰好可以让研究者在家谱信息中快速发现问题点。这些家族树看起来扭捏、机械,却具有自然植物的方向性、层次感特征,恰如一个个盆景植物,纠合了人为和自然两种力量,人为的干预也包括错、漏、虚、实。

  [7] 王可喜:《南宋诗人王阮生平事迹考》[J],《长江学术》,2009年第2 期 ,137-144 页。

  [8] 、[9] 吴桂美:《东汉崔氏家族世系及地望的考辨》[J],《古籍整理研究学刊》,2007 年1 月,第81-88 页。

  该项目入选IEEE VIS 2018 (2018年国际可视化学会艺术单元项目)

  后记:这是我们少有地涉足中国历史学数据的一次实验性创作,得到了来自社会科学、数字人文科学的各位的朋友的鼓励和支持。 如有学术探讨的兴趣,欢迎联系我们。

  本文首发于微信公众号“向帆”,稿件原标题为《中国家谱树的绘制实验报告》,澎湃新闻湃客频道经授权转载,未经允许禁止转载。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。


本文由:银河国际科学研究院提供