网易首页 > 网易号 > 正文 申请入驻

大数据如何“量化”唐诗宋词的价值?

0
分享至

数据时代的诗词之问

提起大数据,人们脑海中往往会浮现出自然科学、社会科学、商业经济等领域应用海量数据和复杂算法的场景,而不太会将其与凝聚着文学之美的古典诗词联系起来。仿佛诗词之美可以被感受、允许被讨论,但不能被计算。然而,无论是在学术研究中,还是出于阅读好奇,我们常会碰到这样的问题:

古代各朝有多少诗人?多少女诗人?唐人和宋人哪个更爱写格律诗?宋词有多少词牌?哪个词牌最受词人欢迎?《唐诗三百首》中谁的诗最多?李白与杜甫谁的影响大?唐人七律第一,该颁给崔颢的《黄鹤楼》还是杜甫的《登高》?周邦彦和姜夔谁的音乐水平更高?李白“一生好入名山游”,苏轼“身行万里半天下”,他们到底走了多少地方……

这些问题,有的需要统计数据来作答,有的看似属于艺术判断,实际也需要科学逻辑和数学思维来支撑,有的问题目的不在数量多寡而在具体内容。信息时代的数据思维,给我们认知古典诗词新辟了一扇窗。数据可以是量化的数值,也可以是非量化的信息。无论哪种数据,都有各自的价值和使用场景。

诗词中的量化数据及其作用

传统意义上的数据,指“有根据的数字”,比如靠样本统计获得的量化数据。一个时代或者一个地区的存诗总量、作家人数,或者一位作家的经行地方、创作的某体数量,或者一个选本的选人数量、作品数量,一个词牌的使用次数、使用人数,一首诗词在历代选本中的入选次数、被历代作家唱和的次数等,都属于量化数据。

量化数据可以在样本范围内准确描述研究对象的基本格局。以著名选本《唐诗三百首》为例,蘅塘退士从两千多位唐代诗人的五万多首唐诗中,精选出77家的312首诗分体编成。各体选诗数量为:五古32首、七古28首、五律80首、七律53首、五绝29首、七绝51首、乐府39首。从占比看,古体诗和格律诗的比例近乎一比二。其中五古选诗最多的是中唐诗人韦应物(7首),七古选诗最多的是杜甫和李颀(各5首),五律选诗最多的是杜甫(10首),王维和孟浩然次之(各9首),七律选诗最多的是杜甫(13首),李商隐次之(10首),五绝选诗最多的是王维(5首),七绝选诗最多的是杜牧和李商隐(各7首)。而李白入选的作品大多在乐府(12首)。从选人看,入选率最高的前四位是:杜甫39首、李白29首、王维29首、李商隐24首。可见盛唐诗人最受推崇。杜甫不仅是入选率最高的诗人,也是入选作品覆盖七种诗体的全能型诗人。而在唐代存诗量最多的诗人白居易仅6首作品入选。

这些数据,既能体现作家的创作特点和时代地位,也能反映选家的审美偏好和诗体观念。有的选本流传广远,甚至能够影响一代读者的诗词审美。如果将统计样本横向扩大到其他选本,可考察历代选本的选诗标准和变化特点;如果纵向聚焦某位诗人或相关诗作,还可考察诗人在不同时代的影响力和名篇的稳定性。

  ▲《唐诗三百首》书影。

量化数据还能为难以公断的某些学术判断提供思路和科学支撑。以文学经典研究为例,“唐人七律第一”是个自古聚讼的话题,“李杜优劣论”也历史悠久。诚然,艺术审美是一种个性化、主观化的体验,很难为审美寻求一份标准,也不必建立这样的标准。但在学术研究中,可以通过“影响力研究”为经典作家和经典作品寻求一种评价方式。衡量一部影视作品的影响力,可以考察其获奖级别、评分情况、重播次数、相关活动等。衡量一首诗词的影响力,也可以通过一系列“指标”来分析,比如选本对于诗词的流传影响深远,评点也能体现诗词在专业领域的关注度,语文教材常常塑造着青少年的诗词印象,文学史则在很大程度上定位了作品的级别。指标有了,再选取一些合适的样本对指标量化,并结合计量科学的特点和文学研究的实际,对数据进行统计计算,就可以在比较客观的前提下得出相对理性的结果。数十年前,王兆鹏教授等专家学者的《寻找经典——唐诗百首名篇的定量分析》《影响的追寻:宋词名篇的定量分析》《唐诗排行榜》《宋词排行榜》等论著,就是基于影响力分析的计量研究成果。

例如在《唐诗排行榜》中,位列榜首的作品是崔颢《黄鹤楼》,这多少有点令人惊讶。再考察其各项指标,会发现这首诗在列入统计样本的33种古代选本中入选率最高,被历代诗论家品评的频次也最高,当代文学史更是无一漏收。可以说,是古今诗选家、诗论家以及文学史的编撰者共同的认可,将这首诗送至榜首。数据背后的信息,还能启发我们考察不同时期诗选家和诗论家对同一首诗歌的关注度,从而用历史性、阶段性的眼光来看待经典的形成过程。这种通过设定指标来量化分析研究对象的思维和做法,比主观好恶的感受更加科学、公允。

  ▲《唐诗排行榜》书影。

诗词中的属性数据及其价值

进入信息时代,“数据”的内涵也在扩大,而不仅指代“数字”。就诗词而言,还包括反映诗词某类属性的文本或信息,称之为属性数据。一首诗词的作者、标题、诗体、词体、题材、意象、时间、空间,一个作家的姓名、字号、郡望、籍贯、出生地、生卒年、家庭成员、朋友同僚、社会身份,甚至一首格律诗的韵字、对仗,一阕词的词牌、词格,都是诗词的属性数据。

属性数据可为量化数据提供计量基础。前文所述各类统计数值,如某种诗体的数量、某地作家的数量、某个词牌的使用次数等,都基于相关属性的先行标注。属性数据更大的价值在于,可以支撑主题丰富的学习或研究,拓宽诗词认知的边界。

以空间属性为例,诗词中存在各种各样的地名,包括诗词文本中的行政地名、景观地名、意象地名,以及作品的创作地、流传地,还有作家的籍贯地、出生地、任职地、行经地、谪居地、埋葬地等。比如杜甫《闻官军收河南河北》一诗,标题中的“河南”“河北”、诗句中的“剑外”“蓟北”“巴峡”“巫峡”“襄阳”“洛阳”、原诗自注“余家园在东京”中的“东京”等地名,加上这首诗的写作地点“四川省绵阳市三台县”,这些地名指示的地理位置,携带的历史信息,是理解这首作品诗意和作者情感的关键。

诗词中的地名信息,有的比较显而易见,有的需要深度挖掘,有的涉及到悬而未决的学术问题。但长期以来,文学研究中空间观念相对单薄,导致作家年谱的编撰和作品的编年笺注工作,大多重视时序的编排,比较忽略地点的落实。在文学审美中,地名也常被当作专有名词对待,而没有释放出蕴含的能量,发挥应有的作用。这与历史研究中的时空一体观,很不相称。基于这种状况,近年来王兆鹏教授主持的“唐宋文学编年地图”,将空间属性提高到和时间属性同等重要的地位,大量挖掘并标记作家及作品中的各类空间属性数据,并融合历史地理数据,运用GIS技术绘制了唐宋诗人的轨迹地图,实现了年谱的地图化、作品的空间化。

  ▲“唐宋文学编年地图”之“苏轼行迹图”。

一串串地名,将苏轼从出生、科举、仕宦、贬谪到去世的人生连接成线,将他的诗词文赋、书画创作、平生交游、宦海沉浮,在地图上划出一条独特的东坡印迹。通过这条印迹,读者不仅可以浏览苏轼一生所有编年作品、大事小事,也能清楚指出“黄州惠州儋州”,更会对苏轼“身行万里半天下”、“九死南荒吾不恨”、“一蓑烟雨任平生”的诗句词句,产生别样体会。关注诗词中的空间信息和地名数据,可帮助读者充分了解作家、解读作品,读出背后的信息、情感、美感。

诗词中的地名隐藏着许多历史地理信息,了解这些信息既能辅助诗歌编年系地,还可锻炼读者严谨的科学思维和问题意识。例如,诗词中的古今地名问题。以李白《陪宋中丞武昌夜饮怀古》为例,标题中的“武昌”是个历史地名,想知道其确切所指,要查阅地理文献中“武昌”的地名演变。根据唐代李吉甫《元和郡县图志》和清代顾祖禹《读史方舆纪要》等文献可知,盛唐时期的“武昌”,仍指三国时期孙权改鄂县立武昌郡之“古武昌”,即今天湖北省鄂州市地区。而被今天武汉三镇之“武昌”所用,始于中唐元和年间设立“武昌军”。李白笔下的“武昌”,只能是今天湖北省鄂州市,而不是武汉市。那么盛唐诗人如何指称武汉呢?答案是“江夏”或者“夏口”。李白《江夏送友人》,王维《送康太守》中的“铙吹发夏口”,所指皆武汉。中唐以后,武昌地名两用,如诗人刘长卿的诗句“上下武昌城,长江竟何有”。宋人为作区分,有时仍以“夏口”古地名指称上游的“武昌”,如苏轼《赤壁赋》中“西望夏口,东望武昌”。关注诗词中的古今地名,可以拓展思维。

除了地名数据,诗词中的意象、物象、天象、气象、语典、事典、格律、音韵等数据,每一类都有独特内涵和意蕴,都可衍生出相关话题或研究。数据创新可以激发思维创新,这正是属性数据的巨大魅力。

诗词中的大数据

人们常用大容量、多类型、获取速度快、真实性、非结构化等特点来描述大数据。但这些特点并不适用于所有领域,各个领域对“大”的定义并不相同。

诗词中的大数据,首先反映在数据的体量或容量上。以搜韵网所收古典诗词为例,目前已收录先秦以来古典诗词107万余首,如果完善明清两朝的作品,数量当突破两百万。仅从目前一百多万诗词作品中,就可提取出时间数据58万多条、地名数据近80万条、植物数据近40万条、官职数据约35万条、景观数据54万条、人物数据117万条,合计约四百万,这还不包括句例数据、词汇数据和字数据。尽管这些数据的体量与互联网经济领域动辄以“太字节”(240)计量的数据不可同日而语,但早已超出人的阅读极限和脑力手工的边界。

除了表面的“大容量”,诗词中的大数据,更体现在“大价值”上。诗词中的数据价值,一方面来自数据本身,包括数据精度高、粒度细。从前文所述类型丰富指称具体的地名数据可见一斑。再举对仗数据为例。由于律诗要求中间两联对仗,所以包含大量对仗词汇。计算机从39.3万首律诗和1.5万首排律中,可以获取单字、双字和三字对仗词汇约265万对。从这些数据中筛选出频率高的对仗词汇,并根据对仗的递推特点,可以从任何一个对仗词汇开始,逐级逐词呈现出一张纵横衍伸的对语链。下图是以“清风”为词根的对语链示意。这样的对语链,既能辅助古典诗词创作者参考古人诗句选取对仗词汇,也能辅助语言学者的相关研究。

  ▲搜韵网对语链。

诗词中的数据价值,另一方面来自于数据的交换、整合和分析。以唐宋诗人生平数据为例,其数据精度高、粒度小,但体量不算大,属于小而精的数据。但当这小数据与其他数据整合时却能产生大价值。比如与作品数据整合,能清晰呈现作家人生经历和文学创作的关系;与历史地理数据整合,能将作家的一生行踪在地图上加以呈现;与古代山川驿路等交通数据整合,则有双向的效果,既能为古代交通线路的考察提供重要信息,又能更加细化作家行迹路线;当作家的个人行迹数据在纵向上日益修订而完善,在横向上突破唐宋不断积累形成古今诗人行迹数据,叠加这些行迹还可折射不同时期中心文化城市的变迁现象。

  ▲唐宋各时期328位文人移动轨迹图。

无论是量化数据,还是属性数据,数据的本质都是信息。当用数据思维认知古典诗词,会发现数据存在之广、传达信息之多,远超想象。培养诗词阅读和诗词研究时的数据思维,锻炼数据敏感度,会读出更多的诗词风景。(完)

作者/邵大为

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
凶杀案事件评论区下网友疯狂拿“杀妻”玩梗,毁三观下头内容越看越心惊!

凶杀案事件评论区下网友疯狂拿“杀妻”玩梗,毁三观下头内容越看越心惊!

浪花妈妈
2024-11-29 21:50:53
52岁巩俐直言“每周四次”,70岁米歇尔体检证明自己:我跟得上

52岁巩俐直言“每周四次”,70岁米歇尔体检证明自己:我跟得上

柴叔带你看电影
2024-11-28 15:31:16
吴柳芳哭了!直播间首谈为什么做网红:家里条件不好我只能靠自己

吴柳芳哭了!直播间首谈为什么做网红:家里条件不好我只能靠自己

南城无双
2024-11-30 13:58:39
吃伟哥是中年男福报?英国50万人研究:最高可降低28%死亡风险

吃伟哥是中年男福报?英国50万人研究:最高可降低28%死亡风险

李药师谈健康
2024-11-29 12:50:47
波音“清除癌细胞”:美国企业界正在进行一场对DEI文化的清除

波音“清除癌细胞”:美国企业界正在进行一场对DEI文化的清除

南文视界
2024-11-30 10:21:57
阿萨德家族,属于小众的阿拉维派,为何他们能执掌叙利亚半个世纪

阿萨德家族,属于小众的阿拉维派,为何他们能执掌叙利亚半个世纪

历史摆渡
2024-10-12 19:30:02
茅海建:有人要求“天朝”“崩溃”不能放进书名?我立即要求撤稿

茅海建:有人要求“天朝”“崩溃”不能放进书名?我立即要求撤稿

尚曦读史
2024-11-30 07:56:09
老年人好消息!公安部发文:60以上老人能骑的电动车增加到5种!

老年人好消息!公安部发文:60以上老人能骑的电动车增加到5种!

博览历史
2024-11-29 18:51:30
一个女人是不是“富贵相”,关键看这3点,过了50岁就能看出来

一个女人是不是“富贵相”,关键看这3点,过了50岁就能看出来

白宸侃片
2024-11-30 15:04:29
这已经不是打脸了,完全是拳打脚踢一顿胖揍,评特斯拉揽局

这已经不是打脸了,完全是拳打脚踢一顿胖揍,评特斯拉揽局

大风文字
2024-11-29 12:07:51
33分钟狂砍43分7板!CBA弃将换队后打成超级外援,当初被低估了?

33分钟狂砍43分7板!CBA弃将换队后打成超级外援,当初被低估了?

老叶评球
2024-11-30 17:52:36
金华女老师事件,照片里确实文静,让人很难想象她会和学生谈恋爱

金华女老师事件,照片里确实文静,让人很难想象她会和学生谈恋爱

人情皆文史
2024-10-31 00:07:22
重磅!四川两大国企将重组

重磅!四川两大国企将重组

鲁中晨报
2024-11-30 12:12:05
54万个充电桩撑起星星充电IPO,成就两大“胡润富豪”!

54万个充电桩撑起星星充电IPO,成就两大“胡润富豪”!

野马财经
2024-11-29 17:16:11
沙特最终放弃与美国签署防务协议

沙特最终放弃与美国签署防务协议

看看新闻Knews
2024-11-30 16:57:36
马科斯开始认怂了?缓和与副总统莎拉关系,杜特尔特会顺坡下驴?

马科斯开始认怂了?缓和与副总统莎拉关系,杜特尔特会顺坡下驴?

雨秴润写
2024-11-30 15:25:06
奇葩死法+1!大叔被猫挠破皮,竟直接失血过多身亡....这?!

奇葩死法+1!大叔被猫挠破皮,竟直接失血过多身亡....这?!

英国那些事儿
2024-11-29 23:17:24
深度复盘四渡赤水:蒋介石做到了凡人的极致,奈何红军是神在指挥

深度复盘四渡赤水:蒋介石做到了凡人的极致,奈何红军是神在指挥

莲花盛开
2024-11-30 12:31:48
爆冷输11分,再度16分惨败!联盟第1暴露短板,NBA东部快要大结局

爆冷输11分,再度16分惨败!联盟第1暴露短板,NBA东部快要大结局

老梁体育漫谈
2024-12-01 00:04:45
中国卫生巾巨头,暴跌85%

中国卫生巾巨头,暴跌85%

财经锐眼
2024-11-28 18:35:04
2024-12-01 00:35:00
中新社华舆
中新社华舆
华舆是全球华人的资讯总汇
45668文章数 112011关注度
往期回顾 全部

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

头条要闻

八年来首次 叙利亚反对派武装攻入阿勒颇大部分地区

头条要闻

八年来首次 叙利亚反对派武装攻入阿勒颇大部分地区

体育要闻

历史第一!詹姆斯再创里程碑宝刀不老

娱乐要闻

恶意炒作!李行亮麦琳和好后口碑崩塌

财经要闻

雪松爆雷前实控人张劲在香港抛售房产

科技要闻

官宣!华为+广汽,联手造车!

汽车要闻

比亚迪方程豹豹8推送首次OTA 新增暴力模式

态度原创

本地
时尚
亲子
教育
公开课

本地新闻

云游中国|来伦布夏果感受充满Passion的人生

48岁满头银发又怎样?她活成了所有女人都想成为的样子

亲子要闻

研究发现:1 个不起眼的小动作,竟能有效刺激孩子大脑和身体发育

教育要闻

傅佩荣:拼命卷孩子,其实是家长太焦虑了

公开课

一块玻璃,如何改变人类世界?

无障碍浏览 进入关怀版