《三体》中哪些词出现得最多?

2012-04-02

前段时间读了一篇叫《统计词话》的文章,其中介绍了一种统计一段文本中各个词出现的次数的方法,很暴力但相对来说还算比较有效。

原文中举了个例子:

举个例子来说,《青玉案》中的这句“东风夜放花千树”,如果把所有可能的两个字的组合列出来,就是:

东风 风夜 夜放 放花 花千 千树

如果再把三个字的可能组合列出来,则有:

东风夜 风夜放 夜放花 放花千 花千树

如果不考虑其它的可能,那么总共就有11个词语。当然,这其中会有很多无意义的组合,但是我们可以预想的是,这些无意义的组合将不太可能大规模地重复出现,因此在排序的过程中它们自动地就被排在高频词语之后了。

这种暴力而又简单有效的方法看起来还不错,于是我也依葫芦画瓢玩了一下。当然,我没有像原作者那样很文艺地把全宋词作为输入数据。作为一名科幻迷,我更想知道的是刘慈欣的《三体》三部曲中哪些词出现的次数最多。

与宋词不同的是,现代文学中可能存在一些较长的词,因此,我将文字组合的长度区间设为了 2 ~ 7,即一句话中所有连续的 2 ~ 7 个字都会被“暴力”地作为一个词统计。另外,虽然我有《三体》三部曲的实体书,但做这个分析需要电子版,于是抱着学习的态度在网上找到了电子版。有点麻烦的是,网上流传的电子版中大多都有不少别字,比如将“叶文洁”打成了“叶文杰”。这些别字一部分被我改过来了,另一部分除非通读否则很难发现,不过或许对结果不会有太大影响。

最后的结果如下:

序号三体I次数三体II次数三体III次数三体1~3次数
1一个664罗辑1054程心1525一个3153
2汪淼623一个1024一个1465没有2087
3文洁483没有674没有1006他们1633
4叶文447我们624太空741程心1525
5叶文洁443他们593他们739什么1467
6没有407什么577世界699我们1465
7三体389现在521太阳610世界1336
8我们385自己485可能577这个1321
9什么355这个477这个562自己1317
10了一319已经474自己558现在1293
11太阳307太空454现在554了一1267
12他们301了一430已经544太空1255
13的一288可能428什么535太阳1240
14这个282舰队428宇宙524可能1220
15世界278的一414了一518罗辑1209
16自己274知道404是一512的一1202
17文明271人类377看到505已经1197
18知道249面壁366的一500是一1120
19看到249是一363的人469看到1094
20是一245世界359飞船467知道1069
21就是226看到340中的465人类1001
22到了226就是334地球462的人991
23现在218中的325人类458中的989
24可能215太阳323我们456地球937
25的人203不是320时间417三体913
26中的199的人319知道416宇宙900
27宇宙187这样310可以401就是878
28地球185北海301有一399可以848
29已经179你们298三体347到了842
30科学174到了292空间345有一823
31信息174地球290引力332时间822
32上的173章北海289光速327不是804
33这样172他的282AA327这样763
34可以169可以278到了324上的730
35人类166这种270不是321这是672
36大的163在这264就是318在这665
37不是163有一262上的317你们650
38有一162起来256如果309飞船646
39那个158面壁者251阳系306那个639
40时间156时间249太阳系305舰队638
41们的153计划245出现304他的636
42红岸149这是244天明304们的627
43你们134上的240云天明297如果624
44这是134们的238这是294汪淼623
45研究133两个230那个291只是613
46计算130只是221在这283出现613
47这种128开始211这样281文明608
48问题126如果211智子278这种602
49发现126史强207只是274大的590
50系统125最后207这里269两个583
51他的125雷迪亚兹200部分267起来578
52发射124这里193二维265部分559
53大史122出现192一样264开始552
54起来120真的191关一帆259这里550
55开始118大的190个世251信息526
56在这118那个190人们250最后525
57不知118宇宙189信息250一样524
58只是118技术188是一个245发现522
59出现117己的184只有244东西518
60来的114进行184东西243是一个512
61基地114水滴184两个240文洁510
62部分114自己的182大的237只有508
63两个113还是181发现237来的508
64还是113怎么180所有237所有502
65的大111部分178们的236一次492
66技术110三体177她的231这些486
67出来110的那177他的229进行485
68的那110希恩斯176感觉228系统485
69一次109东西175最后227还是481
70一切107一次175的大227空间479
71都是106这些174开始223不可478
72如果104都是174来的223叶文473
73出了104所有173空中222的大470
74它们102一样173世纪221叶文洁469
75是一个101来的171你们218己的467
76那些100只有171的太214一切465
77东西100世纪170面的213自己的464
78这些100飞船170不可213它们464
79一种99战舰169这些212个世463
80自己的98这时169星环211都是458
81很快97不可168一次208技术456
82不可97文明168进行207感觉453
83进行94人的167维德206计划450
84只有93一切167它们206个人449
85所有92个世167个人205阳系441
86然后91是一个166然后204太阳系440
87最后91第一164这种204人的437
88的时91的是163系统203智子436
89存在90这一163还有203的那434
90个人90因为161城市203第一432
91运行88应该161公主203这时426
92这里88需要161起来202然后425
93样的87看着160行星202面的425
94看着87发现159人的194世纪421
95面的87选择158一切191不知421
96一样87系统157消失189还有421
97明的86它们156任何188一种420
98到的86样的155千米188看着417
99监听86出了155这时188空中415
100的事86思想154还是187很快415

需要说明的是,《三体I》中出现了 447 次“叶文”,443 次“叶文洁”,这不是错别字造成的,另外 4 次“叶文”对应的是叶文洁的妹妹“叶文雪”。另外,文中还有一些地方直接称呼她为“文洁”,因此共有 483 次“文洁”。

这只是一种粗糙的、野蛮的统计方法,比如其实上面的“叶文”其实不应该算作一个词。同时,除了正常的词外,它也找出了一些经常出现的但并不是词的文字组合,比如“了一”等。鉴于实现这个统计的代码非常简短,这个缺陷应该是可以接受的。

从上面的列表可以看出,《三体》三部曲中每一部出现频率最高的几个词,大致是主角名字、“一个”、“没有”、“他们”、“我们”等等。除此之外,你还看出了哪些有趣的东西呢?

上面只列出了出现次数最多的 100 个词,你也可以点击这儿查看《三体》三部曲中出现次数最多的 1000 个词。这个统计就差不多到此为止了,纯属娱乐,希望更多的人从科幻中得到乐趣! :-)

知识共享许可协议
本作品采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可。
分类: 编程 标签: 数据分析 纯属娱乐 统计
前一篇: 开发环境中将线上路径映射到本地路径的方法
后一篇: 使用 JavaScript 分析用户访问行为数据

相关文章:

评论:

疼痛的风景
在 2012-04-22 12:20 写道:

文章不错,学习了,有时间换一个连接吧,www.lizhonghua.cn期待联系你, 关建字:李中华博客!!!!!!!!!!!

回复
songkeys
在 2012-04-29 19:05 写道:

通过这个可以对比两部作品是否是同一个人写的。有人通过对比红楼梦后二十回和之前的所使用的“的”“地”“得”三个字的使用量发现两部作品不是同一个人写的。博主有兴趣可以试试看。

回复
德语翻译
在 2012-05-02 14:55 写道:

呵呵 这么仔细呀

回复

发表评论:

电子邮件地址不会被公开。 必填项已用 * 标注。