《三体》中哪些词出现得最多?

前段时间读了一篇叫《统计词话》的文章,其中介绍了一种统计一段文本中各个词出现的次数的方法,很暴力但相对来说还算比较有效。

原文中举了个例子:

举个例子来说,《青玉案》中的这句“东风夜放花千树”,如果把所有可能的两个字的组合列出来,就是:

东风 风夜 夜放 放花 花千 千树

如果再把三个字的可能组合列出来,则有:

东风夜 风夜放 夜放花 放花千 花千树

如果不考虑其它的可能,那么总共就有11个词语。当然,这其中会有很多无意义的组合,但是我们可以预想的是,这些无意义的组合将不太可能大规模地重复出现,因此在排序的过程中它们自动地就被排在高频词语之后了。

这种暴力而又简单有效的方法看起来还不错,于是我也依葫芦画瓢玩了一下。当然,我没有像原作者那样很文艺地把全宋词作为输入数据。作为一名科幻迷,我更想知道的是刘慈欣的《三体》三部曲中哪些词出现的次数最多。

与宋词不同的是,现代文学中可能存在一些较长的词,因此,我将文字组合的长度区间设为了 2 ~ 7,即一句话中所有连续的 2 ~ 7 个字都会被“暴力”地作为一个词统计。另外,虽然我有《三体》三部曲的实体书,但做这个分析需要电子版,于是抱着学习的态度在网上找到了电子版。有点麻烦的是,网上流传的电子版中大多都有不少别字,比如将“叶文洁”打成了“叶文杰”。这些别字一部分被我改过来了,另一部分除非通读否则很难发现,不过或许对结果不会有太大影响。

最后的结果如下:

序号 三体I 次数 三体II 次数 三体III 次数 三体1~3 次数
1 一个 664 罗辑 1054 程心 1525 一个 3153
2 汪淼 623 一个 1024 一个 1465 没有 2087
3 文洁 483 没有 674 没有 1006 他们 1633
4 叶文 447 我们 624 太空 741 程心 1525
5 叶文洁 443 他们 593 他们 739 什么 1467
6 没有 407 什么 577 世界 699 我们 1465
7 三体 389 现在 521 太阳 610 世界 1336
8 我们 385 自己 485 可能 577 这个 1321
9 什么 355 这个 477 这个 562 自己 1317
10 了一 319 已经 474 自己 558 现在 1293
11 太阳 307 太空 454 现在 554 了一 1267
12 他们 301 了一 430 已经 544 太空 1255
13 的一 288 可能 428 什么 535 太阳 1240
14 这个 282 舰队 428 宇宙 524 可能 1220
15 世界 278 的一 414 了一 518 罗辑 1209
16 自己 274 知道 404 是一 512 的一 1202
17 文明 271 人类 377 看到 505 已经 1197
18 知道 249 面壁 366 的一 500 是一 1120
19 看到 249 是一 363 的人 469 看到 1094
20 是一 245 世界 359 飞船 467 知道 1069
21 就是 226 看到 340 中的 465 人类 1001
22 到了 226 就是 334 地球 462 的人 991
23 现在 218 中的 325 人类 458 中的 989
24 可能 215 太阳 323 我们 456 地球 937
25 的人 203 不是 320 时间 417 三体 913
26 中的 199 的人 319 知道 416 宇宙 900
27 宇宙 187 这样 310 可以 401 就是 878
28 地球 185 北海 301 有一 399 可以 848
29 已经 179 你们 298 三体 347 到了 842
30 科学 174 到了 292 空间 345 有一 823
31 信息 174 地球 290 引力 332 时间 822
32 上的 173 章北海 289 光速 327 不是 804
33 这样 172 他的 282 AA 327 这样 763
34 可以 169 可以 278 到了 324 上的 730
35 人类 166 这种 270 不是 321 这是 672
36 大的 163 在这 264 就是 318 在这 665
37 不是 163 有一 262 上的 317 你们 650
38 有一 162 起来 256 如果 309 飞船 646
39 那个 158 面壁者 251 阳系 306 那个 639
40 时间 156 时间 249 太阳系 305 舰队 638
41 们的 153 计划 245 出现 304 他的 636
42 红岸 149 这是 244 天明 304 们的 627
43 你们 134 上的 240 云天明 297 如果 624
44 这是 134 们的 238 这是 294 汪淼 623
45 研究 133 两个 230 那个 291 只是 613
46 计算 130 只是 221 在这 283 出现 613
47 这种 128 开始 211 这样 281 文明 608
48 问题 126 如果 211 智子 278 这种 602
49 发现 126 史强 207 只是 274 大的 590
50 系统 125 最后 207 这里 269 两个 583
51 他的 125 雷迪亚兹 200 部分 267 起来 578
52 发射 124 这里 193 二维 265 部分 559
53 大史 122 出现 192 一样 264 开始 552
54 起来 120 真的 191 关一帆 259 这里 550
55 开始 118 大的 190 个世 251 信息 526
56 在这 118 那个 190 人们 250 最后 525
57 不知 118 宇宙 189 信息 250 一样 524
58 只是 118 技术 188 是一个 245 发现 522
59 出现 117 己的 184 只有 244 东西 518
60 来的 114 进行 184 东西 243 是一个 512
61 基地 114 水滴 184 两个 240 文洁 510
62 部分 114 自己的 182 大的 237 只有 508
63 两个 113 还是 181 发现 237 来的 508
64 还是 113 怎么 180 所有 237 所有 502
65 的大 111 部分 178 们的 236 一次 492
66 技术 110 三体 177 她的 231 这些 486
67 出来 110 的那 177 他的 229 进行 485
68 的那 110 希恩斯 176 感觉 228 系统 485
69 一次 109 东西 175 最后 227 还是 481
70 一切 107 一次 175 的大 227 空间 479
71 都是 106 这些 174 开始 223 不可 478
72 如果 104 都是 174 来的 223 叶文 473
73 出了 104 所有 173 空中 222 的大 470
74 它们 102 一样 173 世纪 221 叶文洁 469
75 是一个 101 来的 171 你们 218 己的 467
76 那些 100 只有 171 的太 214 一切 465
77 东西 100 世纪 170 面的 213 自己的 464
78 这些 100 飞船 170 不可 213 它们 464
79 一种 99 战舰 169 这些 212 个世 463
80 自己的 98 这时 169 星环 211 都是 458
81 很快 97 不可 168 一次 208 技术 456
82 不可 97 文明 168 进行 207 感觉 453
83 进行 94 人的 167 维德 206 计划 450
84 只有 93 一切 167 它们 206 个人 449
85 所有 92 个世 167 个人 205 阳系 441
86 然后 91 是一个 166 然后 204 太阳系 440
87 最后 91 第一 164 这种 204 人的 437
88 的时 91 的是 163 系统 203 智子 436
89 存在 90 这一 163 还有 203 的那 434
90 个人 90 因为 161 城市 203 第一 432
91 运行 88 应该 161 公主 203 这时 426
92 这里 88 需要 161 起来 202 然后 425
93 样的 87 看着 160 行星 202 面的 425
94 看着 87 发现 159 人的 194 世纪 421
95 面的 87 选择 158 一切 191 不知 421
96 一样 87 系统 157 消失 189 还有 421
97 明的 86 它们 156 任何 188 一种 420
98 到的 86 样的 155 千米 188 看着 417
99 监听 86 出了 155 这时 188 空中 415
100 的事 86 思想 154 还是 187 很快 415

需要说明的是,《三体I》中出现了 447 次“叶文”,443 次“叶文洁”,这不是错别字造成的,另外 4 次“叶文”对应的是叶文洁的妹妹“叶文雪”。另外,文中还有一些地方直接称呼她为“文洁”,因此共有 483 次“文洁”。

这只是一种粗糙的、野蛮的统计方法,比如其实上面的“叶文”其实不应该算作一个词。同时,除了正常的词外,它也找出了一些经常出现的但并不是词的文字组合,比如“了一”等。鉴于实现这个统计的代码非常简短,这个缺陷应该是可以接受的。

从上面的列表可以看出,《三体》三部曲中每一部出现频率最高的几个词,大致是主角名字、“一个”、“没有”、“他们”、“我们”等等。除此之外,你还看出了哪些有趣的东西呢?

上面只列出了出现次数最多的 100 个词,你也可以点击这儿查看《三体》三部曲中出现次数最多的 1000 个词。这个统计就差不多到此为止了,纯属娱乐,希望更多的人从科幻中得到乐趣! :-)

分类:编程标签:统计数据分析纯属娱乐

相关文章:

评论:

疼痛的风景

文章不错,学习了,有时间换一个连接吧,www.lizhonghua.cn期待联系你, 关建字:李中华博客!!!!!!!!!!!

songkeys

通过这个可以对比两部作品是否是同一个人写的。有人通过对比红楼梦后二十回和之前的所使用的“的”“地”“得”三个字的使用量发现两部作品不是同一个人写的。博主有兴趣可以试试看。

德语翻译

呵呵 这么仔细呀

发表评论: