数据源为 coca词频表,共6万词,其中包含了每个词的词频,按词频从大到小排列。于是在excel中用了几个简单的函数做统计,计算出,在实际应用中,如果到达到一定百分比的认识率,需要多少词汇量。当然,这并不很准确,但即便如此还是有参考意义的。
原始数据表示例
统计结果
覆盖率 | 书面词汇量 | 口语词汇量 |
90.00% | 4375 | 1926 |
91.00% | 4954 | 2213 |
92.00% | 5636 | 2584 |
93.00% | 6463 | 2998 |
94.00% | 7544 | 3583 |
95.01% | 8936 | 4294 |
96.00% | 10781 | 5294 |
97.00% | 13398 | 6807 |
98.00% | 17569 | 9439 |
99.00% | 25221 | 15014 |
100.00% | 59517 | 57274 |
从表中看,口语需求的词汇量与书面相比明显地低,大概只有不到一半。这当然是个事实,除此原因之外,应该也由于,在原始数据中有小说杂志报刊学术,这几类都归到书面,而口语则是一栏。
要想在书面阅读中达到98%的覆盖率,需要超过1.7万个词;95%的覆盖率,也要求接近9000词。实际应用中,一般来说,每个人都局限在特定的一些领域内,所以实际需求的通用词汇量要小于这个量(盲猜浮动量不会超过20%吧)。
原始表附件 coca_6万词词频_覆盖率需求词汇量.xlsx
Last Updated on 2025/02/19