使用coca词频表统计实际应用中的英语单词词汇量

数据源为 coca词频表,共6万词,其中包含了每个词的词频,按词频从大到小排列。于是在excel中用了几个简单的函数做统计,计算出,在实际应用中,如果到达到一定百分比的认识率,需要多少词汇量。当然,这并不很准确,但即便如此还是有参考意义的。

原始数据表示例

统计结果

覆盖率 书面词汇量 口语词汇量
90.00% 4375 1926
91.00% 4954 2213
92.00% 5636 2584
93.00% 6463 2998
94.00% 7544 3583
95.01% 8936 4294
96.00% 10781 5294
97.00% 13398 6807
98.00% 17569 9439
99.00% 25221 15014
100.00% 59517 57274

 

从表中看,口语需求的词汇量与书面相比明显地低,大概只有不到一半。这当然是个事实,除此原因之外,应该也由于,在原始数据中有小说杂志报刊学术,这几类都归到书面,而口语则是一栏。

要想在书面阅读中达到98%的覆盖率,需要超过1.7万个词;95%的覆盖率,也要求接近9000词。实际应用中,一般来说,每个人都局限在特定的一些领域内,所以实际需求的通用词汇量要小于这个量(盲猜浮动量不会超过20%吧)。

原始表附件 coca_6万词词频_覆盖率需求词汇量.xlsx

Last Updated on 2025/02/19

发表评论

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理