COCA是什么?
COCA是美国杨百翰大学做的美国英语语料库,全称是Corpus of Contemporary American English。里面的材料来自口语、小说、杂志、报纸和学术这几种类型,比较平均,可以用来了解现在美式英语怎么用。网站是 english-corpora.org/coca。
这个语料库做了几个词频表,常见的有 5000、20000、60000 个词这几个档次。前 20000 个词最常用,也最有用。有人统计过,学会前 5000 个词能应付大约 94% 的日常情况,前 20000 个能到 99%。另外,COCA 还给很多高频词标了常见搭配,这样学的时候可以直接记用法,记得更牢。
可以到https://preply.com/en/learn/english/test-your-vocab这里测试你掌握了多少单词。
COCA两种主要用法
用法 A:用下载的词频表背单词
先选表,按顺序从前 5000 学到前 20000,有时间再学 60000。如果主要是为了读文章,可以只记简单的意思,快一点过。如果为了说和写,就要一起记常用的搭配和固定说法,比如 good morning、be prone to 这种。
词频表里同一个拼法但不同词性的词会分开列,所以会有重复。实际用时可以先按词性挑出名词、动词、形容词、副词这几类,再去重,这样学得更快。比如前 20000 个词去重后大概剩 1.77 万个,再留下这四类就差不多 1.73 万个。
大表可以按 500 或 1000 个词一组分开,放进背单词软件里,比如“欧陆词典”“知米背单词”,这样每天任务不会太多。也可以配合 MP3 听一听,帮助记住发音和拼写的关系。
前 5000 个词可以在官网免费下载,20000 和 60000 大多要付费,也有别人整理好的版本,但要注意看来源和版本是不是一样,比如有没有搭配信息、有没有标词性、有没有分出口语和学术的频率。
用法 B:在网站上查词的具体用法
在 List 或 Chart 页面搜一个词,可以看到它一共出现多少次,还有在不同文体(口语、学术、小说、杂志、报纸、网页)和不同年份的分布,这样能知道这个词多正式、在哪用得多。
用 Collocates 可以找出一个词常和哪些词连着用,可以限定词性和距离。用 Compare 可以比较两个相近词的区别,比如 work 和 job 常和哪些动词搭配不一样。用 KWIC 能看到词在句子里的真实样子,方便直接看例子。
网站还支持一些简单搜索方法。比如标词性([n] 名词、[v] 动词、[j] 形容词等)、用 ? 代替一个字母、用 * 代替多个字母、找同义词([=develop])、统一查一个词的不同形式([confess] 或全大写)、一次搜好几个词(confess|admit|declare)。还可以按前缀、后缀、音节、重音、押韵来找词。这些方法能帮我们把背过的词变成能真正用出来的表达。
学习路线和例子
30–60–90 天的学法和时间可以按自己情况改。
前 30 天:学完前 5000 个词的主要意思和常用搭配。每天学 200–300 个词,意思尽量简单,搭配一定要记。晚上花 10–15 分钟听写或者跟读,帮助巩固。
第 31–60 天:学到前 10000–15000。每周挑 2–3 个常聊的话题,比如教育、健康、科技,每个话题记下 20–30 个可以重复用的说法。
第 61–90 天:学到前 20000。用网站的检索查容易错或容易混的词,看看它们的搭配差别,整理成自己的搭配表。每周写一篇 200–300 词的短文,逼自己用上新学的表达。
例子:学 postpone 的搭配
先在 Collocates 里输入 postpone,设右边距离为 1,按重要程度或次数排序,会看到它常和 a meeting、decision、vote 这些词连用。再用 Compare 看 delay 的搭配有什么不一样,避免用错。最后到 KWIC 找几个真实句子,抄下 3–5 句来模仿写。
目前网络上能免费下载的主要版本与特点:
| 版本 | 规模 | 格式/获取方式 | 说明 |
|---|---|---|---|
| COCA 5000 | 前 5 000 词 | 官网免费下载 | 可在线浏览或复制,适合入门 |
| COCA 20000 | 前 20 000 词 | PDF / Excel | 含词性、搭配、同义词;GitCode 仓库可下;也可通过“硕博工具屋”公众号回复关键词"COCApdf"获取 |
| COCA 60000 | 前 60 000 词 | Excel(coca60000full.xlsx) | 最全原始数据,可自定义排序(口语、学术等);网上有分享链接 |
| 口语高频 13500 | 前 13 500 词 | MP3+TXT | 已覆盖口语 99% 用词,可导入背单词 App |
常见问题和建议
只记单词本身,不记搭配,会让话说出来不自然。高频词的搭配很重要,最好连着词一起记,比如 take a risk、be prone to + 名词。
不注意词形和词性也会漏掉东西。同一个词根不同写法出现次数差很多,比如 abash 和 unabashed。用标签和统一查词形的方法能减少出错。
不要把 COCA 当成考试专用词表。它的范围大、更通用,TOEFL、GRE 那些词表更有针对性。可以先学 COCA 打基础,再学考试词表专门练。
别一味追很大的词表。20000 以后的词出现次数差得不多,多学收益变小。先把前 20000 的意思和搭配弄熟,再考虑加新的。
要注意口语和书面语的区别。同一个词在这两种场合的搭配和频率可能不一样。用 Chart 按文体看分布,说话和写作各准备一份常用的表达清单。

论文工具
文献管理
中文文献
英文文献
选刊投稿
专利检索
学术检索
学术社区
Ai+学习
英语学习
考研考公
出国留学
资格考试
学习平台
宝藏网站 