词频表的妙用
devtor
什么是词频表?
简介
词频表与词汇表的区别
词频表的作用
插本真题总共有几个单词?
按词频背单词
哪些英语考试与插本英语考试的关系最大?
哪些单词可以略过不看?
低词频词有哪些特点?
有多少大纲要求的单词,在历年真题中从来没出现过?
词频表的制作
什么是词频表?
简介
词频表就是将历年英语真题里面所有单词所出现的次数进行一个统计所得出来的表格。这样的一个表格能够帮助你清楚准确地知道一个单词所出现的“词频”。目前已经制作完成的词频表有历年插本英语真题单词词频表、历年真题四级单词词频表和历年真题六级单词词频表,同学们可以按需下载。
词频表的格式如下:
2186 the
1215 A
1199 C
1164 B
1161 D
1081 of
1069 to
772 in
759 a
654 and
581 is
460 that
337 for
327 it
310 are
282 was
278 be
258 he
254 have
239 on
...
上面列出来的部分单词都是词频非常高,也就是非常常用的单词。格式上,左边的数字是该词在历年真题中所出现的次数(上面的例子是98年-09年插本英语真题的词频),右边则是对应的单词。所有单词按照词频的高低从上往下递减排列。词频越高,通常会更容易,越往下单词的难度就不断递增。
词频表与词汇表的区别
词汇表是各种考试大纲对考试范围内词汇的一个简单汇总。而词频表则是将历年真题单词出现频率做出的一个科学的统计结果。上述两者有区别,也有联系。具体的差别,可以看如下统计表格:
词频表词汇表
插本4437 3645
四级9924 4614
六级12358 1549
从上表我们可以明显的看到,词频表有一个规律,就是其所拥有的词汇数量比词汇表多。并且随着考试难度的增加,数量上面的差距越大。四级的词频总数量,几乎就是大纲要求的两倍。因此如果完全用四级的备考方法来复习插本,难度明显增加得太多。六级的词汇要求,是在四级的要求上增加了1549个单词,但是历年真题的总单词数量却达到了惊人的12358个,说明六级对词汇的要求,更多体现在平日的积累,仅仅背诵大纲的要求,是不够的。插本的词汇,词频表与词汇表之间相差大约八百个单词,这个差距其实已经是很小了的。
当词频表和词汇表两者相互结合使用,会对插本复习很好的指导作用。一般来说,词频表内所包含的信息会更为丰富,如果我们懂得如何利用,就能得到非常好的复习效果。
词频表的作用
懂得如何利用好词频表,能帮助你更有效率的复习和备考。词频表作为一种统计的结果,有很多实际的用法,下面讲到几种基本的用法,看看分别都能解决什么问题。
插本真题总共有几个单词?
这个是最简单的问题,用一条Linux下面的命令wc就能将结果统计出来:
devtor@ubuntu:~/english$ wc -l zcb-freq.txt
4437 zcb-freq.txt
从上面我们知道,98-09年插本历年真题里面出现过4437个不同的单词。比大纲要求的3800个单词多了约600多个。
按词频背单词
词频表可以提高单词记忆的效率。方法很简单,按照词频表的顺序,从上往下收集单词,已经学过的单词就跳过,没见过的单词就另外用笔记本记录下来。每天收集30至50个生词。当我们学习生词的时候,按照从上到下的顺序依次去学,你的词频就会更加符合这个统计出来的结果。
坚持这个做法的好处显而易见。就算你并没有时间掌握所有考纲要求的词汇,你也可以把最常见的词汇先学,词频仅仅为1的那部分单词,就可以略过不看。
哪些英语考试与插本英语考试的关系最大?
如果一个单词,你在之前的学习就已经掌握了,那么在插本备考的过程自然不需要再学一次。那么,插本大纲三千多个单词,有多少是我们在准备其他考试的时候就已经学习或者接触过的呢?为了回答这个问题,我们对以下几个考试的词汇表与词频表进行几个对比。
?词汇表 vs 词汇表
我们将不同考试的词汇,进行交集运算。得出下面的表格:
插本(3645 ) 高中词汇
(3066)
应用能力A
级(3354)
大学英语四
级(4614)
大学英语六级
(1549)
插本(3645) - 1215 2268 355541
高中英语
(3066)
1215 - 1153 1422 447
英语应用能力A
级(3354)
2268 1153 - 3039 119
大学英语四级
(4614)
3555 1422 3039 - 0
大学英语六级
(1549)
41 447 119 0 -
首行首列的括号内的数字表示的是该项考试大纲词汇的总数。正交得到上述表格,其余的行列对应数字表示的是在两个大纲内均出现过的单词的总数。
从上表我们可以看到。大学英语四级词汇表和插本大纲词汇重合度是最高的。插本的单词3645个里面,有3555个单词是四级大纲内的词汇。重合程度第二高的是与英语应用能力A级(A级)的重复数量,达到2268个单词。和六级词汇的重合度最低,只有41个单词。因此我们能得出结论,四级与插本考试的关系是最大的。当你按四级词汇学习的同时,你也已经是在复习插本的词汇了。
?词频表 vs 词频表
用同样的交集运算处理词频表。得到如下表格:
插本(4437) 大学英语四级(9924) 大学英语六级(12358)
插本(4437) - 36243743
大学英语四级(9924) 3624 - 7348
大学英语六级(12358) 3743 7348 -
从上表我们可以看到。交集的结果里面,数值最高的是四级与六级之间的词频,达到7348个。这也就告诉我们,大部分的六级考试遇到的词汇,其实还是以四级考试为基础的。因此,学生不能跨越四级就直接参与六级的考试,这是有科学依据的。必须有一个“先四级,再六级”这样一个循序渐进的过程,不可能“在浮沙上筑高台”。
在插本历年真题的单词中,有3624个在四级考试里面出现了;有3743个也在六级考试的试卷里面出现了。但是用四级考试的试卷和用六级考试的试卷,两者的差别只有 3743 - 3624 = 119 个单词。也就是说,你通过历年真题备考四六级时,其复习的效果对插本英语的考试来说,差别不大。因此,有的同学在备考插本的同时,也在备考四六级,对于已经通过四级考试的同学来说,可以通过做六级的真题来备考。而就算你目前尚未通过四级,也可以通过做四级的真题的同时来备考插本。
词频表 vs 词汇表
当词汇表与词频表进行一定的交集运算的时候,就会产生一些更加有趣的结果:
插本词汇(3645) 高中词汇
(3066)
应用能力A级
(3354)
大学英语四级
(4614)
大学英语六级
(1549)
插本词频
(4437)
139**** **** 2070126
留意表格,中加黑部分的数字,这告诉了我们一个铁一般的事实,那就是大学英语四级的词汇书,对插本是最有帮助的,有2070个单词曾经在插本的真题中出现过!插本3800个词汇,里面只有1399个单词曾经在历年真题里面出现过。这说明网上流传的所谓“插本大纲词汇”的词汇书,作用甚至还不如应用能力A级的词汇表更实用。因为应用能力考试的词汇中,有1815个单词曾经在插本理念真题中出现过,这个数字与四级对比的结果相比,差别只有不到200个。
哪些单词可以略过不看?
当复习时间越发紧迫的时候,有选择的舍弃就显得尤为重要了。哪些单词可以舍弃?当然是词频最低的那部分单词。那部分单词总共有多少呢?
为了解答上述这个问题。我们采用如下的awk脚本来对词频表进行一个简单的统计分析,来求出我们关心的结果:
#!/usr/bin/awk -f## freq_dist.awk# to caculate a frequency distribution# author: devtor# BEGIN{ map[1]=0}
{ map[$1]++}
END{for( v in map)print v,"\t", map[v]|"sort -rn"}
对插本历年真题词频表进行处理后,得出下面的结果:
devtor@ubuntu:~/english$ awk -f freq_dist.awk zcb-freq.txt
2186 1
1215 1
1199 1
1164 1
1161 1
1081 1
1069 1
772 1
759 1
...
13 45
12 51
11 37
10 63
9 75
8 85
7 104
6 139
5 201
4 295
3 420
2 766
1 1793
表格中间的行省略,我们只关心最头几行和最尾几行。第一行“2186 1”表示在插本历年英语试题中总共出现了2186次的单词只有1个,就是英语中最常用的“The”。同理,最末尾的一行“1 1793”则表示,在历年英语试题中,总共只出现过1次的单词,有1793个。你们想想,十年才出现过一次的单词,频率是不是太低了?假如只出现一次的单词我们全部都不学,那么我们只需要学 4437 - 1793 = 2644个单词。这部分单词就算是大纲要求的,就算一次两次不复习,问题也不大不会对最后的分数有多大的影响。
经过这样一个简单的分析,原本要计划学习 3800 个单词,现在我们已经精简了 3800 - 2644 = 1156 个。也就是说,我们可以比不分析前少学 1156 个单词!这里能提高多少效率呢?按照一个记忆力比较好的大学生一天能学50个单词来算,不浪费时间在这部分单词上面,就省下了24天,接近一个月的时间了!
低词频词有哪些特点?
也许有同学还是会有顾虑,问如果这1793个单词不背下来,下次考试万一出现了怎么办?
首先这个顾虑是大可不必要的,真正值得顾虑的是,那些词频数在5 ~ 106这个范围内的单词。这部分单词词频处于中间的层次,是最容易被遗忘,而又最有可能在几年考试中都碰到的词汇。应该
把主要复习的精力放在这里上面。
其次,词频最低的这1793个单词,大部分是一些人名或者只是一些词频较高的单词的某些特殊分
词或者时态的情况。即使不看,也不会影响自己的记忆。例如,词根为 interest 的这部分词汇的词
频如下:
cat zcb-freq.txt | grep interest
5 interesting
5 interest
4 interested
1 interests
1 interestingly
interest 这个单词我们初中就学过了,但是这个词汇却并不是考试中的高频词汇,最高的词频
才5。所以这种词频虽低,但是即使不花时间分别记住这5个低频词汇,也并不影响我们正常的复习。有多少大纲要求的单词,在历年真题中从来没出现过?
为了得出这个结果,我们需要一个脚本程序,来求出插本历年真题的词频表以及插本词汇表之间
的补集:
#!/usr/bin/awk -f## complementary.awk# compare two files and display the omplementary set# author: devtor#
BEGIN{ vocabu[0] vocabuf[0]}
{ vocabuf[FILENAME, $1]++ vocabu[$1]++}
END{for(val in vocabuf){ split(val, idx, SUBSEP) filess = idx[1] w = idx[2]if(vocabu[w]==1&& vocabuf[filess, w]==1){print filess":\t"w
}}}
现在假设词频表中的单词用 zcb-freq.txt 记录。zcb.txt 记录的是词汇表的文件。用以上命令
执行如下代码,将得出我们需要的结果:
devtor@ubuntu:~/english$ awk -f complementary.awk zcb-freq.txt vocabulary/zcb.txt | grep zcb-freq | wc -l
3038
得出上述这个结果往往会让人很吃惊,因为大纲词汇里面的单词,只有不到40%出现在了历年真
题当中。这个结论告诉我们,英语的学习不能只依靠词汇,还必须结合文章阅读和听力来使自身的词
汇积累达到词频相近的程度。
词频表的制作
词频表的制作,是通过一个Perl脚本的程序 frequence.pl 实现的。而提供历年真题的内容的文件,必须存为txt格式。程序代码如下:
#!/usr/bin/perl -w## frequence.pl# scan the input file and generate the vocalbuary frequence table# author: devtor#
my%words =();
while(my$word =<>){ chomp($word);@wordd=split /\ /,$word;foreach my$w (@wordd) {if($w =~m/([A-Za-z]+)/i){$ww =$1;if($ww =~ /^[A-Z][a-z]+$/){$ww =~tr/A-Z/a-z/; $words{$ww}++;}else{ $words{$ww}++;}}}}
sub compare { $words{$b}<=> $words{$a};}
foreach my $key (sort compare (keys %words)){print $words{$key},"\t", $key,"\n";}假设现在有一个真题的txt文件 zcb-exam.txt ,则执行如下命令:
devtor@ubuntu:~/english/tools$ perl frequency.pl zcb-exam.txt
11608 the
6152 to
4698 of
4360 A
3995 B
3981 a
3958 D
3935 C
3527 in
3078 and
...
执行完成之后,词频表就会直接输出到STDOUT。