序
我們究竟應該要記得多少單字?
依單字的使用頻率,可以推演出一個十分簡單易懂的規則。我們都知道,越重大的事件發生機率越低,相反地,越是稀鬆平常的事情,發生的機率就越高。舉個更具體的例子,發生大地震的機率很低,但我們感受不到的無感地震,則是發生得十分頻繁。如果這樣說還是難以理解的話,讓我們把話說得更白一點,只要想想我們常聽到的 80/20 法則,在所有單字中,只有 20% 是生活中常常使用的,剩下的 80% 則不然,也就是說,假設母語人士的字彙量大約是四萬個,只要能夠記得其中的 20%,也就是 8000 個單字,那麼對於母語非英文的外國人來說,就已經非常夠用了。
大字彙的誕生
我認為記住這重要的 8000 個單字是非常必要的,因此我開始針對這些單字進行調查。「Google 大神」果然知道問題的答案。我在網路上搜尋後發現,要找到英文單字庫絕非難事。在所有英文單字庫中,最大的就是致力於將書籍電子化的「古騰堡計畫」中所找到的單字庫。從 24000 本書中所選出的單字,大約是 8 億個左右,但在古騰堡計畫中,收錄了許多歷史久遠的經典書籍與古籍,其中有許多現在已不再使用的詞彙,因此為了彌補這個缺點,我將單字庫與電視劇劇本以及各式各樣的資料結合,最後收集了多達 11 億個單字。
大字彙的完成
處理這 11 億個單字時的第一個任務,就是先在其中精選出 20000 個單字,包括刪去現在已經不再使用的舊時詞彙、姓名與地名等等,光是這個作業就花了整整一年的時間。由於「大數據」顧名思義就是只有「數據」而已,對於結果的判斷,則必須由我們來做。舉例來說,以單字 take 而言,便包含了 takes、taking、taken、took 這些變化。所以我們進一步整理相關字彙,以除去不必要的單字。我們希望讀者能夠一看到列出的關鍵單字,就能夠自行推演出相關字彙,因此我們將這些單字都整理在一起,將必須記住的關鍵單字減少到了 8000 個,這是一件多麼幸福的事啊!
驗證大字彙的可信度
為了驗證大字彙內所收錄的單字的使用普及度,我們利用了 CNN 的新聞標題與大學入學測驗的英語考試來檢測可信度。如果不認識單字,就絕對無法理解新聞標題的意思,因此標題的每一個單字都相當重要,也是最適合拿來檢驗的對象。我們觀察了CNN 首頁的各種新聞標題 50 天左右,其中有 98% 的單字都包含在我們的關鍵單字裡,而關鍵單字與相關單字更是囊括了近五屆的大學入學測驗(編註:此處的「大學入學測驗」係指韓國地區的大學入學測驗。)英語測驗內單字的 99%。(若利用我們整理出來的字首字尾的話,更可以 100% 地推演出全部單字的意義)。就連日本的學力測驗英語部分當中所出現的字,也 100% 的包含在本書之中(日本的學力測驗英語部分難易度較韓國低)。並且,為了測試一般民眾認識多少單字,我們透過臉書的兩千個調查對象進行測驗。發現在超過《核心單字》所收錄的優先順序 2000 之後,回答的正確率降到了 60% 以下,而若以《進階單字》的單字進行測驗,回答的正確率更是降到了 40% 以下。換句話說,其實一般大眾對於閱讀理解所使用的單字量是不足的。最後,我們調查了收錄的詞條單字在 CNN 新聞當中實際上被用上了多少,與實際新聞內容中所使用的單字間的關係,發現優先順序越高,在新聞當中越是被頻繁地使用。
在結束大字彙的彙整作業之後……
在完成所有作業之後,我找到了為何學不好英文的答案。即使因為之前曾在國外念書,所以我能夠認識《核心單字》的 4000 個單字的 80%,但是收錄在《進階單字》中的 4000 個單字,我卻僅僅知道當中的 30%,因此,我難以看懂與我主修科目無關的單字。也就是說,不以英文為母語的人,如果沒有刻意去記單字的話,想要學好英文是非常困難的。8000 個單字其實比各位想像的要來得更少,而且我們是按照單字使用頻率的優先順序來編排本書,因此只要先認識核心單字中的 4000 個單字,僅是記住這些單字,英文實力就會有非常明顯的進步。目前國內的英文教學方式多以會話為主,當然良好的聽說能力也是相當重要的,但若要學習、研究或應用在工作之上,寫作與閱讀的能力更是優先的提升目標。想要讀寫英文無障礙的話,一定要具備的條件就是知道如何運用恰當的字彙。
這項耗時超過兩年的作業終於結束了。我把公司的工作辭了,並持續進行這項作業,真的耗費了相當長的時間、大量的心血,希望能夠為許多人帶來幫助。雖然身為非以英語為母語的人,即使知道很多單字,講起話來也無法像母語者一樣流利,但是能夠為各位在各自的領域中帶來英語學習上的幫助,仍舊是我的夢想。我們會繼續進行各式各樣的研究與計畫,希望各位不要放棄,並繼續學習。付出了這麼多的努力,希望大家都能夠成為帶有文化素養的英文專家。
申榮俊