自然語言處理(Natural Language Processing,NLP)是人工智慧和語言學領域的分支學科,主要研究如何讓電腦處理和運用自然語言。自然語言處理廣義上分為兩大部分,第一部分為自然語言了解,是指讓電腦「懂」人類的語言;第二部分為自然語言產生,是指把電腦資料轉化為自然語言。本書重點說明中文自然語言處理方面的最新理論、技術和進展。
自然語言處理(Natural Language Processing,NLP)是人工智慧和語言學領域的分支學科,主要研究如何讓電腦處理和運用自然語言。自然語言處理廣義上分為兩大部分,第一部分為自然語言了解,是指讓電腦「懂」人類的語言;第二部分為自然語言產生,是指把電腦資料轉化為自然語言。本書重點說明中文自然語言處理方面的最新理論、技術和進展。
自然語言處理作為一個獨立的學科誕生至今,已經半個多世紀了。與絕大多數傳統學科的最大不同是,在這半個世紀中,它始終離問題的終結遙遙無期,當人們千辛萬苦地獲得一次又一次的突破後,又會被新出現的問題無情地阻攔,而再次陷入迷惘之中。在NLP中,問題好像沒有最後解決方案,甚至連最佳做法也沒有,而只有最新現狀(State of art)。而近些年,那些歷史上的State of art 正被不斷地更新、不斷地超越。
面對市場上諸多的人工智慧系統,以及背後的各種演算法理論,使我想起了一部獲獎的英國電影《模仿遊戲》。這不是一部藝術上的State of art ,卻贏得了第87 屆奧斯卡金像獎最佳改編劇本獎。在一定這部作品的諸多因素中,我認為最重要的是,它宣誓了現階段人工智慧的本質:模仿。這也是本書自始至終貫穿的主題:模仿→相似性→演算法理論。