系列部分之 |
语言学 |
主题 |
语料库语言学(英语:corpus linguistics)是基于语言运用的实例(即语料库)的语言研究。语料库语言学可以对自然语言进行语法与句法分析,还可以研究它与其他语言的关系。语料库最初由手工完成,而现在主要是由电子计算机自动完成。
语料库语言学家相信,可靠的语言分析需建立在新鲜的语料、自然的语言环境,和最小的实验干扰之上。在语料库语言学中,语料标注的意义众说纷纭,从约翰·辛克莱(John McHardy Sinclair)[1]主张最少量的标注,并允许文本“为自己说话”,到“英语用法调查组”(设在伦敦大学学院)[2]鼓励更多的标注,并认为它是通向更完备和严谨的语言理解的道路。
现代语料库语言学的一个里程碑是亨利·库切拉和W.纳尔逊弗朗西斯在1967年出版的《当代美语的计算分析》(Computational Analysis of Present-Day American English)一书。该项工作基于对布朗语料库的分析,布朗语料库是一个精心编制的美国英语语料库,规模约有一百万词次。库切拉和弗朗西斯将这些语料用于各种计算分析,获得了丰富和多样化的成果,该成果结合了语言学、语言教、心理学、统计学、和社会学元素。另一关键出版物是1960年伦道夫·夸克的《当代英语语法》(Towards a description of English Usage)[3],在这本书中他介绍了“英语用法调查”项目(The Survey of English Usage)。
其他出版社纷纷效仿。英国出版商柯林斯COBUILD单语学习词典,就是为非英语母语者学习英语而出版的,它使用了“英语银行”(Bank of English)语料库。“英语用法调查”语料库被用于由夸克等人编著的《综合英语语法》(A Comprehensive Grammar of the English Language)中。
布朗语料库也催生了类似的语料库:LOB语料库(Lancaster-Oslo-Bergen Corpus,20世纪60年代英国英语),科尔哈帕(Kolhapur,印度英语),惠灵顿(Wellington,新西兰英语),澳大利亚英语语料库(Australian Corpus of English,澳大利亚英语),皱眉语料库(Frown Corpus,20世纪90年代初,美国英语),以及FLOB语料库(FLOB Corpus,20世纪90年代,英国英语)。其他语料库包括国际英语语料库(International Corpus of English),和英国国家语料库(British National Corpus,收集了1亿词次的口头和书面语料,在20世纪90年代时由出版商、牛津大学、兰卡斯特大学和大英图书馆创建)。至于说到当代的美国英语,现已有了美国国家语料库(英语:American National Corpus),以及可以在线访问的4亿多词次的美国当代英语语料库(英语:Corpus of Contemporary American English,1990年创建)。
第一个电脑转录口语语料库,建于1971年蒙特利尔法语项目(Montreal French Project),[4]有一亿词次,这一项目还启发了夏娜·帕普拉克(Shana Poplack)建立了规模更大的渥太华-赫尔地区法语口语语料库(英语:Corpus of spoken French in the Ottawa-Hull area)。[5]
语料库除了收集现存语言,也收集古代语言。比如20世纪70年代建立的希伯来文圣经的安徒生福布斯数据库(英语:Andersen-Forbes database of the Hebrew Bible,数据库的每个子句的语法分析都使用了多达七级语构的图表,每一部分都标注了七个方面的信息。[6]古兰经阿拉伯语语料库(英语:Quranic Arabic Corpus)是古典的阿拉伯文《古兰经》的标注语料库。它包含多层次的标注,包括形态分割,词性标注,以及使用依存语法进行的句法分析。[7]
语料库语言学已经有了一大批研究方法,这些研究方法都试图找到从数据到理论的解决方案。瓦利斯和尼尔森[8]最先介绍了他们的3A观点(英语:3A perspective):注释(英语:Annotation),抽象(英语:Abstraction)和分析(英语:Analysis)。
- 注释 包括语料的数据库方案。注释可能包括结构标注,词性标注,句法分析和其他形式。
- 抽象 包括该方案在理论上的启发式模型或数据集中的翻译(映射)。抽象通常包括面向语言学家的定向搜索,但也可能包括句法研究者的句法规则学习。
- 分析 包括统计学探测,操纵和对数据集的归纳概括。分析可能包括统计学评估,规则库优化和知识探索方法。
- ^ Sinclair, J. 'The automatic analysis of corpora', in Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82) . Berlin: Mouton de Gruyter. 1992.
- ^ Meurman-Solin, Anneli; Nurmi, Arja. Annotation, Retrieval and Experimentation. Annotating Variation and Change. Helsinki: Research Unit for Variation, Contacts and Change in English (VARIENG), University of Helsinki. 2007 [2021-10-16]. OCLC 780136367. (原始内容存档于2021-10-19) (英语).
- ^ Quirk, R. 'Towards a description of English Usage', Transactions of the Philological Society . 1960. 40–61.
- ^ Darnell, Regna. Canadian languages in their social context. Carbondale: Linguistic Research. 1979 [2021-10-16]. ISBN 978-0-88783-003-7. OCLC 257958435. (原始内容存档于2021-10-19) (英语).
- ^ Poplack, S. The care and handling of a mega-corpus. In Fasold, R.& Schiffrin D. (eds.) Language Change and Variation , Amsterdam: Benjamins. 1989. 411–451.
- ^ Andersen, Francis I; Conrad, Edgar W; Newing, Edward G. Perspectives on language and text: essays and poems in honor of Francis I. Andersen's sixtieth birthday, July 28, 1985. Winona Lake, Ind.: Eisenbrauns. 1987 [2021-10-16]. ISBN 978-0-931464-26-3. OCLC 14588192. (原始内容存档于2021-10-19) (英语).
- ^ Dukes, Kais; Atwell, Eric; Habash, Nizar. Supervised collaboration for syntactic annotation of Quranic Arabic. Language Resources and Evaluation. 2013-03, 47 (1): 33–62. ISSN 1574-020X. doi:10.1007/s10579-011-9167-7 (英语).
- ^ Wallis, S. and Nelson G. 'Knowledge discovery in grammatically analysed corpora'. Data Mining and Knowledge Discovery , 5 : 307–340. 2001.
- 致力于语料库语言学的国际同行评审期刊
- Corpora(页面存档备份,存于互联网档案馆)
- Corpus Linguistics and Linguistic Theory(页面存档备份,存于互联网档案馆)
- ICAME Journal(页面存档备份,存于互联网档案馆)
- International Journal of Corpus Linguistics(页面存档备份,存于互联网档案馆)
- 语料库语言学领域丛书
- Language and Computers
- Studies in Corpus Linguistics
- English Corpus Linguistics(页面存档备份,存于互联网档案馆)
- 其他书籍
- Biber, D., Conrad, S., Reppen R. Corpus Linguistics, Investigating Language Structure and Use , Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7
- McCarthy, D., and Sampson G. Corpus Linguistics: Readings in a Widening Discipline , Continuum, 2005. ISBN 0-8264-8803-X
- Facchinetti, R. Theoretical Description and Practical Applications of Linguistic Corpora . Verona: QuiEdit, 2007. ISBN 978-88-89480-37-3
- Facchinetti, R. (ed.) Corpus Linguistics 25 Years on. New York/Amsterdam: Rodopi, 2007 ISBN 978-90-420-2195-2
- Facchinetti, R. and Rissanen M. (eds.) Corpus-based Studies of Diachronic English . Bern: Peter Lang, 2006. ISBN 3-03910-851-4
- Bookmarks for Corpus-based Linguists – very comprehensive site with categorized and annotated links to language corpora, software, references, etc.(页面存档备份,存于互联网档案馆)
- Corpora discussion list
- Freely-available, web-based corpora (100 million – 400 million words each): American (COCA, COHA), British (BNC), TIME, Spanish, Portuguese(页面存档备份,存于互联网档案馆)
- Manuel Barbera's overview site(页面存档备份,存于互联网档案馆)
- Przemek Kaszubski's list of references
- AskOxford.com(页面存档备份,存于互联网档案馆) the composition and use of the Oxford Corpus
- DMCBC.com* Datum Multilanguage Corpora Based on chinese free sample downloadArchive.is的存档,存档日期2012-12-08
- Corpus4u Community(页面存档备份,存于互联网档案馆) a Chinese online forum for corpus linguistics
- McEnery and Wilson's Corpus Linguistics Page(页面存档备份,存于互联网档案馆)
- Corpus Linguistics with R mailing list(页面存档备份,存于互联网档案馆)
- Research and Development Unit for English Studies(页面存档备份,存于互联网档案馆)
- Survey of English Usage(页面存档备份,存于互联网档案馆)
- The Centre for Corpus Linguistics at Birmingham University(页面存档备份,存于互联网档案馆)
- Gateway to Corpus Linguistics on the Internet(页面存档备份,存于互联网档案馆): an annotated guide to corpus resources on the web
- Biomedical corpora
- Linguistic Data Consortium, a major distributor of corpora
- Penn Parsed Corpora of Historical English(页面存档备份,存于互联网档案馆)
- Corsis(页面存档备份,存于互联网档案馆): (formerly Tenka Text) an open-source (GPLed) corpus analysis tool written in C#
- ICECUP(页面存档备份,存于互联网档案馆) and Fuzzy Tree Fragments(页面存档备份,存于互联网档案馆)
- Research and Development Unit for English Studies(页面存档备份,存于互联网档案馆)
- Discussion group text mining
- Corpus of Political Speeches(页面存档备份,存于互联网档案馆),可搜寻美国、香港、台湾及中国的演讲稿,由香港浸会大学图书馆提供(页面存档备份,存于互联网档案馆)