語料庫一詞在語言學上意指大量的文本,通常經過整理,具有既定格式與標記。
根據語料庫的特徵,可以分為單語語料庫、雙語語料庫、平行語料庫等,根據語料的來源,可以分為書面語語料庫、口語語料庫、作文語料庫、學習者語料庫、古文書語料庫等。[1]
語料庫列表
多語
- 點通多語言語音語料庫
- 賓州大學語料庫
- Wikipedia XML 語料庫
- 紹興文理學院--中國漢英平行語料大世界 中英平行文本雙語語料庫
英語
- https://www.english-corpora.org
- The Collins Corpus
- Collin's Cobuild Project - 成果:Collin's當代英語辭典、及當代英語文法。
- Corpus of Political Speeches (香港浸會大學圖書館 提供)
漢語
繁體中文
簡體中文
日語
研究機構
等
外部連結
- Free, web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
- 開放式目錄計劃中和Computational Linguistics相關的內容
- ACL SIGLEX Resource Links: Text Corpora
- The Leipzig Glossing Rules: Conventions for interlinear morpheme-by-morpheme glosses
- Developing Linguistic Corpora: a Guide to Good Practice
- An interface for querying automatically-constructed virtual corpora[失效連結].
- TEP: Tehran English-Persian Parallel Corpus.
- [1] Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
- TS Corpus - A Turkish Corpus freely available for academic research.
- Turkish National Corpus - A general-purpose corpus for contemporary Turkish
- Free web-based English corpus to download (3 billion words)