切換搜尋

切換菜單

切換個人選單

語料庫

求聞百科，共筆求聞

語料庫一詞在語言學上意指大量的文本，通常經過整理，具有既定格式與標記。

根據語料庫的特徵，可以分為單語語料庫、雙語語料庫、平行語料庫等，根據語料的來源，可以分為書面語語料庫、口語語料庫、作文語料庫、學習者語料庫、古文書語料庫等。^[1]

語料庫列表

多語

點通多語言語音語料庫
賓州大學語料庫
Wikipedia XML 語料庫
紹興文理學院--中國漢英平行語料大世界中英平行文本雙語語料庫

英語

https://www.english-corpora.org
The Collins Corpus
Collin's Cobuild Project - 成果：Collin's當代英語辭典、及當代英語文法。
Corpus of Political Speeches （香港浸會大學圖書館提供）

漢語

繁體中文

簡體中文

日語

研究機構

上海外國語大學語料庫研究院
日本國立國語研究所

等

外部連結

Free, web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
開放式目錄計劃中和Computational Linguistics相關的內容
ACL SIGLEX Resource Links: Text Corpora
The Leipzig Glossing Rules: Conventions for interlinear morpheme-by-morpheme glosses
Developing Linguistic Corpora: a Guide to Good Practice
An interface for querying automatically-constructed virtual corpora^{[失效連結]}.
TEP: Tehran English-Persian Parallel Corpus.
[1] Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
TS Corpus - A Turkish Corpus freely available for academic research.
Turkish National Corpus - A general-purpose corpus for contemporary Turkish
Free web-based English corpus to download (3 billion words)

參考文獻

↑ 狐狸等間隔. 日语语料库超入门. 微信公眾平台. [2022-12-20].

一般術語

自動識別
與數據採集

計算機輔助
審查

自然語言
用戶界面

取自 "https://www.qiuwenbaike.cn/index.php?title=语料库&oldid=7191592"