Ngữ liệu văn bản

Ngữ liệu văn bản (tiếng Anh: text corpus) là một tập hợp lớn các văn bản có cấu trúc (thông thường được lưu giữ dạng điện toán và đã xử lý).[1][2]

Một kho ngữ liệu có thể gồm những văn bản bằng một thứ tiếng (ngữ liệu đơn ngữ) hay nhiều thứ tiếng (ngữ liệu đa ngữ). Kho ngữ liệu đa ngữ có thể được sắp xếp theo dạng đối chiếu, gọi là kho ngữ liệu song song. Để có ích hơn cho việc nghiên cứu ngôn ngữ, các kho ngữ liệu thường được đánh dấu. Một ví dụ là việc gán nhãn từ loại (part-of-speech tagging hay là POS-tagging), trong đó các từ được gán nhãn danh từ, động từ, tính từ và nhiều loại từ khác.

Tham khảo

  1. ^ What is a corpus? What is corpus linguistics?[liên kết hỏng], Technische Universität Chemnitz.
  2. ^ Language Corpora, The University of Queensland.

Xem thêm

Liên kết ngoài

  • ACL SIGLEX Resource Links: Text Corpora Lưu trữ 2013-08-13 tại Wayback Machine
  • Developing Linguistic Corpora: a Guide to Good Practice
  • Free samples (not free), web-based corpora (45-425 million words each): American (COCA, COHA, TIME), British (BNC), Spanish, Portuguese
  • Intercorp Building synchronous parallel corpora of the languages taught at the Faculty of Arts of Charles University.
  • Sketch Engine: Open corpora with free access
  • TS Corpus - A Turkish Corpus freely available for academic research.
  • Turkish National Corpus - A general-purpose corpus for contemporary Turkish Lưu trữ 2015-04-02 tại Wayback Machine
  • Corpus of Political Speeches, publicly accessible with speeches from United States, Hong Kong, Taiwan, and China, provided by Hong Kong Baptist University Library
  • Russian National Corpus
  • x
  • t
  • s
Thuật ngữ chung
Khai thác văn bản
Tóm tắt tự động
Dịch tự động
Nhận dạng tự động
và thu thập dữ liệu
Mô hình chủ đề
Xem xét với
sự trợ giúp máy tính
Giao diện người dùng
ngôn ngữ tự nhiên
Bài viết này vẫn còn sơ khai. Bạn có thể giúp Wikipedia mở rộng nội dung để bài được hoàn chỉnh hơn.
  • x
  • t
  • s