语料数据下载 (Corpus Data)

提供语料库的元数据、采样数据及完整数据集下载。部分数据需申请权限。

公开访问数据 (Public Access)

📦
语料库采样样本 (Sample Dataset)
包含各类型语料的 500 条样本数据,供研究测试使用
下载 .zip
基础统计元数据 (Basic Metadata)
语料库词频、句长分布等统计数据
下载 .csv

授权访问数据 (Authorized Only)

🔒
完整平行语料库 (Full Parallel Corpus)
包含所有已对齐的双语语料数据 (需审批)

📏 标注规范与元数据 (Annotation & Metadata)

📕
语料库标注规范说明书 (Annotation Guide)
详细的 PDF 文档,包含标注符号体系与示例
预览 PDF
🏷️
实体标签集 (Entity Tagset)
人名、地名、机构名等实体分类体系
下载 .xlsx

语料导入模板

请下载对应类型的模板文件,按照格式整理语料后进行批量导入。

📄
Word 复合导入模板 (Smart Import)
适用于包含文本、图片占位符的混合文档导入
下载 .docx
📝
词语语料导入模板
适用于术语、专有名词数据导入
下载 .csv
📑
句子/平行语料导入模板
适用于双语例句、平行文本导入
下载 .csv
📰
段落/篇章导入模板
适用于长文本、文章段落导入
下载 .csv
📚
百科知识导入模板
适用于结构化百科条目导入
下载 .csv

🔖 引用规范 (Citation Guide)

如果您在研究中使用了本语料库的数据,请参照以下格式进行标注引用。

APA 格式

Zhuang Culture Multimodal Translation Corpus. (2026). Guangxi University for Nationalities. Retrieved from http://ethnic-corpus.cn

GB/T 7714 格式

壮族文化多模态外译语料库项目组. 壮族文化多模态外译语料库 [DB/OL]. (2026-01-01) [2026-02-03]. http://ethnic-corpus.cn.