شاخص‌ها و مراحل ساخت پیکرة زبانی: گونة نوشتاری و گفتاری

علایی ابوذر, الهام

doi:10.22099/jill.2020.36080.1187

شاخص‌ها و مراحل ساخت پیکرة زبانی: گونة نوشتاری و گفتاری

نوع مقاله : مقاله پژوهشی

نویسنده

الهام علایی ابوذر

پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

10.22099/jill.2020.36080.1187

چکیده

این پژوهش تلاش دارد با جمعآوری اطلاعات مربوط به شاخصها و مراحل ساخت پیکرة زبانی، به پژوهشگران در زمینة ساخت انواع پیکره‌های زبانی کمک کند. در این راستا، در این مقاله، پس از بررسی نظرات پژوهشگرانی که اقدام به ساخت پیکرههایی در زبانهای مختلف کردهاند، به شاخصهای کلی ساخت پیکرههای زبانی پرداخته می‌شود. این شاخصها مربوط به ساخت گونههای متنی و گفتاری پیکره است که نمونه‌گیری، نمایندگی، توازن، اندازه، نوع پیکره و یک‌دستی را شامل می‌شوند. سپس، فرآیند ساخت پیکرة متنی ارائه می‌شود که انتخاب متون، پیش‌پردازش متون و حاشیهنویسی را در بر می‌گیرد و در این راستا به تفصیل دربارة هر یک از مراحل توضیح داده می‌شود. در پایان، فرآیند ساخت پیکرة گفتاری بیان می‌شود که جمعآوری دادهها، آوانویسی، نمایش و حاشیه‌نویسی و دسترسی را در بر می‌گیرد. دربارة هر یک از مراحل مذکور نیز به تفصیل توضیح داده می‌شود.

کلیدواژه‌ها

20.1001.1.25383574.1398.4.2.11.2

عنوان مقاله [English]

Steps to be followed in corpus construction: written and spoken language corpora

نویسنده [English]

Elham Alayiaboozar

Iranian Research Institute for Information Science and Technology (IranDoc)

چکیده [English]

The aim of this paper is to take readers through the basic steps involved in building a corpus of language data for different purposes. This is done via gathering information about corpus construction from related sources. After a review of literature (regarding corpus construction and the use of corpus in different fields) , this article offers advice in a non-technical style to help the researchers to make sure that their corpus is well-designed and fit for the intended purpose. Key points to be considered in constructing any corpus (written or spoken language) include: Sampling, Size, Representativeness, Balance, General vs. Specialized corpus and Homogeneity. The steps involved in constructing a text corpus are: text selection, text normalization and different kinds of annotation. The steps to be followed in constructing a spoken language/speech-based corpus are: data gathering, transcription, representation, annotation and access. In this paper all the afore-mentioned steps have been explained with related details.

کلیدواژه‌ها [English]

Corpus
Key Points in Corpus Construction
Corpus Construction Process
Text Corpus
Spoken Language Corpus

مراجع

آیت، سید سعید. (1389). طراحی و پیاده‌سازی دادگان دایفون زبان فارسی برای کاربرد زبانشناسی رایانه‌ای. پژوهشهای زبانشناسی، 2 (3)، صص. 11-1.

بی‌جن‌خان، محمود. (1383). نقش پیکره‌های زبانی در نوشتن دستور زبان: معرفی یک نرم‌افزار رایانه‌ای. مجلۀ زبان‌شناسی. سال نوزدهم، 2، صص. ۴۸-۶۷.

محمدی، رؤیا. (1391). ساخت پیکرۀ تطبیقی فارسی-انگلیسی و استخراج جملات موازی از آن. پایان‌نامة کارشناسی ارشد. دانشگاه الزهرا (س). دانشکدۀ فنی و مهندسی.

شاخص‌ها و مراحل ساخت پیکرة زبانی: گونة نوشتاری و گفتاری

Steps to be followed in corpus construction: written and spoken language corpora

مراجع

دوره 4، شماره 2
اسفند 1398
صفحه 267-290

فایل ها

سابقه مقاله

هم رسانی

ارجاع به این مقاله

آمار

شاخص‌ها و مراحل ساخت پیکرة زبانی: گونة نوشتاری و گفتاری

Steps to be followed in corpus construction: written and spoken language corpora

مراجع

دوره 4، شماره 2اسفند 1398صفحه 267-290

فایل ها

سابقه مقاله

هم رسانی

ارجاع به این مقاله

آمار

دوره 4، شماره 2
اسفند 1398
صفحه 267-290