شاخص‌ها و مراحل ساخت پیکرة زبانی: گونة نوشتاری و گفتاری

نوع مقاله : مقاله پژوهشی

نویسنده

پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)

چکیده

این پژوهش تلاش دارد با جمع­آوری اطلاعات مربوط به شاخص­ها و مراحل ساخت پیکرة زبانی، به پژوهشگران در زمینة ساخت انواع پیکره‌های زبانی کمک کند. در این راستا، در این مقاله، پس از بررسی نظرات پژوهشگرانی که اقدام به ساخت پیکره­هایی در زبان­های مختلف کرده­اند، به شاخص­های کلی ساخت پیکره­های زبانی پرداخته می‌شود. این شاخص­ها مربوط به ساخت گونه­های متنی و گفتاری پیکره است که نمونه‌گیری، نمایندگی، توازن، اندازه، نوع پیکره و  یک‌دستی را شامل می‌شوند. سپس، فرآیند ساخت پیکرة متنی ارائه می‌شود که انتخاب متون، پیش‌پردازش متون و حاشیه­نویسی را در بر می‌گیرد و در این راستا به تفصیل دربارة هر یک از مراحل توضیح داده می‌شود. در پایان، فرآیند ساخت پیکرة گفتاری بیان می‌شود که جمع­آوری داده­ها، آوانویسی، نمایش و حاشیه‌نویسی و دسترسی را در بر می‌گیرد. دربارة هر یک از مراحل مذکور نیز به تفصیل توضیح داده می‌شود.

کلیدواژه‌ها


عنوان مقاله [English]

Steps to be followed in corpus construction: written and spoken language corpora

نویسنده [English]

  • Elham Alayiaboozar
Iranian Research Institute for Information Science and Technology (IranDoc)
چکیده [English]

The aim of this paper is to take readers through the basic steps involved in building a corpus of language data for different purposes. This is done via gathering information about corpus construction from related sources. After a review of literature (regarding corpus construction and the use of corpus in different fields) , this article offers advice in a non-technical style to help the researchers to make sure that their corpus is well-designed and fit for the intended purpose. Key points to be considered in constructing any corpus (written or spoken language) include: Sampling, Size, Representativeness, Balance, General vs. Specialized corpus and Homogeneity. The steps involved in constructing a text corpus are: text selection, text normalization and different kinds of annotation. The steps to be followed in constructing a spoken language/speech-based corpus are: data gathering, transcription, representation, annotation and access. In this paper all the afore-mentioned steps have been explained with related details.

کلیدواژه‌ها [English]

  • Corpus
  • Key Points in Corpus Construction
  • Corpus Construction Process
  • Text Corpus
  • Spoken Language Corpus
آیت، سید سعید. (1389). طراحی و پیاده‌سازی دادگان دایفون زبان فارسی برای کاربرد زبانشناسی رایانه‌ای. پژوهش­های زبان­شناسی، 2 (3)، صص. 11-1.
بی‌جن‌خان، محمود. (1383). نقش پیکره‌های زبانی در نوشتن دستور زبان: معرفی یک نرم‌افزار رایانه‌ای. مجلۀ زبان‌شناسی. سال نوزدهم، 2، صص. ۴۸-۶۷.
محمدی، رؤیا. (1391). ساخت پیکرۀ تطبیقی فارسی-انگلیسی و استخراج جملات موازی از آن. پایان‌نامة کارشناسی ارشد. دانشگاه الزهرا (س). دانشکدۀ فنی و مهندسی.