پیکرۀ زبانی

پیکره مجموعه‌ای از پاره‌های زبانی است که انتخاب و براساس معیارهای زبانی روشنی مرتب می‌شوند به‌نحوی که همچون نمونه‌ای از زبان به کار گرفته می‌شوند. پیکره شامل متنهای پیوستۀ طبیعی است که می‌توان از آن اطلاعاتی دربارۀ عناصر زبانی، هم واژگانی هم غیرواژگانی (مانند سبک، نقطه‌گذاری، دستور، گونۀ کاربردی)، به‌دست آورد.

کشف واژه‌هایی خاص یا کاربردهایی خاص از آنها در پیکره‌ای از متنهای معتبر که متخصصان هر زمینۀ موضوعی آن را نوشته‌اند، برای کمک به زبان‌آموز بسیار ارزشمند است زیرا نشان می‌دهد اگرچه همۀ واژه‌ها در فرهنگ‌های لغت ظاهر می‌شوند، در بافت‌هایی خاص نمی‌توان از آنها استفاده کرد، حتی اگر جمله به لحاظ دستوری درست باشد.

پیکرۀ حاضر

از آنجا که پیکره‌های موجود زبان فارسی برای مقاصدی غیر از آموزشِ زبان‌ تدوین شده‌اند، هریک از ویژگی‌هایی برخوردارند که به‌کارگیری آن‌ها توسط زبان‌آموزان مشکل و حتی در مواردی ناممکن است. این پیکره، پیکره‌ای آموزشی متناسب با سطح و نوع آموزش زبان است و فارسی‌آموزان خارجی و کلیه علاقه‌مندان به زبان فارسی می‌توانند به آن دسترسی داشته باشند و پاسخگوی فارسی‌آموزان در زمینۀ چگونگی به‌کارگیری زبان فارسی است.

ویژگی‌های پیکرۀ حاضر

اندازۀ پیکره

پیکرۀ حاضر، یک پیکرۀ 60000 واژه‌ای متشکل از 60 نمونۀ 1000 واژه‌ای از متون نوشتاری است.

گسترۀ زبانی

زبان فارسی شامل همۀ گونه‌های گفتاری، نوشتاری، سبکی و کاربردی و غیره در همۀ دوران‌های این زبان است. از طیف دوران‌های تاریخی زبان فارسی، برش فارسی معاصر برگزیده شد تا شواهدی از این دوران برای فارسی‌آموزان ارائه شود. همین محدودۀ زمانی نیز که به‌طور قراردادی از ابتدای قرن چهاردهم خورشیدی تا امروز را دربرمی‌گیرد، دارای گونه‌های بسیاری است، از جمله گونۀ رسمی یا به‌اصطلاح معیار و غیررسمی یا به‌اصطلاح محاوره‌ای و عامیانه، گونۀ نوشتاری و گونۀ گفتاری، گونۀ ادبی و سبکی و گونۀ کاربردی و حرفه‌ای و گونه‌هایی که متغیرهای اجتماعی (مانند سن، جنس، سواد و تحصیل، طبقۀ اجتماعی، محیط‌های مختلف اجتماعی و منطقه‌ای) عامل تمایز آنها به‌شمار می‌روند.

زبان به‌کار رفته در پیکره، گونۀ نوشتاری با نمونه‌هایی از ادبیات معاصر در قالب نثر و شعر است.

نمونه‌گیری

نمونه‌گیری بر اساس معیارهایی صورت پذیرفته است، ازجمله میزان فروش (با توجه به فهرست کتابهای پرفروش)، در دسترس بودن منابع، تالیفی بودن منابع (غیر از متون نوشتاری ترجمه شده و نیز متونی که غیرفارسی‌زبانان آن را نوشته‌اند)، اطمینان از اعتبار مطالب (متخصص و سرشناس بودن نویسنده در موضوع مورد نظر و نیز فارسی‌زبان بودن او)، تاثیرگذاری و صاحب سبک بودن نویسنده.

این نمونه‌ها بر اساس ژانرهای زیر انتخاب شده‌اند:

از هریک از 12 ژانر مختلف، 5 متن برگزیده و از هریک از آنها در حدود 1000 کلمه به‌طور تصادفی انتخاب و تایپ شد. این قطعات ممکن است از هر جای متن انتخاب شده باشند، یعنی از ابتدا، وسط یا انتهای متن. با اینکه نمونه‌های کامل متن اساساً مفید هستند و متاسفانه در ایران مسئلۀ کپی‌رایت وجود ندارد، با در نظر گرفتن اندازۀ کلی محدود پیکره، پاره‌های متنی مورد استفاده قرارگرفت. نکتۀ دیگر آنست که با لحاظ کردن کل یک متن در پیکرۀ کوچک ممکن است موضوع یا ویژگی سبکی شخص به کل زبان تعمیم داده شود.

رسم‌الخط

یکی از مشکلات خط فارسی، نبود رسم‌الخطی یکنواخت است و در این زمینه هیچ‌ استاندارد یا معیاری وجود ندارد که مورد پذیرش عموم نویسندگان و ناشران باشد. از این رو، در متون نویسندگان مختلف با رسم‌الخط‌هایی متفاوت مواجه‌ایم؛ این امر موجب سردرگمی فارسی‌آموزان خارجی شده است. به‌علاوه، یکنواختی پیکره را مخدوش و جست‌و‌جوی واژه‌ها و عبارات را با مشکل مواجه می‌سازد. برخی از این مشکلات عبارت‌اند از: سرهم نویسی و جدانویسی، نمایش کسرۀ اضافه در کلمات مختوم به «ه» به‌صورت همزه یا «ی»، و از این قبیل. در این پیکره تا حد ممکن سعی شده است که الگوی یکسانی رعایت شود و این به بهای قربانی شدن رعایت امانت در شیوۀ نگارش است.

در پژوهش حاضر، در مورد سرهم نویسی یا جدا نویسی واژه‌ها به کتاب فرهنگ املایی خط فارسی و نیز دستور خط فارسی (1385) که فرهنگستان زبان و ادب فارسی آن را منتشر کرده، مراجعه شده است.

برچسب‌گذاری

برحسب اجزای کلام

در پیکرۀ حاضر واژه‌ها برحسب اجزای کلام برچسب گذاری شده‌اند و برچسب‌گذاری به‌لحاظ اجزای کلام در دو لایه صورت پذیرفته است؛ در لایۀ اول، جزء اصلی مشخص شده است که عبارت‌اند از: اسم، فعل، حرف، صفت، قید، ضمیر و صوت و در لایۀ دوم، این اطلاعات ریزتر شده است اینکه فعل، لازم است یا متعدی؛ اسم، ساده است یا مرکب (اعم از مشتق و مرکب)؛ حرف اضافه، ساده است یا مرکب؛ حرف ربط، ساده است یا مرکب؛ نشانۀ مفعول؛ صفت، ساده است یا تفضیلی و عالی؛ قید ساده است یا مرکب، و ضمیر، شخصی است یا موصولی.

برحسب صورت تلفظی

یکی از ویژگی‌های خط فارسی این است که حرکت‌ها به‌طور معمول در نوشتار ظاهر نمی‌شود. این امر خواندن و تلفظ برخی واژه‌ها را برای غیرفارسی‌زبانان مشکل می‌سازد. در عین حال، حرکت‌گذاری متن‌های پیکره جستجوی واژه را با پیچیدگی‌های فنی و کاربردی همراه می‌سازد. یکی از خصلت‌هایی که برای هر واژه در هر برچسب آمده است، صورت تلفظی آنها به‌صورت آوانگاری است و این صورت‌ها از کتاب فرهنگ آوایی فارسی اسخراج شده است. بدین‌ترتیب، فارسی‌آموزان خارجی به‌راحتی می‌توانند صورت تلفظی را مشاهده کنند.

انواع جستجو و گزارش

در حال حاضر جستجو در این پیکره بر پایۀ واژگان یا بخشی از آنها امکان‌پذیر است. در فهرست واژه‌یاب میزان وقوع واژۀ مورد جستجو در کل پیکره و نیز تعداد نمونه‌هایی که این واژه‌ها در آن رخ داده است، مشخص می‌شود.

فهرست واژه‌یاب

هر واژه در متن، یک بافت هم‌نشین دارد یعنی واژه به‌تنهایی در متن رخ نمی‌دهد. در فهرست واژه‌یاب، تا چند واژه قبل و بعد از واژۀ مورد جستجو، یعنی میزان کوچکی از بافت، نمایش داده می‌شود و کلیدواژه در وسط خط واژه‌یاب نمایش داده ‌می‌شود. واژه‌یاب نشان می‌دهد که نمونه‌ها گرایش دارند تا پیش از چه مقوله‌ای قرار گیرند یا پس از چه مقوله‌ای. همچنین معانی مختلف یک واژه را با توجه به کاربردهای مختلف نشان می‌دهند. بدین ترتیب، واژه‌های هم‌آیند واژۀ مورد نظر نیز ظاهر می‌شود و با انتخاب هر یک از شواهد، نمونۀ اصلی‌ قابل دستیابی است. در گزارش‌های این پیکره به جهت جدا کردن واژه‌ها از بافت، از فهرست‌واژه استفاده نمی‌شود.

آیندۀ پیکره

این پیکره همواره روزآمد می‌شود. به‌دلیل محدودیت زمانی طراحی پیکره، نمونه‌های تشکیل‌دهندۀ پیکره محدود بوده و لازم است که در آینده به این نمونه‌ها و حجم کلی پیکره افزوده شود و این افزایش شامل امکانات نرم‌افزاری و متن‌های تازه به آن است. می‌توان برچسب گذاری دستوری این پیکره را گسترش داد تا اطلاعات دستوری بیشتری به‌همراه هر واژه نمایش داده شود. به‌عبارت دیگر، با اضافه کردن خصلت‌ها می‌توان برچسب‌ها را ریزتر کرد.

امکان دیگری که می‌توان به این پیکره افزود نشانه‌گذاری به لحاظ معنایی است تا جستجوی مفهومی نیز در این پیکره امکان‌پذیر شود.

می‌توان این پیکره را موضوعی کرد تا کاربران هر زمینۀ موضوعی با پیکره‌ای متناسب با نیاز خود مواجه شوند.