همه پژوهشگرانی که درباره زبان فارسی تحقیق میکنند، چه در ایران و چه در کشورهای دیگر جهان از «پایگاه دادگان زبان فارسي» استفاده میکنند. زبانآموزان و معلمان زبان فارسی، مترجمان، دانشجویان، استادان زبانشناسی، فرهنگنگاران و دستورنویسان ازجمله کاربران اصلی این دادگان هستند. ایبنا گفتوگویی دارد با دکتر عاصی، مسوول این پایگاه؛ درباره اهداف راهاندازی و خدمات آن.
او در حال حاضر همچنين عضو هيات علمي فرهنگستان زبان و ادب فارسي، مدير گروه زبانشناسي پژوهشگاه علوم انساني و مطالعات فرهنگي و رييس انجمن زبانشناسي ايران است.
از وي مقالات و پژوهشهاي فارسي و انگليسي بسياري در مجلات و سمينارهاي داخلي و بينالمللي ارائه شده است. عاصي کتابهايي در حوزه کامپيوتر، زبانشناسي و فرهنگنگاري در کارنامه خود دارد که از آن جملهاند: «پيشنهاد شما چسيت؟»، «سيستم رايانهاي و برنامههاي واژهنامههاي بسامدي»، «سيستم رايانهاي و برنامه واژهنامههاي چندزباني و ريشهشناسي»،«استاندارد کد تبادل اطلاعات 8 بيتي فارسي»، «استاندارد صفحه کليد فارسي کامپيوتر»،«استاندارد نحوه ارائه کد زبانها» ( تاليف گروهي)، «واژگان گزيده زبانشناسي » و «فرهنگ زبانشناسي» با همکاري محمد عبدعلي، «مجموعه مقالات نخستين همايش انجمن زبانشناسي ايران » و فرهنگ يک جلدي، دوجلدي و چهارجلدي فارسي – انگيسي آريانپور (با همکاري دکتر آريانپور).
با او در مورد پايگاه دادگان زبان فارسي به گفتوگو نشستهايم:
پايگاه دادگان زبان فارسي چيست؟
مجموعهای نرمافزاری برای ذخیره، پردازش و ارائه دادههای زبانی فارسی است. این پایگاه دربرگیرنده پيکرههاي گوناگونی از زبان فارسي است که با وجود حجمی عظيم و با گستردگي و گوناگونيهاي بسيار، داراي ساختاري بسامان و منطقي است و امکان هرگونه جستجو و دستيابي سريع به آگاهيهاي مورد نياز را در هر زمان فراهم آورده است. پيکرههاي این پایگاه ميتوانند همواره روزآيند شود و پاسخگوي نياز همه پژوهندگان زبان فارسي در همه زمينههاي نظري و کاربردي باشند.
هدف از ايجاد اين پايگاه چه بوده؟
امروزه ديگر کسي درباره لزوم بنياد نهادن بررسیهای زبانشناختي بر دادههاي واقعي و مستند ترديدي ندارد. برای هر نوع پژوهش، به پيکره زباني ويژهاي که در بردارنده نمونههاي مناسب و کافي باشد نياز است و هر چه گستردهتر و متنوعتر باشد، معتبرتر وسودمندتر است. اما گستردگي و تنوع پيکره در شکلهاي سنتي دارای محدوديتهاي بسیاری است.
هنگامي که حجم پيکره از مرزي ميگذرد، سازماندهي و بهرهگيري از آن مشکل و سپس ناممکن ميشود. گوناگوني دادهها گرچه در بيشتر بررسيها اهميت بسيار و نقش تعيينکنندهاي دارد؛ اما باز هم مشکل را پيچيدهتر ميکند.
از سوي ديگر بسياري از فعاليتهاي علمي درحوزه زبان، ادبيات و زبانشناسي به دادههاي مشابهي نياز دارند که هر يک براي خود به گوشهاي از گستره زبان ميپردازد. چه بسا پيکرهاي مشابه يا داراي همپوشي بسیار که بدون آگاهي از وجود ديگري و با صرف وقت و هزينه زياد به وجود آمده است و پس از بهرهبرداري به کناري نهاده شده است.
ايراد ديگري که اغلب بر اين دادههاي پراکنده وارد است، داشتن ناراستيهاي فراوان به دليل يکبار مصرف بودن آنها است؛ چرا که کمتر فرصتي براي آزمودن، ويراستن و پيراستن آنها فراهم ميشود. بالاخره با توجه به ماهيت ايستاي اينگونه پيکرهها حتي اگر بخواهيم از آنها در طرحهاي ديگري بهره بگيريم، پس از گذشت مدتي کهنه و شايد بياعتبار به شمار آيند.
هدف از ايجاد پايگاه دادههاي زبان فارسي(دادگان زبان فارسي)، فراهم کردن مجموعهاي از پيکرههاي مطلوب، مناسب و دور از نارساييهاي ياد شده است.
اين طرح چگونه آغاز شد؟
از اوايل سال 1372 کار ايجاد پايگاه دادههايي براي زبان فارسي با طراحي و سرپرستي من در پژوهشگاه علوم انساني آغاز شد و تا سال 1378 دو مرحله آن به اجرا درآمد و مرحله سوم که مهمترين فاز يعني گسترش و افزايش حجم دادهها و دگرگوني اساسي در نرمافزار و ايجاد امکانات نوين شبکهاي براي ارائه خدمات و اطلاعات آن در شبکه جهاني اينترنت بود، به دليل نبود منابع مالي چند سالي از اجرا باز ماند؛ تا اينکه با کمک مالي وزارت ارتباطات و فناوري اطلاعات از سال 1381 اجراي فاز سوم اين طرح آغاز گرديد و دو سال بعد به پايان رسيد.
ويژگيهاي پايگاه دادگان زبان فارسي چيست؟
پايگاه دادگان زبان فارسي فراگير و متنوع است. در واقع فراتر از يک يا چند پيکره خاص است و کاربران بر پايه نياز و هدف پژوهشي خود ميتوانند پيکره مناسب را از آن برگزينند. حتي پژوهندگان ميتوانند پيکرههاي اختصاصي خود را وارد پايگاه کنند و تحليلها و فهرستگيريهاي مورد نظر خود را انجام دهند.
پايگاه دادگان زبان فارسي تنها مجموعهاي از مواد خام زباني نيست بلکه داراي متنهاي نشانهگذاري شده از جمله شناسنامه متن، برچسبهاي دستوري، آوايي، ريشهاي و معنايي است که همواره افزايش مييابد. اين دادگان مجهز به نرمافزارهاي اختصاصي جستجو، تقطيع و تحليل متن است که ميتواند انواع فهرستهاي واژگاني، بسامدي و آماري را ارائه کند.
آيا هدف شما در نهايت استخراج واژهها از تمامي متون به زبان فارسي است؟ آيا واقعا اين كار امكانپذير است؟
زبان فارسي مفهومي بسيار وسيع دارد و ميتواند دربرگيرنده همه گونههاي گفتاري، نوشتاري، سبکي و کاربردي اين زبان در همه دورانهاي تحول آن باشد. براي نزديک شدن به اين درياي دادهها لازم است آن را به محدودههايي بخش کنيم و در مراحل منظم و به تدريج آنها را پوشش دهيم. در نخستين مرحله با توجه به نيازهاي گوناگون پژوهشي و کاربردي، از طيف دورانهاي تاريخيِ زبان فارسي، برش فارسي معاصر برگزيده شد.
همين برش هم که به طور قراردادي از آغاز قرن چهاردهم خورشيدي تا امروز را در بر ميگيرد، خود داراي گونههاي بسياري است از جمله رسمي نوشتاري ،يا فارسي معيار و گونه گفتاري آن، گونههاي ادبي، سبکي و حرفهاي فارسي، گونههاي محاورهاي و عاميانه آن و گونههايي که متغيرهاي زباني و اجتماعي ديگري مانند سن، جنس، سواد و تحصيل، طبقه اجتماعي و محيطهاي مختلف ارتباطي، عامل تمايز آنها به شمار ميروند.
دادهها از چه منابعي استخراج شدند؟
از گونههاي نوشتاری با استفاده از متنهاي معتبر و با رعايت معيارهاي مختلف نمونهگيري شده و البته هيچگونه محدوديت و امساکي در مورد آثار مهم ادبي و نويسندگان سرشناس و بويژه صاحب سبک و تاثيرگذار اعمال نميشود.
فهرستهاي مفصلي از همه منابع مهم نظم و نثر فارسي معاصر فراهم شد. اين فهرستها به طور جداگانه براي آثار شعري، داستاني، غيرداستاني، نمايشنامه و فيلمنامه، ادبيات کودکان، نشريههاي ادوراي و مجلات علمي، تخصصي و ادبي فراهم گرديد. شمار آثاري که دراين فهرستها قرار گرفتند، بيش از يک هزار و پانصد عنوان شد که پس از بررسي و کنار گذاشتن موارد مشابه، بيش از پانصد عنوان براي درونداد پايگاه دادهها برگزيده شد. ميتوان ادعا کرد که نمونههاي برگزيده، نمايندهاي واقعي از زبان فارسي معاصر به شمار میرود.
حدود 450 اثر داستاني و غير داستاني نثر، 250 اثر شعري از شاعران معاصر، بیش از 80 عنوان مجله و نشريه علمي ادبي و تخصصی، نزدیک به 300 عنوان نمايشنامه و فيلمنامه، و 200 عنوان ادبيات کودک ، چندين عنوان روزنامه و نشريه خبري، برخي از کتابهاي درسي دانشگاهي و دبيرستاني، برخي از کتابهاي دبستاني، نامههاي اداري و بخشنامهها ، مجموعة کامل قوانين و مقررات، نشريهها و جزوههای پراکنده، پوسترها، ديوارنوشتهها و مانند اینها ازجمله اين متون هستند.
مراحل آمادهسازي آن چيست؟ به چه صورت اين واژهها گردآوري ميشوند؟
درابتدا فهرستي با بيش از 500 اثر از ميان آثار اشاره شده، براي تايپ برگزيده شد. تاکنون بيش از 300 متن و رويهم بيش از 24000 صفحه که به بيش از پنج ميليون واژه ميرسد، تايپ شده است. متنهاي ديگري شامل کتاب و مقالههاي تخصصي با نزديک به ده ميليون واژه گردآوري شده که بخشي از آنها وارد پايگاه شده و بقيه در دست تبديل، ويرايش و درونداد است.
همچنین، بيش از 60 ساعت گفتار پيوسته مربوط به گفتگوهای هدایتشده، محاوره عادي و طبیعی افراد و برنامههاي راديويي و تلويزيوني بر روي نوار و يا به صورت فايلهاي ديجيتالي ضبط شده و سپس این متنهاي گفتاري از نوار بر روي کاغذ پيادهسازي شده و بالاخره در فایلهایی با بيش از دو ميليون واژه تايپ شده است. بخشهاي مشخصي از متنهاي نوشتاري و گفتاري (تاکنون بيش از 3 ميليون واژه) ويرايش شده و بخشهاي برگزيدهای از متون ِويرايش شده، برچسبدهي دستوري، آوایی وریشهای شده و این فرایندی دائمی است و پيوسته ادامه دارد.
مجموع متنهاي گردآوري شده نزديک به صد ميليون واژه ميشود که تاکنون 60 ميليون واژه آن به پايگاه وارد شده است.
مجموعه اين دادهها به گونهاي سازماندهي شده که هر واژه با پيوندهاي گوناگون به متن اصلي و به همه مشخصات شناسنامهاي متن ارتباط مييابد مانند نام نويسنده، نام اثر، ناشر و سال و مکان انتشار، شماره سطر و صفحه و همچنين دستهبنديهاي گوناگون مربوط به نوع، سبک، موضوع و رشته اثر. پيوندهايي نيز ميان واژه و ریشه آن، همایندهایش، مقوله دستوري و تلفظ آن وجود دارد که امکان هرگونه جستجوی بسامدی، آماری، درونمتنی یا بافتی واژه را فراهم ميسازد.
نحوه استفاده از اين پايگاه چگونه است؟
در مرورگر اینترنت از طريق وارد شدن به وبگاه پژوهشگاه و پیوند پایگاه دادههای زبان فارسی و يا مستقیما با وارد کردن نشانی http://pldb.ihcs.ac.ir. در حالت عادي کاربران اينترنتي به عنوان مهمان ميتوانند نمونه کوچکي از امکانات را بر صفحه نمايشگر مشاهده کنند؛ اما کساني که ثبتنام ميکنند، به عنوان عضو، به امکانات بيشتري دسترسي پيدا خواهند کرد.
کاربران ميتوانند بر پايه هر يک از اقلام اطلاعاتي يا ويژگيهاي مربوط به آنها، جستجوهاي تک موردي، گروهي يا کلي انجام دهند. از جمله جستجوي واژگاني(بر پايه يک يا چند کليد واژه )، جستجوي تلفظي ( بر پايه صورت تلفظي يک واژه )، جستجوي هم بافت( بر پايه واژههاي همايند و يا بافتهاي همسايه)، گشت وگذار در متنها و واژهها. اين جستجوها را ميتوان در محدودهاي دلخواه (مثلا دوره زماني يا نويسندهاي مشخص يا حجم معيني از پيكره) انجام داد.
اين پايگاه بیشتر مورد استفاده چه كساني قرار ميگيرد؟
همه پژوهشگرانی که درباره زبان فارسی تحقیق میکنند، چه در ایران و چه در کشورهای دیگر جهان ازاین پایگاه دادهها استفاده میکنند. تاکنون بیش از 50 کشور به پایگاه مراجعه کردهاند و بسیاری از پژوهندگان برای دریافت اطلاعات درخواست عضویت کردهاند.
زبانآموزان و معلمان زبان فارسی، مترجمان، دانشجویان و استادان زبانشناسی، فرهنگنگاران و دستورنویسان ازجمله کاربران اصلی این دادگان هستند.
امروزه، نویسندگان و منتقدان ادبی نیز در آفرینش و نقد آثار ادبی به فهرستهای بسامدی، آماری و واژگانی زبان همچون ابزاری کارآ و دقیق مینگرند.
نظر شما