دوشنبه ۴ آبان ۱۳۸۸ - ۱۲:۲۶
پایگاه دادگان زبان فارسي، منبعی بزرگ برای همه

همه پژوهشگرانی که درباره زبان فارسی تحقیق می‌کنند، چه در ایران و چه در کشورهای دیگر جهان از «پایگاه دادگان زبان فارسي» استفاده می‌کنند. زبان‌آموزان و معلمان زبان فارسی، مترجمان، دانشجویان، استادان زبان‌شناسی، فرهنگ‌نگاران و دستورنویسان ازجمله کاربران اصلی این دادگان هستند. ایبنا گفت‌وگویی دارد با دکتر عاصی، مسوول این پایگاه؛ درباره اهداف راه‌اندازی و خدمات آن.

خبرگزاري کتاب ايران (ايبنا) - سيد مصطفي عاصي، ‌مدير و مجري پايگاه دادگان زبان فارسي، ليسانس زبان و ادبيات انگليسي و ‌کارشناسي ارشد زبانشناسي همگاني از دانشگاه تهران و دکتراي زبانشناسي با گرايش کامپيوتر و فرهنگ‌نگاري از دانشگاه اکستر انگليس است.

او در حال حاضر همچنين عضو هيات علمي فرهنگستان زبان و ادب فارسي، مدير گروه زبانشناسي پژوهشگاه علوم انساني و مطالعات فرهنگي و رييس انجمن زبانشناسي ايران است.

از وي مقالات و پژوهش‌هاي فارسي و انگليسي بسياري در مجلات و سمينارهاي داخلي و بين‌المللي ارائه شده است. عاصي کتابهايي در حوزه کامپيوتر، زبانشناسي و فرهنگ‌نگاري در کارنامه خود دارد که از آن جمله‌اند: «پيشنهاد شما چسيت؟»، «سيستم رايانه‌اي و برنامه‌هاي واژه‌نامه‌هاي بسامدي»،‌ «سيستم رايانه‌اي و برنامه واژه‌نامه‌هاي چندزباني و ريشه‌شناسي»،«‌استاندارد کد تبادل اطلاعات 8 بيتي فارسي»، «‌استاندارد صفحه کليد فارسي کامپيوتر»،‌«استاندارد نحوه ارائه کد زبان‌ها» ( تاليف گروهي)،‌ «واژگان گزيده زبانشناسي » و «فرهنگ زبانشناسي» با همکاري محمد عبدعلي،‌ «مجموعه مقالات نخستين همايش انجمن زبانشناسي ايران » و فرهنگ يک جلدي، دو‌جلدي و چهارجلدي فارسي – انگيسي آريانپور (با همکاري دکتر آريانپور).

با او در مورد پايگاه دادگان زبان فارسي به گفت‌وگو نشسته‌ايم:

پايگاه دادگان زبان فارسي چيست؟
مجموعه‌ای نرم‌افزاری برای ذخیره، پردازش و ارائه داده‌های زبانی فارسی است. این پایگاه دربرگیرنده پيکره‌هاي گوناگونی از زبان فارسي است که با وجود حجمی عظيم و با گستردگي و گوناگوني‌هاي بسيار، داراي ساختاري بسامان و منطقي است و امکان هرگونه جستجو و دستيابي سريع به آگاهي‌هاي مورد نياز را در هر زمان فراهم آورده است. پيکره‌هاي این پایگاه مي‌توانند همواره روزآيند شود و پاسخگوي نياز همه پژوهندگان زبان فارسي در همه زمينه‌هاي نظري و کاربردي باشند.

هدف از ايجاد اين پايگاه چه بوده؟
امروزه ديگر کسي درباره لزوم بنياد نهادن بررسی‌های زبانشناختي بر داده‌هاي واقعي و مستند ترديدي ندارد. برای هر نوع پژوهش، به پيکره زباني ويژه‌اي که در بردارنده نمونه‌هاي مناسب و کافي باشد نياز است و هر چه گسترده‌تر و متنوع‌تر باشد، معتبرتر وسودمندتر است. اما گستردگي و تنوع پيکره در شکل‌هاي سنتي دارای محدوديت‌هاي بسیاری است.

هنگامي که حجم پيکره از مرزي مي‌گذرد، سازماندهي و بهره‌گيري از آن مشکل و سپس ناممکن مي‌شود. گوناگوني داده‌ها گرچه در بيشتر بررسي‌ها اهميت بسيار و نقش تعيين‌کننده‌اي دارد؛ اما باز هم مشکل را پيچيده‌تر مي‌کند.

از سوي ديگر بسياري از فعاليت‌هاي علمي درحوزه زبان، ادبيات و زبانشناسي به داده‌هاي مشابهي نياز دارند که هر يک براي خود به گوشه‌اي از گستره زبان مي‌پردازد. چه بسا پيکره‌اي مشابه يا داراي همپوشي بسیار که بدون آگاهي از وجود ديگري و با صرف وقت و هزينه زياد به وجود آمده است و پس از بهره‌برداري به کناري نهاده شده است.

ايراد ديگري که اغلب بر اين داده‌هاي پراکنده وارد است، داشتن ناراستي‌هاي فراوان به دليل يکبار مصرف بودن آنها است؛ چرا که کمتر فرصتي براي آزمودن، ويراستن و پيراستن آنها فراهم مي‌شود. بالاخره با توجه به ماهيت ايستاي اينگونه پيکره‌ها حتي اگر بخواهيم از آنها در طرح‌هاي ديگري بهره بگيريم، پس از گذشت مدتي کهنه و شايد بي‌اعتبار به شمار آيند.

هدف از ايجاد پايگاه داده‌هاي زبان فارسي(دادگان زبان فارسي)، فراهم کردن مجموعه‌اي از پيکره‌هاي مطلوب، مناسب و دور از نارسايي‌هاي ياد شده است.

اين طرح چگونه آغاز شد؟
از اوايل سال 1372 کار ايجاد پايگاه داده‌هايي براي زبان فارسي با طراحي و سرپرستي من در پژوهشگاه علوم انساني آغاز شد و تا سال 1378 دو مرحله آن به اجرا درآمد و مرحله سوم که مهمترين فاز يعني گسترش و افزايش حجم داده‌ها و دگرگوني اساسي در نرم‌افزار و ايجاد امکانات نوين شبکه‌اي براي ارائه خدمات و اطلاعات آن در شبکه جهاني اينترنت بود، به دليل نبود منابع مالي چند سالي از اجرا باز ماند؛ تا اينکه با کمک مالي وزارت ارتباطات و فناوري اطلاعات از سال 1381 اجراي فاز سوم اين طرح آغاز گرديد و دو سال بعد به پايان رسيد.

ويژگي‌هاي پايگاه دادگان زبان فارسي چيست؟
پايگاه دادگان زبان فارسي فراگير و متنوع است. در واقع فراتر از يک يا چند پيکره خاص است و کاربران بر پايه نياز و هدف پژوهشي خود مي‌توانند پيکره مناسب را از آن برگزينند. حتي پژوهندگان مي‌توانند پيکره‌هاي اختصاصي خود را وارد پايگاه کنند و تحليل‌ها و فهرست‌گيري‌هاي مورد نظر خود را انجام دهند.

پايگاه دادگان زبان فارسي تنها مجموعه‌اي از مواد خام زباني نيست بلکه داراي متن‌هاي نشانه‌گذاري شده از جمله شناسنامه متن،‌ برچسب‌هاي دستوري، ‌آوايي، ‌ريشه‌اي و معنايي است که همواره افزايش مي‌يابد. اين دادگان مجهز به نرم‌افزارهاي اختصاصي جستجو، تقطيع و تحليل متن است که مي‌تواند انواع فهرست‌هاي واژگاني، ‌بسامدي و آماري را ارائه کند.

آيا هدف شما در نهايت استخراج واژه‌ها از تمامي متون به زبان فارسي است؟ آيا واقعا اين كار امكان‌پذير است؟
زبان فارسي مفهومي بسيار وسيع دارد و مي‌تواند دربرگيرنده همه گونه‌هاي گفتاري، ‌نوشتاري، سبکي و کاربردي اين زبان در همه دوران‌هاي تحول آن باشد. براي نزديک شدن به اين درياي داده‌ها لازم است آن را به محدوده‌هايي بخش کنيم و در مراحل منظم و به تدريج آنها را پوشش دهيم. در نخستين مرحله با توجه به نيازهاي گوناگون پژوهشي و کاربردي، ‌از طيف دوران‌هاي تاريخيِ زبان فارسي، ‌برش فارسي معاصر برگزيده شد.

همين برش هم که به طور قراردادي از آغاز قرن چهاردهم خورشيدي تا امروز را در بر مي‌گيرد، خود داراي گونه‌هاي بسياري است از جمله رسمي نوشتاري ،‌يا ‌فارسي معيار و گونه گفتاري آن، ‌گونه‌هاي ادبي، ‌سبکي و حرفه‌اي فارسي، ‌گونه‌هاي محاوره‌اي و عاميانه آن و گونه‌هايي که متغيرهاي زباني و اجتماعي ديگري مانند سن، جنس، سواد و تحصيل، ‌طبقه اجتماعي و محيط‌هاي مختلف ارتباطي، عامل تمايز آنها به شمار مي‌روند.

داده‌ها از چه منابعي استخراج شدند؟
از گونه‌هاي نوشتاری با استفاده از متن‌هاي معتبر و با رعايت معيارهاي مختلف نمونه‌گيري شده و البته هيچگونه محدوديت و امساکي در مورد آثار مهم ادبي و نويسندگان سرشناس و بويژه صاحب سبک و تاثير‌گذار اعمال نمي‌شود.

فهرست‌هاي مفصلي از همه منابع مهم نظم و نثر فارسي معاصر فراهم شد. اين فهرست‌ها به طور جداگانه براي آثار شعري، داستاني، ‌غيرداستاني، نمايشنامه و فيلمنامه، ادبيات کودکان، ‌نشريه‌هاي ادوراي و مجلات علمي، ‌تخصصي و ادبي فراهم گرديد. شمار آثاري که دراين فهرست‌ها قرار گرفتند، بيش از يک هزار و پانصد عنوان شد که پس از بررسي و کنار گذاشتن موارد مشابه، ‌بيش از پانصد عنوان براي درونداد پايگاه داده‌ها برگزيده شد. مي‌توان ادعا کرد که نمونه‌هاي برگزيده، نماينده‌اي واقعي از زبان فارسي معاصر به شمار می‌رود.

حدود 450 اثر داستاني و غير داستاني نثر، ‌250 اثر شعري از شاعران معاصر، بیش از ‌80 عنوان مجله و نشريه علمي ادبي و تخصصی،‌ نزدیک به 300 عنوان نمايشنامه و فيلمنامه،‌ و 200 عنوان ادبيات کودک ، چندين عنوان روزنامه و نشريه خبري، برخي از کتاب‌هاي درسي دانشگاهي و دبيرستاني، ‌برخي از کتاب‌هاي دبستاني، نامه‌هاي اداري و بخشنامه‌ها ، مجموعة کامل قوانين و مقررات، نشريه‌ها و جزوه‌های پراکنده، ‌پوسترها، ديوارنوشته‌ها و مانند اینها ازجمله اين متون هستند.

مراحل آماده‌سازي آن چيست؟ به چه صورت اين واژه‌ها گردآوري مي‌شوند؟
درابتدا فهرستي با بيش از 500 اثر از ميان آثار اشاره شده،‌ براي تايپ برگزيده شد. تاکنون بيش از 300 متن و رويهم بيش از 24000 صفحه که به بيش از پنج ميليون واژه مي‌رسد، تايپ شده است. متن‌هاي ديگري شامل کتاب و مقاله‌ه‌اي تخصصي با نزديک به ده ميليون واژه گردآوري شده که بخشي از آنها وارد پايگاه شده و بقيه در دست تبديل،‌ ويرايش و درونداد است. 

همچنین، بيش از 60 ساعت گفتار پيوسته مربوط به گفتگوهای هدایت‌شده، محاوره عادي و طبیعی افراد و ‌برنامه‌هاي راديويي و تلويزيوني بر روي نوار و يا به صورت فايل‌هاي ديجيتالي ضبط شده و سپس این متن‌هاي گفتاري از نوار بر روي کاغذ پياده‌سازي شده و بالاخره در فایل‌هایی با بيش از دو ميليون واژه تايپ شده است. بخش‌هاي مشخصي از متن‌هاي نوشتاري و گفتاري (تاکنون بيش از 3 ميليون واژه) ويرايش شده و بخش‌هاي برگزيده‌ای از متون ِويرايش شده، برچسب‌دهي دستوري، آوایی وریشه‌ای شده و این فرایندی دائمی است و پيوسته ادامه دارد.

مجموع متن‌هاي گردآوري شده نزديک به صد ميليون واژه مي‌شود که تاکنون 60 ميليون واژه آن به پايگاه وارد شده است.

مجموعه اين داده‌ها به گونه‌اي سازماندهي شده که هر واژه با پيوندهاي گوناگون به متن اصلي و به همه مشخصات شناسنامه‌اي متن ارتباط مي‌يابد مانند نام نويسنده، نام اثر، ‌ناشر و سال و مکان انتشار، ‌شماره سطر و صفحه و همچنين دسته‌بندي‌هاي گوناگون مربوط به نوع، ‌سبک، موضوع و رشته اثر. پيوندهايي نيز ميان واژه و ریشه آن، همایند‌هایش، مقوله دستوري و تلفظ آن وجود دارد که امکان هرگونه جستجوی بسامدی، آماری، درون‌متنی یا بافتی واژه را فراهم مي‌سازد.

نحوه استفاده از اين پايگاه چگونه است؟
در مرورگر اینترنت از طريق وارد شدن به وبگاه پژوهشگاه و پیوند پایگاه داده‌های زبان فارسی و يا مستقیما با وارد کردن نشانی http://pldb.ihcs.ac.ir. در حالت عادي کاربران اينترنتي به عنوان مهمان مي‌توانند نمونه کوچکي از امکانات را بر صفحه نمايشگر مشاهده کنند؛ اما کساني که ثبت‌نام مي‌کنند، به‌ عنوان عضو، به امکانات بيشتري دسترسي پيدا خواهند کرد.

کاربران مي‌توانند بر پايه هر يک از اقلام اطلاعاتي يا ويژگي‌هاي مربوط به آنها، جستجوهاي تک موردي، ‌گروهي يا کلي انجام دهند. از جمله جستجوي واژگاني(بر پايه يک يا چند کليد واژه )،‌ ‌جستجوي تلفظي ( بر پايه صورت تلفظي يک واژه )، ‌جستجوي هم بافت( بر پايه واژه‌هاي همايند و يا بافت‌هاي همسايه)، ‌گشت وگذار در متن‌ها و واژه‌ها. اين جستجوها را مي‌توان در محدوده‌اي دلخواه (مثلا دوره زماني يا نويسنده‌اي مشخص يا حجم معيني از پيكره) انجام داد.

اين پايگاه بیشتر مورد استفاده چه كساني قرار مي‌گيرد؟
همه پژوهشگرانی که درباره زبان فارسی تحقیق می‌کنند، چه در ایران و چه در کشورهای دیگر جهان ازاین پایگاه داده‌ها استفاده می‌کنند. تاکنون بیش از 50 کشور به پایگاه مراجعه کرده‌اند و بسیاری از پژوهندگان برای دریافت اطلاعات درخواست عضویت کرده‌اند.

زبان‌آموزان و معلمان زبان فارسی، مترجمان، دانشجویان و استادان زبانشناسی، فرهنگ‌نگاران و دستورنویسان ازجمله کاربران اصلی این دادگان هستند.

امروزه، نویسندگان و منتقدان ادبی نیز در آفرینش و نقد آثار ادبی به فهرست‌های بسامدی، آماری و واژگانی زبان همچون ابزاری کارآ و دقیق می‌نگرند.

نظر شما

شما در حال پاسخ به نظر «» هستید.

برگزیده

پربازدیدترین

تازه‌ها