یکشنبه ۸ بهمن ۱۴۰۲ - ۱۰:۴۱
محصول «راوی» هوش مصنوعی را وارد کتابخوانی می‌کند

محصول «راوی» از فیدیبو یک گام از کتاب صوتی هم فراتر رفته و قرار است با کمک هوش مصنوعی تمام کتاب‌ها را برای ما بخواند.

به گزارش خبرگزاری کتاب ایران (ایبنا)، مهرزاد کریمی، مدیر پروژه راوی، درباره دلیل شکل‌گیری این محصول و ریسک قیاس ناخودآگاه کیفیت آن با کتاب صوتی در ذهن مخاطب عنوان کرد: «در ابتدا باید به این نکته مهم اشاره کنم که راوی بخشی از یک سیستم بزرگ‌تر تولید کتاب صوتی است. از ابتدای مسیر، ما صرفاً به‌دنبال توسعه یک سیستم متن به صوت نبودیم و با توجه به گره‌خوردن تکنولوژی به زندگی اقشار مختلف جامعه و استقبال آشکار و چشم‌گیر از محتوای صوتی در حوزه کتاب، تصمیم به توسعه این ویژگی گرفتیم. ریسک آشکار مسئله هم مقایسه ناخودآگاه آن با گویندگان صوتی حرفه‌ای بود.»

کریمی در پاسخ به این سؤال که راوی دقیقاً چیست و قرار است چه‌کار کند؟ اظهار کرد: «راوی یکی از اجزای سیستم بزرگ‌تر تولید محتوای صوتی است که با استفاده از هوش مصنوعی توسعه داده شده. وظیفه یا هدف اصلی این زیرسیستم، تبدیل محتوای متنی به صوتی است که کنترل‌پذیری و توانایی تغییر ویژگی‌های صوت تولیدی از هدف‌های مهم و فرعی آن به شمار می‌رود. به‌طور کلی و کمی فنی‌تر، راوی را می‌توانیم در دسته مدل‌های مولد یا Generative در ادبیات هوش مصنوعی قرار دیم.»

به باور او، راوی به کاربران اجازه خواهد داد که در کمترین زمان ممکن، از محتوای صوتی به‌جای متنی استفاده کنند. کریمی از امکان تعامل با این سیستم خبر داد؛ آن‌هم به‌نحوی که امکان پیداکردن لحن موردعلاقه افراد وجود داشته باشد. او دراین‌باره گفت: «با اضافه‌شدن ویژگی‌ها در طول زمان، کاربران بستر تعامل با سیستم را پیدا خواهند کرد؛ به‌صورتی‌که می‌توانند محتوای صوتی موردنظر را با ویژگی‌های موردنظرشان گوش کنند (برای مثال، با صدای گوینده یا لحن موردعلاقه خودشان) که این بستر تعاملی مهم‌ترین تفاوت با کتاب صوتی تولیدشده توسط گوینده انسان است.»

لایه اول جامعه هدف راوی: افراد نابینا و کم‌بینا

سال‌هاست که فراهم‌کردن دسترسی عادی به محتویات فرهنگی و درسی برای افراد نابینا و کم‌بینا به دغدغه‌ای برای جامعه تبدیل شده است. کریمی دراین‌باره خاطر نشان کرد: «کاربران نابینا یا کم‌بینا، در لایه اول، مهم‌ترین کاربران این ویژگی شناخته می‌شوند و مسلماً توسعه یک‌سری ویژگی‌ها مانند توانایی جابه‌جایی بین متن و صوت و… برای این دسته از کاربران با وسواس بیشتری پیگیری خواهد شد.»

او در ادامه افزود: «درحال‌حاضر تمامی علاقه‌مندان به محتوای کتاب صوتی یا audiobook ها می‌توانند از این ویژگی بهره‌مند شوند. البته با پیشرفت این سیستم در طول زمان و اضافه‌شدن ویژگی‌های متنوع‌تر، طیف وسیع‌تری از مخاطبین جذب خواهند شد.»

راوی، محصولی درحال توسعه کمی و کیفی

مدیر پروژه راوی درباره تصمیم‌های گوناگون برای نحوه رونمایی این محصول توضیحاتی داد: «برای رونمایی از راوی دو نوع رویکرد وجود داشت. رویکرد اول چیزی شبیه به مترجم گوگل بود؛ اینکه این ابزار را برای محتوایی سبک‌تر و محدودتر و با تعداد محدودی کاراکتر متنی برای کاربران فعال کنیم و در طول زمان با یادگیری بیشتر و جمع‌آوری بازخوردها، آن را به محتواهای بزرگ‌تر و پیشرفته‌تر مثل متن کتاب گره بزنیم.»

او معتقد است که رویکرد اول ریسک کمتری داشت و با این روش، زمان بیشتری برای توسعه سیستم مدنظر صرف می‌شد، اما تصمیم‌گیرندگان پروژه راوی رویکرد دوم را انتخاب کردند: «رویکرد دوم چیزی شبیه به ChatGPT بود؛ رویکردی تهاجمی یا eager که براساس آن، نسخه یک محصول را به‌طور کامل در اختیار کاربر قرار می‌هیم. این رویکرد ریسک بیشتری دارد و باعث می‌شود که کاربران با تمامی نقاط ضعف و قوت ورژن کنونی آشنا شوند.»

او افزود: «ما با ۱۵۹ کتاب که نسخه صوتی آن وجود نداشت، شروع کردیم و تمام محتوای آن را در اختیار کاربر قرار دادیم تا با تمامی ویژگی‌های این ورژن در مقیاس بزرگ و تنوع بالا آشنا شود.»

مدیر پروژه راوی از افزایش کمی و کیفی این محصول در طول زمان خبر داد و گفت: «با توجه به اینکه تجربه چنین ویژگی در حوزه کتاب و در داخل وجود نداشت و نمونه‌های خارجی نیز با احتیاط زیادی در حوزه کتاب وارد شده‌اند، تصمیم گرفتیم ویژگی‌ها را پس از جمع‌آوری بازخورد کاربران به‌صورت دوره‌ای اضافه کنیم و تعداد کتاب‌ها را همراه با بهبود کیفیت و اعمال بازخورد کاربران افزایش دهیم.»

او باور دارد که حجم کار در این مقیاس و این تنوع از نظر فنی یک چالش بزرگ و فرایندی زمان‌بر است که این موضوع هم به‌مرور بهبود خواهد یافت.

هدف ما تولید کتاب صوتی با امکان دخالت سلیقه کاربر است

به باور کریمی، از ابتدا هدف‌گذاری آن‌ها بلندپروازانه و ایده‌آل‌گرایانه بوده است. او درباره چشم‌انداز آینده این محصول عنوان کرد: «هدف اصلی ما تولید کتاب صوتی همراه با دخالت‌دادن سلیقه کاربر در این فرایند است. تنوع زبان، لحن، گوینده، موسیقی زمینه، اعمال بازخورد هم‌زمان کاربر و… همه و همه ازجمله ویژگی‌هایی است که به آن فکر کرده و در سیستم درنظر گرفته‌ایم که در نسخه‌های آتی اضافه خواهند شد.»

او در ادامه افزود: «بحث و دغدغه اصلی ما افزایش کیفیت تلفظ‌ها و گسترش دایره لغات سیستم بوده و خواهد بود که اصلی‌ترین چالش در تولید محتوا در این مقیاس و با این تنوع است. ویژگی‌هایی که به آن اشاره شد، طراحی شده‌اند و به‌مرور در اختیار کاربران قرار خواهند گرفت؛ از این بابت اطمینان کامل داشته باشید.»

درنهایت مدیر پروژه راوی در پاسخ به این سؤال که آیا در ادامه به این محصول کاربردهای دیگر مانند امکان خلاصه‌سازی و ترجمه هم اضافه می‌شود یا خیر، گفت: «قطعاً با کمک مخاطبان بی‌نظیر فیدیبو، پیشرفت‌های حال‌حاضر تکنولوژی و شور و علاقه ما برای گسترش و پیشرفت فرهنگ کتابخوانی، همه این‌ها ممکن خواهد بود. فکر می‌کنم مهم‌ترین فاکتور، ارائه نظرات، پیشنهادها و انتقادات به هر صورتی و در هر مقیاسی از سوی همه مخاطبان است.»

برچسب‌ها

نظر شما

شما در حال پاسخ به نظر «» هستید.

برگزیده

پربازدیدترین

تازه‌ها