سرعت باورنکردنی نرم‌افزارهای تبدیل مکالمه به متن

نوشتن با کامپیوتر نسبت به چیزی که در دهه گذشته وجود داشت، بسیار بهتر شده است. با این حال، آیا می‌توان به طور دقیق گفت که چه مقدار پیشرفت داشته است؟ 

سرعت باورنکردنی نرم‌افزارهای تبدیل مکالمه به متن

به گزارش کلیک، در این چالش که اخیراً به راه افتاده است، این سه گروه آزمایشی را انتخاب کرده‌اند که در آن انسان‌ها را در مقابل آخرین فناوری موجود در زمینه تبدیل صدا به متن قرار می‌دهد. این فناوری از هر دو جنبه سرعت و دقت جدیدترین فناوری موجود است. در نتیجه این آزمایش مشخص شد که نرم‌افزارهای تشخیص مکالمه سه برابر سریع‌تر از نوشتن هستند.

پروفسور جیمز لندی (James Landay)، استاد دانشگاه استنفورد در مورد این مطالعه بیان داشت که این مطالعه با نام "مکالمه کافی‌شاپی" بین وی و پروفسور اندرو شروع شد. پروفسور اندرو که اکنون دانشمند ارشد baidu است گفته است که ابزارهای تشخیص مکالمه baidu به سرعت در حال پیشرفت بودند، با این وجود، هیچ آزمون دقیقی وجود نداشت تا بتوانند کیفیت این ابزار را بسنجند.

یکی از محصولات baidu به نام Deep Speech 2، یک نرم‌افزار تشخیص مکالمه بر مبنای فضای ابری است که بر اساس شبکه عصبی یادگیری عمیق تولید شده است. این نرم‌افزار یک ابزار ماشینی یادگیری بی‌نظیر است که قادر است با داده‌های عظیم آنالیزی از مکالمات واقعی، خودش را آموزش و تعلیم دهد.

لندی ادامه داد: ما در گذشته داده‌های مورد نیاز و قابلیت محاسبه‌ای لازم جهت ساخت مدلی که یک کامپیوتر بتواند با استفاده از آن‌، تفاوت لهجه‌ها و الگوهای گفتاری را تشخیص دهد نداشتیم.

به هر حال، این مکالمه اتفاقی بین اندرو و لندی منجر به شروع یک آزمایش کامل شد که طی آن ۳۲ شرکت‌کننده به زبان‌های چینی و یا انگلیسی صحبت می‌کردند. تمامی این شرکت‌کنندگان در نوشتن پیام توانایی بالایی داشتند و هر دو گروه از صفحه‌کلیدهای استاندارد موجود در آیفون استفاده می‌کردند.

منظور از این صفحه کلید برای شرکت کنندگان انگلیسی زبان، همان صفحه کلید موسوم به QWERTY است، در حالی که شرکت‌کنندگانی که به زبان چینی صحبت می‌کنند از صفحه کلید Pinyin اپل استفاده کرده بودند. در هر دو مورد، تشخیص مکالمه حدود سه برابر سریع‌تر از تمام کاربرانی بود که تایپ می‌کردند. نرخ خطا نیز در مورد تشخیص مکالمه انگلیسی حدود ۲۰٫۴ درصد کمتر و در مورد زبان چینی حدود ۶۳٫۴ درصد کمتر بود.

لندی در این باره اضافه کرد: ما انتظار این را داشتیم که مکالمه از نوشتن سریع‌تر باشد. این واضح است چرا که ما سریع‌تر از آن‌ که بتوانیم تایپ کنیم، قادر به صحبت کردن هستیم. اما مشکلی که قبلاً وجود داشت، این بود که میزان خطاهای دریافتی در تشخیص مکالمه بسیار زیاد بود و این مشکل باعث افت سرعت می‌شد. من به این نکته فکر می‌کردم که مکالمه سریع‌تر از نوشتن است، اما چیزی که انتظارش را نداشتم این بود که سرعت آن سه برابر نوشتن باشد! گمان من این بود که مکالمه بتواند تا ۵۰ درصد از نوشتن سریع‌تر باشد که البته از حد تصور من بسیار سریع‌تر بود.

البته این آزمایش ۱۰۰ درصد گسترده نیست. در حال حاضر، سریع‌ترین صفحه‌کلید همراه دنیا (دست‌کم در مورد زبان انگلیسی)، صفحه کلید Flesky است. در سال ۲۰۱۴ در کتاب رکوردهای جهانی گینس، در بخش سریع‌ترین تایپ کردن، یک کاربر توانست یک جمله ۱۲۶ حرفی را تنها در ۱۸٫۴۴ ثانیه تایپ کند.

با این حال، لندی اشاره کرد که در این مطالعه از یک صفحه کلید رایج آیفون استفاده شده است چرا که یک کاربر عادی هم از همین صفحه کلید استفاده می‌کند. وی در این باره گفت: بیشتر مردم زمانی برای جایگزین کردن صفحه کلید خود صرف نمی‌کنند.

لندی در پاسخ به این پرسشی که در مورد استفاده‌های ممکن از این مطالعه مطرح شد، توضیح داد که این مطالعه یک محک مهم در زمینه فناوری تشخیص مکالمه بود. وی در این باره گفت: هنوز جای زیادی برای پیشرفت وجود دارد، هرچند که ما فکر می‌کنیم که به نوعی نقطه عطف را رد کرده‌ایم. وی ادامه داد: پیشرفت‌های بعدی این مطالعه، در زمینه تشخیص نام‌ها، عملکرد بهتر در محیط‌های پر سرو صدا و غیره خواهد بود.

وی در پایان اذعان داشت که این مطالعه امکانات دیگری را برای توسعه‌دهندگان فراهم خواهد کرد تا در مورد تشخیص مکالمه به هم پیوسته به طور جدی‌تری فکر کنند و این مورد را بدون نگرانی به سامانه‌های خود اضافه کنند. لندی اضافه کرد: آنچه به طور افزاینده‌ای منطقی به نظر می‌رسد، وابستگی بیشتر افراد به مکالمه است. برای مثال، روابط چند قیدی که مکالمات را با هدف کمک و هدایت مردم، با سایر عناصر ترکیب می‌کنند، از همین موارد استفاده است. با این حال، بزرگ‌ترین چالش در این راه، این است که بتوانیم معانی واژه‌ها و جملات را درک کنیم که تا آن نقطه راه درازی باقی ‌مانده است.

ارسال نظر