سرعت باورنکردنی نرمافزارهای تبدیل مکالمه به متن
نوشتن با کامپیوتر نسبت به چیزی که در دهه گذشته وجود داشت، بسیار بهتر شده است. با این حال، آیا میتوان به طور دقیق گفت که چه مقدار پیشرفت داشته است؟

به گزارش کلیک، در این چالش که اخیراً به راه افتاده است، این سه گروه آزمایشی را انتخاب کردهاند که در آن انسانها را در مقابل آخرین فناوری موجود در زمینه تبدیل صدا به متن قرار میدهد. این فناوری از هر دو جنبه سرعت و دقت جدیدترین فناوری موجود است. در نتیجه این آزمایش مشخص شد که نرمافزارهای تشخیص مکالمه سه برابر سریعتر از نوشتن هستند.
پروفسور جیمز لندی (James Landay)، استاد دانشگاه استنفورد در مورد این مطالعه بیان داشت که این مطالعه با نام "مکالمه کافیشاپی" بین وی و پروفسور اندرو شروع شد. پروفسور اندرو که اکنون دانشمند ارشد baidu است گفته است که ابزارهای تشخیص مکالمه baidu به سرعت در حال پیشرفت بودند، با این وجود، هیچ آزمون دقیقی وجود نداشت تا بتوانند کیفیت این ابزار را بسنجند.
یکی از محصولات baidu به نام Deep Speech 2، یک نرمافزار تشخیص مکالمه بر مبنای فضای ابری است که بر اساس شبکه عصبی یادگیری عمیق تولید شده است. این نرمافزار یک ابزار ماشینی یادگیری بینظیر است که قادر است با دادههای عظیم آنالیزی از مکالمات واقعی، خودش را آموزش و تعلیم دهد.
لندی ادامه داد: ما در گذشته دادههای مورد نیاز و قابلیت محاسبهای لازم جهت ساخت مدلی که یک کامپیوتر بتواند با استفاده از آن، تفاوت لهجهها و الگوهای گفتاری را تشخیص دهد نداشتیم.
به هر حال، این مکالمه اتفاقی بین اندرو و لندی منجر به شروع یک آزمایش کامل شد که طی آن ۳۲ شرکتکننده به زبانهای چینی و یا انگلیسی صحبت میکردند. تمامی این شرکتکنندگان در نوشتن پیام توانایی بالایی داشتند و هر دو گروه از صفحهکلیدهای استاندارد موجود در آیفون استفاده میکردند.
منظور از این صفحه کلید برای شرکت کنندگان انگلیسی زبان، همان صفحه کلید موسوم به QWERTY است، در حالی که شرکتکنندگانی که به زبان چینی صحبت میکنند از صفحه کلید Pinyin اپل استفاده کرده بودند. در هر دو مورد، تشخیص مکالمه حدود سه برابر سریعتر از تمام کاربرانی بود که تایپ میکردند. نرخ خطا نیز در مورد تشخیص مکالمه انگلیسی حدود ۲۰٫۴ درصد کمتر و در مورد زبان چینی حدود ۶۳٫۴ درصد کمتر بود.
لندی در این باره اضافه کرد: ما انتظار این را داشتیم که مکالمه از نوشتن سریعتر باشد. این واضح است چرا که ما سریعتر از آن که بتوانیم تایپ کنیم، قادر به صحبت کردن هستیم. اما مشکلی که قبلاً وجود داشت، این بود که میزان خطاهای دریافتی در تشخیص مکالمه بسیار زیاد بود و این مشکل باعث افت سرعت میشد. من به این نکته فکر میکردم که مکالمه سریعتر از نوشتن است، اما چیزی که انتظارش را نداشتم این بود که سرعت آن سه برابر نوشتن باشد! گمان من این بود که مکالمه بتواند تا ۵۰ درصد از نوشتن سریعتر باشد که البته از حد تصور من بسیار سریعتر بود.
البته این آزمایش ۱۰۰ درصد گسترده نیست. در حال حاضر، سریعترین صفحهکلید همراه دنیا (دستکم در مورد زبان انگلیسی)، صفحه کلید Flesky است. در سال ۲۰۱۴ در کتاب رکوردهای جهانی گینس، در بخش سریعترین تایپ کردن، یک کاربر توانست یک جمله ۱۲۶ حرفی را تنها در ۱۸٫۴۴ ثانیه تایپ کند.
با این حال، لندی اشاره کرد که در این مطالعه از یک صفحه کلید رایج آیفون استفاده شده است چرا که یک کاربر عادی هم از همین صفحه کلید استفاده میکند. وی در این باره گفت: بیشتر مردم زمانی برای جایگزین کردن صفحه کلید خود صرف نمیکنند.
لندی در پاسخ به این پرسشی که در مورد استفادههای ممکن از این مطالعه مطرح شد، توضیح داد که این مطالعه یک محک مهم در زمینه فناوری تشخیص مکالمه بود. وی در این باره گفت: هنوز جای زیادی برای پیشرفت وجود دارد، هرچند که ما فکر میکنیم که به نوعی نقطه عطف را رد کردهایم. وی ادامه داد: پیشرفتهای بعدی این مطالعه، در زمینه تشخیص نامها، عملکرد بهتر در محیطهای پر سرو صدا و غیره خواهد بود.
وی در پایان اذعان داشت که این مطالعه امکانات دیگری را برای توسعهدهندگان فراهم خواهد کرد تا در مورد تشخیص مکالمه به هم پیوسته به طور جدیتری فکر کنند و این مورد را بدون نگرانی به سامانههای خود اضافه کنند. لندی اضافه کرد: آنچه به طور افزایندهای منطقی به نظر میرسد، وابستگی بیشتر افراد به مکالمه است. برای مثال، روابط چند قیدی که مکالمات را با هدف کمک و هدایت مردم، با سایر عناصر ترکیب میکنند، از همین موارد استفاده است. با این حال، بزرگترین چالش در این راه، این است که بتوانیم معانی واژهها و جملات را درک کنیم که تا آن نقطه راه درازی باقی مانده است.