پیشرفتهای بینظیر مایکروسافت در سیستم تبدیل گفتار به نوشتار
رسانه کلیک - بنابر گزارشهای مایکروسافت، سیستم گفتار به نوشتار این شرکت با ۵٫۱ درصد خطا، برابر با درصد خطای انسانی است.

سال گذشته درصد خطای این سیستم ماشینی، ۵٫۹ بود که در مقایسه با بازنویسی دستی، همچنان بالا بود. در بازنویسی دستی، افراد میتوانند یک متن را چند بار گوش دهند و سپس متنهای شنیده شده را بازنویسی کنند.
در آزمونی که مایکروسافت انجام داد، ۲۴۰۰ تماس تلفنی با لهجه آمریکایی و غیر آمریکایی ضبط شد. پس از آن، سیستم ماشینی این شرکت، شروع به تبدیل مکالمات به متون نوشتاری کرد.
برخلاف سال گذشته که آزمون مایکروسافت در حیطه مکالمات خانوادگی انجام گرفته بود، امسال، در حیطههای مختلفی مانند سیاست، ورزش و سایر موضوعات دیگر و با لحنی رسمی انجام گرفت. جالب است بدانید، درصد خطا در حیطه موضوعات خانوادگی چه برای انسان و چه برای سیستمهای ماشینی، بسیار زیاد است.
به گفته یکی از مهندسان فنی این طرح: «ما از مدل CNN-BLSTM که مبتنی بر شبکه عصبی پیچیده به همراه حافظه کوتاه و بلندمدت است، استفاده کردیم تا مدل صوتی خود را ارتقا دهیم. علاوه بر این، مدل شناسایی زبان گسترش پیدا کرد تا این ماشین، لغتهای مکالمه را پیشبینی کند و از این طریق، بتواند گفتار را با موضوع مطرح در مکالمه، انطباق دهد».
بهرغم پیشرفتی که مایکروسافت در سیستم گفتار به نوشتار خود پیدا کرده، این سیستم هنوز نمیتواند تمامی مکالمات مردم را با لهجهها و سبکهای مختلف گفتمان، تشخیص دهد و حتی در محیطهای پر سروصدا نیز کار نمیکند.
اگرچه مایکروسافت تا حدودی در تبدیل گفتار به نوشتار موفق بوده اما همچنان راهی طولانی در پیش دارد تا بتواند سیستمی طراحی کند که تمام متون گفتاری را بفهمد و به نوشتار تبدیل کند.