۰۵ شهریور ۱۳۹۶ ۰۶:۰۰

پیشرفت‌های بی‌نظیر مایکروسافت در سیستم تبدیل گفتار به نوشتار

رسانه کلیک - بنابر گزارش‌های مایکروسافت، سیستم گفتار به نوشتار این شرکت با ۵٫۱ درصد خطا، برابر با درصد خطای انسانی است.

مونا ولی

سال گذشته درصد خطای این سیستم ماشینی، ۵٫۹ بود که در مقایسه با بازنویسی دستی، همچنان بالا بود. در بازنویسی دستی، افراد می‌توانند یک متن را چند بار گوش دهند و سپس متن‌های شنیده شده را بازنویسی کنند.

در آزمونی که مایکروسافت انجام داد، ۲۴۰۰ تماس تلفنی با لهجه آمریکایی و غیر آمریکایی ضبط شد. پس از آن، سیستم ماشینی این شرکت، شروع به تبدیل مکالمات به متون نوشتاری کرد.

برخلاف سال گذشته که آزمون مایکروسافت در حیطه مکالمات خانوادگی انجام گرفته بود، امسال، در حیطه‌های مختلفی مانند سیاست، ورزش و سایر موضوعات دیگر و با لحنی رسمی انجام گرفت. جالب است بدانید، درصد خطا در حیطه موضوعات خانوادگی چه برای انسان و چه برای سیستم‌های ماشینی، بسیار زیاد است.

به گفته یکی از مهندسان فنی این طرح: «ما از مدل CNN-BLSTM که مبتنی بر شبکه عصبی پیچیده به همراه حافظه کوتاه و بلندمدت است، استفاده کردیم تا مدل صوتی خود را ارتقا دهیم. علاوه بر این، مدل شناسایی زبان گسترش پیدا کرد تا این ماشین، لغت‌های مکالمه را پیش‌بینی کند و از این طریق، بتواند گفتار را با موضوع مطرح در مکالمه، انطباق دهد».

به‌رغم پیشرفتی که مایکروسافت در سیستم گفتار به نوشتار خود پیدا کرده، این سیستم هنوز نمی‌تواند تمامی مکالمات مردم را با لهجه‌ها و سبک‌های مختلف گفتمان، تشخیص دهد و حتی در محیط‌های پر سروصدا نیز کار نمی‌کند.

اگرچه مایکروسافت تا حدودی در تبدیل گفتار به نوشتار موفق بوده اما همچنان راهی طولانی در پیش دارد تا بتواند سیستمی طراحی کند که تمام متون گفتاری را بفهمد و به نوشتار تبدیل کند.

ارسال به دیگران

۰۵ شهریور ۱۳۹۶ ۰۶:۰۰