۲۸ خرداد ۱۴۰۱ ۱۳:۵۴

کشیدن نقاشی حرفه ای تنها با نوشتن توضیحات تصویر

ابزارهای هوش مصنوعی (AI) هر روز در حال تکامل هستند و اینبار خبر ترسیم نقاشی های حرفه ای به واسطه فرامین صوتی در دنیای فناوری سر و صدا کرده است.

پس از انتشار ویدئویی از یک نقاشی تعاملی 3 بعدی ، محققان دانشگاه واترلو و موسسه کورانت دانشگاه نیویورک اخیرا ابزار هوش مصنوعی ایجاد کرده اند که می تواند به طور خودکار تصاویر هنری منحصر به فرد را بر اساس توضیحات متن ایجاد کند. روش آنها مبتنی بر یک شبکه تهاجمی حافظه پویا (DM-GAN) است، مدلی مبتنی بر دو شبکه عصبی مصنوعی که با هم کار می کنند تا تصاویر معنی داری تولید کنند.

ایده اصلی پشت کار اخیر تیان و فرانچیتی، ایجاد مدلی بود که بتواند از توضیحات متنی ارائه شده توسط کاربران برای تولید تصاویر هنری مطابق با این توصیفات استفاده کند. این امر به افراد دارای معلولیت که مانع از نقاشی مؤثر آنها می شود و سایر افرادی که در طراحی مهارت چندانی ندارند، اجازه می دهد تا تصاویر هنری زیبایی را تولید کنند که مفاهیم خاصی را به تصویر می کشد.

با این حال، اکثر مجموعه داده‌های موجود برای آموزش مدل‌های مولد، یا حاوی تصاویر یا متون برچسب‌دار هستند، نه تصاویر جفت شده با توضیحات متنی آنها. بنابراین، محققان مجبور شدند راه جایگزینی برای آموزش مدل خود ارائه دهند.

محققان در مقاله خود توضیح دادند: «به دلیل کمبود مجموعه داده‌های همراه با توضیحات متن و تصاویر هنری، آموزش مستقیم الگوریتمی که بتواند بر اساس ورودی متن هنر ایجاد کند، دشوار است. برای رسیدگی به این موضوع، وظایف خود را به سه مرحله تقسیم کردیم.»

اولاً، محققان از مدل DM-GAN خود برای تولید یک تصویر واقع گرایانه که بیانگر یک توصیف متنی است، استفاده کردند. متعاقباً، آنها از ResNet، یک شبکه عصبی مصنوعی با چندین لایه، برای طبقه‌بندی تصویر تولید شده توسط DM-GAN که در یکی از دسته‌های ژانری که توسط مجموعه داده WikiArt مشخص شده، استفاده کردند.

مجموعه داده WikiArt که اغلب برای آموزش روش‌های یادگیری عمیق استفاده می‌شود، شامل بیش از 40000 نقاشی هنری است که توسط 195 هنرمند تولید شده‌اند. پس از طبقه‌بندی تصویر تولید شده توسط DM-GAN به یکی از دسته بندی ها منتقل می شود.

ارسال به دیگران

۲۸ خرداد ۱۴۰۱ ۱۳:۵۴