سرویسهای تبدیل متن به گفتار توسعه یافتهاند و بسیار هوشمندانه عمل میکنند، اما هنوز یک مشکل وجود دارد. توسعه این سرویسها نیازمند وقت و منابع آموزشی بسیار زیاد برای تولید خروجی بهصورت صدای طبیعی و آموزش در مدت زمان طولانی هستند. مایکروسافت با همکاری پژوهشگران چینی روش موثری برای حل این مشکل ارائه کردند. آنها موفق به ساخت هوش مصنوعی تبدیل متن به گفتاری شدند که میتواند گفتار واقعی را با چیزی نزدیک به ۲۰۰ نمونه صوتی (معادل با مدت زمان ۲۰ دقیقه) تولید کند؛ همچنین میتواند نمونههای صوتی را با متن نوشتهها تطبیق دهد.
این سیستم برمبنای معماری ترنسفورمرها (Transformers) یا شبکههای عصبی عمیق است که تقریبا شباهت زیادی به سیستم نورونها در مغز دارند. ترنسفورمرها مانند لینکهای سیناپسی برای اطلاعات ورودی و خروجی عمل میکنند و به آنها کمک میکنند تا دنبالههای طولانیتر مانند جملاتی را که دارای ساختار پیچیدهای هستند، بهراحتی پردازش کنند. ادغام این سیستم با هوش مصنوعی و بخش کدگذار حذف نویز میتواند با ورودی اندک، خروجی چشمگیری داشته باشد.
نتایج حاصلشده، اگرچه از نظر کیفیت صدا تا حدی شبیه به صدای رباتیکی است، اما میزان دقت و قابلیت تشخیص بسیار بالایی در کلمات دارد که به ۹۹.۸۴ درصد میرسد. مهمتر از همه، این فناوری میتواند باعث سهولت دسترسی سرویسهای تبدیل متن به گفتار شود. از این پس، بهراحتی دسترسی به این فناوری برای تمامی شرکتهای کوچک و حتی علاقهمندان غیرحرفهای بدون صرف زمان و تلاش زیاد امکانپذیر است. پژوهشگران امیدوارند تا بتوانند این فناوری را با دادههای غیرهمسان آموزش دهند تا با تلاش کمتر دستیابی به گفتگویی واقعی امکانپذیر شود.
.: Weblog Themes By Pichak :.