یکی از مهمترین مولفههای راهکارهای مبتنی بر هوش مصنوعی در مراکز تماس، استفاده از ماژول تبدیل صوت به متن (Speech to Text) به زبان فارسی است. مهمترین ویژگی این ماژول میزان دقت تبدیل گفتار به نوشتار است که با شاخص کلیدی «نرخ خطای کلمه» (Word Error Rate) قابل تشخیص است.
سرویس صوت به متن تلفنی نویکس
نرمالایز کردن جملات قبل از محاسبه WER در تبدیل صوت به متن

نرمالایز کردن جملات قبل از محاسبه WER به بهبود دقت و صحت این شاخص کمک میکند. با اجرای این مراحل، میتوان ارزیابی دقیقتری از عملکرد سیستمهای تشخیص گفتار مبتنی بر هوش مصنوعی، علیالخصوص در کاربردهای مرتبط با مرکز تماس داشت. این فرآیند تضمین میکند که تفاوتهای غیرضروری و غیرمعنادار حذف شده و مقایسه بهتری بین جملات مرجع و شناخته شده انجام میشود.
مراحل نرمالایز کردن جملات در تبدیل صوت به متن

- حذف علائم نگارشی : علائم نگارشی مانند نقطه، ویرگول، علامت سؤال و غیره ممکن است در تشخیص گفتار به درستی تشخیص داده نشوند. حذف این علائم کمک میکند تا مقایسه کلمات به صورت دقیقتری انجام شود.
- تبدیل حروف بزرگ به کوچک : در زبانهایی که دارای حروف بزرگ و کوچک هستند، تبدیل همه حروف به حروف کوچک (یا بزرگ) میتواند تفاوتهای غیرضروری را حذف کند.
- حذف فاصلههای اضافی : فاصلههای اضافی بین کلمات یا در ابتدای و انتهای جمله باید حذف شوند تا مقایسه بهتری انجام شود.
- نرمالایز کردن کلمات (لماتایزیشن): این مرحله شامل تبدیل کلمات به شکل پایه یا ریشه آنهاست. به عنوان مثال، در برخی زبانها ممکن است تغییرات کوچک در انتهای کلمات وجود داشته باشد که مفهوم کلی را تغییر نمیدهد.
همچنین تنظیم موارد زیر به بهبود دقت تبدیل صوت به متن کمک میکند:
- تبدیل متون غیررسمی و محاورهای
- تقسیمکننده متن به جملات و کلمات (Tokenization)
- تجزیهگر به کلمات (Split)
- تشخیص نقش کلمات (POS tagging)
- قطعهبندی (Chunking)
- تجزیهگر وابستگی (Dependency Parser)
درخواست دمو
برای اطلاعات بیشتر در مورد تبدیل صوت به متن، میتوانید به این لینک مراجعه کنید.
پ.ن: برای مطالعه تخصصی کتابخانه های موجود از این لینک استفاده نمایید..