استنساخ الصوت باستخدام الشبكات العصبية العميقة: التقنيات، التقييم، التطبيقات، والاعتبارات الأخلاقية
DOI:
https://doi.org/10.5281/zenodo.20266741الكلمات المفتاحية:
استنساخ الصوت، تحويل النص إلى كلام، توليد الكلام، التكنولوجيا المساعدة، الذكاء الاصطناعي الأخلاقيالملخص
يُعد استنساخ الصوت أحد التطبيقات التحويلية للتقنيات المعتمدة على الشبكات العصبية العميقة، حيث يُمكن من خلاله توليد أصوات اصطناعية تشبه إلى حد كبير الصوت البشري الحقيقي. تقدم هذه الورقة مراجعة شاملة لتقنيات استنساخ الصوت، مع التركيز على تطور أنظمة تحويل النص إلى كلام (TTS) من النماذج التقليدية إلى النماذج الحديثة المعتمدة على التعلم العميق مثل, Tacotron WaveNet ,VALL-E .
نستعرض في هذه الدراسة مكونات أنظمة تحويل النص إلى كلام، بما في ذلك المشفرات الصوتية، والمولدات، والمركبات الصوتية العصبية، مع التمييز بين أنظمة استنساخ الصوت أحادية المتكلم ومتعددة المتكلمين. كما نناقش التطبيقات الواقعية في مجالات الاتصالات والتعليم ودعم ذوي الاحتياجات الخاصة والترفيه، إلى جانب التحديات الأخلاقية المهمة مثل انتهاك الخصوصية، ونشر المعلومات المضللة، والتلاعب العاطفي.
تختتم الورقة بعرض لأبرز التحديات التقنية الحالية والاتجاهات المستقبلية، بما في ذلك التعلم الموحد (Federated Learning) والمركبات الصوتية المعتمدة على المحولات (Transformer Vocoders) ونماذج الانتشار (Diffusion Models)، والتي تهدف إلى تحسين جودة وكفاءة واستدامة هذه التكنولوجيا مع مراعاة الجوانب الأخلاقية
التنزيلات
التنزيلات
منشور
الرخصة
الحقوق الفكرية (c) 2025 مجلة الجامعة الوطنية الخاصة

هذا العمل مرخص بموجب Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.