الـواحــة الطلابيــة للجـامعــة الوطنيــة الخـاصــة

Student Oasis of Al-Wataniya Private University

عنوان الحلقة البحثية : نقل الإبداع الفني إلى تجربة المستخدم: تقنيات الرؤية الحاسوبية والتعلم العميق

مسابقة أفضل حلقة بحثية طلابية كلية الهندسة - المعلوماتية -

الدكتور وسيم رمضان

الأستاذ المشرف

الدكتور وسيم رمضان

نوح نصر الجاجة

اعداد الطالب

نوح نصر الجاجة

الملخص­­­­

هل لديك فنان طموح بداخلك؟ لقد أصبح ذلك ممكناً!. يمكن للإبداع الفني أن يجعل واجهات المستخدم أكثر جاذبية وتفاعلية وذات مغزى . [1] نوفر في هذه الحلقة البحثية تفاصيل عن الآلية التي لديها القدرة على الرسم مثل بيكاسو، لنقل ألوان لوحات فنية عالمية لواجهات تطبيقك ربما ! أو موقعك الخاص، إذ تأخذ الألوان بتفاوت درجاتها وتعقيداتها وتنسقها بالواجهة أو اللوحة التي تريدها مع بقاء المحتوى كما هو، إذ تدمج المحتوى -ما بداخل الصورة- مع الألوان الجديدة بطريقة فنية إبداعية رهيبة.

سنتناول بهذا البحث بعض التفاصيل والتقنيات التي يعتمد عليها لنقل الألوان، والاستفاضة قليلاً بمجال الرؤية الحاسوبية،

ومجال التعلم العميق. يمكن أن يساعد هذا المجال المصممين على إنشاء واجهات مستخدم أكثر إبداعية وجذابة، مما يحسن تجربة المستخدم الشاملة .[1]

المقدمة

الإبداع الفني هو جزء مهم من تجربة المستخدم. يمكن أن يساعد في خلق تجارب أكثر جاذبية وتفاعلية وذات مغزى. في السنوات الأخيرة، شهدت تقنيات التعلم العميق تقدمًا كبيرًا، مما أدى إلى ظهور طرق جديدة لتطبيق الإبداع الفني في تجربة المستخدم.

في هذه الحلقة البحثية، سنتناول طريقة جديدة لنقل الإبداع الفني إلى تجربة المستخدم باستخدام التعلم العميق. تعتمد هذه الطريقة على استخدام نموذج تعلم عميق لتحليل ألوان لوحات فنية عالمية، ثم إنشاء واجهات مستخدم باستخدام هذه الألوان.

سنبدأ بمناقشة أهمية الإبداع الفني في تجربة المستخدم. ثم سنقدم نظرة عامة على مجال التعلم العميق، مع التركيز على التطبيقات المحتملة للتعلم العميق في تجربة المستخدم. أخيرًا، سنقدم وصفًا تفصيليًا للتقنية الجديدة التي سندرسها.

  • أهمية الإبداع الفني في تجربة المستخدم

يمكن أن يساهم الإبداع الفني في تجربة المستخدم بعدة طرق.

أولاً، يمكن أن يساعد في خلق تجارب أكثر جاذبية وإثارة للاهتمام. على سبيل المثال، يمكن استخدام الفنون البصرية لإنشاء واجهات مستخدم أكثر جاذبية [1].

ثانيًا، يمكن أن يساعد الإبداع الفني في جعل تجربة المستخدم أكثر تفاعلية. على سبيل المثال، يمكن استخدام التصميم التفاعلي لإنشاء تجارب أكثر استجابة، ويمكن استخدام الفنون الرقمية لإنشاء تجارب أكثر تفاعلية. [1]

ثالثًا، يمكن أن يساعد الإبداع الفني في جعل تجربة المستخدم أكثر ذات مغزى. على سبيل المثال، يمكن استخدام الفنون الجميلة لإنشاء تجارب أكثر عاطفية  .[1]

  • التعلم العميق في تجربة المستخدم

التعلم العميق هو مجال من الذكاء الاصطناعي يركز على تطوير نماذج تعلم آلي قادرة على تعلم المهام المعقدة من خلال التعلم من البيانات. في السنوات الأخيرة، شهدت تقنيات التعلم العميق تقدمًا كبيرًا، مما أدى إلى ظهور طرق جديدة لتطبيق التعلم العميق في العديد من المجالات، بما في ذلك تجربة المستخدم. [7]

هناك العديد من التطبيقات المحتملة للتعلم العميق في تجربة المستخدم. على سبيل المثال، يمكن استخدام التعلم العميق لإنشاء واجهة مستخدم أكثر تخصيصًا للمستخدم، أو لتحسين كفاءة تجربة المستخدم، أو لإنشاء تجارب مستخدم أكثر تفاعلية.

في الأجزاء التالية من الحلقة البحثية، سنقدم وصفًا تفصيليًا للتقنية الجديدة التي سندرسها.

هل تم إنتاج الصورة بالسحر !، أم أن هذا مجرد علم؟ إنه التعلم العميق Deep Learning
هل تم إنتاج الصورة بالسحر !، أم أن هذا مجرد علم؟ إنه التعلم العميق Deep Learning

تقنية نقل التعلم Style Transfer Learning

في هذه الحلقة البحثية، سنتناول طريقة جديدة لنقل الإبداع الفني إلى تجربة المستخدم باستخدام التعلم العميق. تعتمد هذه الطريقة على استخدام نموذج تعلم عميق لتحليل ألوان لوحات فنية عالمية، ثم إنشاء واجهات مستخدم باستخدام هذه الألوان.[1]

نلاحظ في الشكل 1 : نقل ألوان واجهة معينة إلى أخرى وبقاء محتوى الواجهة وهي قطعة البيتزا مع الدمج بصورة واحدة، أليس شيئاً رائعاً ! . لقد تم نقل ألوان لوحة فان جوخ الشهيرة والتي هي معقدة ويصعب جداً استخراجها لصورة أخرى.

شكل 1: نقل التعلم
شكل 1: نقل التعلم

يعد إنشاء فن عالي الجودة باستخدام تقنيات التعلم الآلي أمراً ضرورياً للوصول للقدرات الشبيهة بالإنسان، كما أنه يفتح نطاقاً جديداً من الاحتمالات. في هذا الفصل، سنناقش بنية تقنية إنشاء فن عالي الجودة باستخدام التعلم الآلي.

شكل 2: بنية التقنية
شكل 2: بنية التقنية

كما هو موضح بالشكل 2. تتكون التقنية من مكونين رئيسيين [2]: شبكة تحويل الصور fw  وشبكة الخسارة φ التي تستخدم لتحديد عدة خسائر. fw عبارة عن شبكة تلافيفية عميقة تتميز بأوزان w. تعد شبكة تحويل الصور مسؤولة عن التقاط صورة المحتوى وتحويلها لتشبه نمط صورة النمط. يلعب هذا دورًا حاسمًا في إنشاء الصورة المنمقة النهائية.

تتكون شبكة تحويل الصور عادةً من عدة طبقات تلافيفية، تليها سلسلة من طبقات الاختزال أو الطبقات غير التلافيفية. يأخذ النموذج صورة المحتوى كمدخل ويحولها تدريجيًا إلى الشكل النهائي من خلال تعلم كيفية تطبيق نمط صورة النمط.

فيما يلي الخطوات الأساسية المتضمنة في [2] Image Transform Net:

ترميز صورة المحتوى

يتم تمرير صورة المحتوى عبر الطبقات التلافيفية الأولية، لاستخراج الميزات ذات المستوى المنخفض. تلتقط هذه الطبقات الأشكال والحواف والأنسجة الأساسية لصورة المحتوى.

تحويل الميزات

يتم بعد ذلك تغذية الميزات المشفرة في طبقات الاختزال أو الطبقات غير الملتوية. تعمل هذه الطبقات على زيادة الأبعاد المكانية للمعالم تدريجيًا، مما يسمح بنقل النمط.

دمج معلومات النمط

في طبقات مختلفة من الشبكة، يتم إدخال معلومات النمط من صورة النمط. يتم ذلك عادةً عن طريق حساب مصفوفات جرام لخرائط ميزات صورة النمط واستخدامها لضبط تمثيلات الميزات لصورة المحتوى.

فك رموز الميزات المحولة

وأخيرًا، يتم تمرير الميزات المحولة عبر الطبقات التلافيفية المتبقية لإنشاء الصورة المنمقة. يجب أن تحافظ الصورة الناتجة بشكل مثالي على محتوى صورة المحتوى مع اعتماد نمط صورة النمط.

بالنسبة لشبكة الخسائر φالمدربة مسبقاً أو VGG-19. نستخدم الVGG ذات ال19 طبقة والتي تم تدريبها مسبقاً لتصنيف الصور. VGG19 هو نوع من شبكة CNN (الشبكة العصبية التلافيفية) التي تعتبر واحدة من أفضل نماذج رؤية الكمبيوتر حتى الآن [3].

 قام مبتكرو هذا النموذج بتقييم الشبكات وزيادة العمق باستخدام بنية ذات مرشحات تلافيفيه صغيرة جدًا (3 × 3)، مما أظهر تحسنًا كبيرًا في تكوينات التقنية السابقة. لقد دفعوا العمق إلى 16-19 طبقة مما يجعلها تقريبًا  138 معلمة قابلة

شكل 3: بنية شبكة الخسارة المدربة مسبقاً
شكل 3: بنية شبكة الخسارة المدربة مسبقاً

للتدريب  .[3] تستخدم للكشف عن الكائنات وتصنيفها وهي قادرة على تصنيف 1000 صورة من 1000 فئة مختلفة بدقة تصل إلى 92.7%.

يبين الشكل السابق بنية شبكة الخسارة المدربة مسبقاً [3]، أي تحديد وظائف فقدان الإدراك الحسي التي تقيس الاختلافات الإدراكية في المحتوى والنمط بين الصور. تظل شبكة الخسارة ثابتة أثناء عملية التدريب.

الرؤية الحاسوبية Computer Vision

الرؤية الحاسوبية هي مجال علوم الكمبيوتر الذي يركز على إنشاء أنظمة رقمية يمكنها معالجة البيانات المرئية وتحليلها وفهمها (الصور ومقاطع الفيديو) بنفس الطريقة التي يفعلها البشر. تستخدم Computer Vision الشبكات العصبية التلافيفية لمعالجة البيانات المرئية على مستوى البيكسل والشبكات العصبية المتكررة للتعلم العميق لفهم كيفية ارتباط بكسل واحد بآخر.

تعتمد خوارزميات رؤية الكمبيوتر على التعرف على الأنماط [4]. نحن ندرب نموذجنا على كمية هائلة من البيانات المرئية (الصور). يقوم نموذجنا بمعالجة الصور باستخدام الملصقات والعثور على الأنماط في تلك الكائنات (الصور).

على سبيل المثال، إذا أرسلنا مليون صورة لصور الخضروات إلى نموذج لتدريبه، فسوف يقوم بتحليلها وإنشاء محرك (نموذج رؤية الكمبيوتر) بناءً على أنماط مشابهة لجميع الخضروات. ونتيجة لذلك، سيتمكن نموذجنا من الكشف بدقة عما إذا كانت صورة معينة عبارة عن خضروات في كل مرة نرسلها إليها.[2]

شكل 4: يمثل ما يراه الحاسب
شكل 4: يمثل ما يراه الحاسب

الشبكة التلافيفية العصبية Convolutional Neural Network CNN

تعد الشبكات العصبية واحدة من أقوى التقنيات التي تستخدم في مجموعة متنوعة من التصنيفات ومشاكل التنبؤ. وهي الكلمة الطنانة الجديدة في عالم التعلم الآلي والتعلم العميق.[7]  وهي تشبه الشبكات العصبية البسيطة. تتضمن الشبكات العصبية التلافيفية عددًا كبيرًا من الخلايا العصبية. كل خلية عصبية لها أوزان وتحيزات مرتبطة بها يمكن تعلمها بمرور الوقت لتناسب البيانات بشكل صحيح.

يرى الكمبيوتر كل ما نغديه به من حيث الأرقام[5] . إنه يتصور الصور كمصفوفة من الأرقام، يمثل كل رقم قيمة تقابل البيكسل. يستخدم لذلك الشبكات العصبية التلافيفية، والتي يشار إليها باسم CNN في مجموعة متنوعة من مشاكل التعلم العميق [7]. بعض الأمثلة على التطبيقات الممكنة لذلك:  اكتشاف نقطة الوجه الرئيسية، الكشف عن العاطفة والتعرف على الوجه، والتعرف على الكلام، وما إلى ذلك. الشبكة العصبية التلافيفية هي شبكة عصبية متعددة الطبقات ذات تغذية أمامية. مستوحى في الواقع من القشرة البصرية لمختلف الحيوانات. وهي على وجه التحديد مصممة للعمل مع المشاكل التي تنطوي على الصور كمدخلات. يمكن استخدام شبكة لحل مشاكل التعلم الآلي أو مشاكل استخراج البيانات حيث يمكن تمثيل المدخلات بصورة أو مجموعة من الصور.

إن شركات التكنولوجيا الكبرى مثل فيسبوك وجوجل هي كذلك تستخدم الشبكات العصبية التلافيفية العميقة مع عدد كبير من الطبقات التلافيفية لأغراض مختلفة مثل التعرف على الوجوه والبحث بالصورة.

الخاتمة

في الختام، يمكن القول أن استخدام التعلم العميق في تحسين الإبداع الفني يعد مجالًا واعدًا له العديد من التطبيقات المحتملة. يمكن أن تساعد هذه التقنية الفنانين على إنشاء أعمال فنية أكثر إبداعًا وتعبيرًا، كما يمكن استخدامها لإنشاء أعمال فنية جديدة تمامًا. ومع ذلك، لا تزال هناك بعض التحديات التي يجب التغلب عليها قبل أن تصبح هذه التقنية قابلة للتطبيق على نطاق واسع. أحد هذه التحديات هو الحاجة إلى كمية كبيرة من البيانات التدريبية عالية الجودة.

المراجع

[1] https://medium.com/syncedreview/give-your-apps-a-new-interface-with-neural-style-transfer-c53414673966 2020

[2] https://www.semanticscholar.org/paper/A-Neural-Algorithm-of-Artistic-Style-Li/4c0301a45dc2e1e25bb4190e1fbb4fcd4ec5e1b4 2018

[3]       https://www.quora.com/profile/LTDC-Team 2021

 

[4]    https://medium.com/@charles.ollion/small-scale-computer-vision-in-2024-dd13fd6592c4 2024

[5] Purvil Bambharolia. (2017). OVERVIEW OF CONVOLUTIONAL NEURAL NETWORKS.

[6] Zheng, Y., Wang, K., & Wang, L. (2020). Image style transfer: A survey. IEEE Signal Processing Magazine, 38(5), 18-30.

[7] Zhang, S., & Wang, H. (2022). A comprehensive survey on image style transfer: From traditional to deep learning methods. Pattern Recognition Letters, 153, 127-140.

[IT_EPOLL_VOTING id="1040"][/IT_EPOLL_VOTING]

تنفيذ إدارة المواقع الالكترونية في الجامعة الوطنية الخاصة 2023

Scroll to Top