تصميم خوارزمية إلغاء بيانات مكررة فعالة للملفات الصوتية في التخزين السحابي
Keywords:
إلغاء البيانات المكررة, جدول التجزئة, MD6, الملفات الصوتية, التخزين السحابيAbstract
تشكل البيانات المكررة تحدياً مهماً في أنظمة تخزين البيانات الضخمة، فهي تستهلك مساحة تخزينية، ما يؤثر على تنظيم البيانات وإدارتها ومعالجتها. فأنظمة التخزين المثالية تستخدم مساحة التخزين بشكل فعال. لحل هذه المشكلة، تستخدم خوارزميات الاختزال لتوليد مفاتيح اختزال للملفات. الملفات المتطابقة لها المفتاح ذاته. لكن قد يتطابق مفتاح الهاش لملفين مختلفين، وهذا ما يسمى بالتصادم. ترتبط مشكلة التصادم بطول المفتاح المختزل. فكلما زاد طول المفتاح المختزل قلت احتمالية حدوث تصادم. عندما يُحمَّل ملف إلى نظام التخزين السحابي، تتم مقارنة مفتاح الاختزال الخاص به مع المفاتيح المخزنة في النظام. لكن مع زيادة البيانات المخزنة في السحابة، يزداد زمن عملية البحث والمطابقة.
في هذه الورقة، نقدم تقنية إلغاء بيانات مكررة على مستوى الملف لإلغاء تخزين البيانات الصوتية المكررة في نظام التخزين السحابي. تهدف التقنية المقترحة إلى تقليل زمن البحث عن قيم الاختزال عن طريق إنشاء جدول اختزال بفهارس متعددة. تُصمم هذه الفهارس بالاعتماد على صيغة ملف الصوت (ملفات غير مضغوطة، ملفات مضغوطة مع فقدان في البيانات، ملفات مضغوطة دون فقدان في البيانات). وبالتالي، يتضمن جدول الاختزال فهارساً متعددة، وكل فهرس من أجل صيغة محددة. لتقليل احتمالية حدوث تصادم، يتم استخدام خوارزمية MD6، والتي تنتج مفتاحاً بطول 512 بتاً