الفهرس | Only 14 pages are availabe for public view |
Abstract أدت الزيادة السريعة الملحوظة في استخدام تطبيقات الإنترنت إلى وجود كميات هائلة من البيانات. لا تستطيع تقنيات البيانات التقليدية وحتى التطبيقات التعامل مع حجم البيانات الجديدة وهيكلها وأنواعها بكفاءة عالية. تأتي مفاهيم البيانات الضخمة لاستيعاب هذا الفيضان المستمر حيث إنه من الملاحظ انتشار البيانات الضخمة مؤخرًا على نطاق واسع في العديد من المجالات مثل التعلم الآلي والتعرف على الأنماط والمجالات الطبية والمالية والنقل وغيرهم. يعد تحليل البيانات أمرًا بالغ الأهمية لتحويل البيانات إلى معلومات أكثر دقة لها معنى يتم تغذيتها لأنظمة اتخاذ القرار. نتيجة لوجود أنواع متنوعة والمعقدة من مجموعات البيانات، يصبح تعدين البيانات للحصول على المعلومات أكثر صعوبة. يتمثل أحد الحلول في استخدام المعالجة المسبقة للبيانات التي تقلل من هذا التعقيد، وبالتالي يصبح تحليل البيانات ونتائجها أمراً منطقياً يتبع طبيعة البيانات. إن المعالجة المسبقة للبيانات تنتج مصدرًا موثوقًا ومناسبًا لأي خوارزمية استخراج البيانات والتي يتم استخدامها لاحقًا لتعدين المعرفة من هذه البيانات. إحدى الخطوات الرئيسية في المعالجة المسبقة للبيانات هي اختيار الميزة أو الخاصية (Feature selection)، واختيار الميزة او الخاصية (feature selection)هو أحد خوارزميات تعلم الآلة التقليدية التي تحدد خصائص البيانات وبناءً عليه يمكن اتخاذ قرار متعلق بهذه البيانات بدقة عالية وأمان. يمكن استخدام الميزات أو الخصائص الفعالة في تحسين أداء النموذج المساعدة في فهم الخصائص والهيكل الأساسي للبيانات المعقدة. تقدم هذه الأطروحة نموذجًا جديدًا قائمًا على السحابة لاختيار الميزات (features) المعبرة عن البيانات غير المتوازنة استنادًا إلى خوارزمية (KNN)K Nearest Neighbor . أظهر النموذج المقترح أداءً جيدًا مقارنةً ب Weighted K Neighbor. يجمع النموذج المقترح بين مقياس المسافة تبعاً لليراعات firefly ومسافة Elucidence المستخدمة في K nearest neighbor (KNN).أظهرت النتائج التجريبية للمقترح مؤشرات جيدة في كل من استخدام الوقت ومدى دقة وفاعلية الميزات أو الخصائص المُختارة مقارنة بنتائج Weighted nearest neighbor. أظهرت نتائج التجارب تحسناً في دقة التصنيف بنسبة 12٪ مقارنة بخوارزمية Weighted nearest neighbor عند تطبيقها على أنواع وأحجام مختلفة من البيانات وتتكون الرسالة من خمسة فصول تتلخص فيما يلي: الفصل الأول: يحتوي على مقدمة عن البيانات الضخمة والبرمجة المسبقة لها مع توضيح المشكلة موضع الدراسة وبيان الدافع وراء اجراء هذه الدراسة والهدف المنشود من الدراسة كما يشير هذا الفصل إلى ما ستحتويه باقي هذه الرسالة. الفصل الثاني: يستعرض ملخص للأبحاث السابقة والتي تم اجراؤها في نفس مجال البحث موضع الدراسة. الفصل الثالث: يقدم الطريقة المقترحة لمعالجة البيانات باستخدام تقنيات اختيار الخصائص أو الميزات مستعينة بالمميزات التي توفرها الحوسبة السحابية الفصل الرابع: يستعرض التجارب التي تم اجراؤها لاختبار كفاءة الطريقة المقترحة في هذه الأطروحة. الفصل الخامس: يقدم خاتمة الأطروحة بيان ملخص لما جاء بها مع الإشارة لبعض المقترحات المستقبلية. |