الرئيسية / استخدام طرائق التعلم الآلي لاكتشاف الشذوذ في مجموعات البيانات

استخدام طرائق التعلم الآلي لاكتشاف الشذوذ في مجموعات البيانات

اسم الباحث:

المهندس: علي لؤي ياسين

عنوان البحث:

استخدام طرائق التعلم الآلي لاكتشاف الشذوذ في مجموعات البيانات

عنوان البحث باللغة الانكليزية :

Using Machine Learning Methods to Detect Anomalies in Datasets

اسم المشرف :     الدكتور: كمال السلوم    – الدكتور: وسيم رمضان

العام:2019

القسم:

قسم هندسة البرمجيات ونظم المعلومات

الملخص:

لازال الكشف عن الحالات الشاذة ضمن البيانات من القضايا الهامة التي تواجه الشركات والمؤسسات الكبرى. حيث يستخدم في مجالات واسعة النطاق التي تشكل حيز كبير من تطبيقات العالم الحقيقي والتي تتعامل مع مليارات الدولارات، وبالتالي فمهما كان تحسين اكتشاف الشذوذ بسيطاً سوف يُشكل انعكاساً هاماً على الأداء المالي والاقتصادي لهذه الشركات. على سبيل المثال، الكشف عن الاحتيال ضمن بطاقات الائتمان، والكشف عن الأضرار الصناعية كمشكلة فواصل الورق.

تَهَدُّف هذه الدراسة إلى استخدام تقنيات التعلّم الآلي للكشف عن الشذوذ في مجموعات بيانات حقيقية غير متوازنة، أحداها مأخوذة من أحد شركات التأمين الأوربية، والأخرى من معامل صناعة الأوراق وأخرى بحثية. تَنَاوَلَتْ الدراسة أهم التحديات التي تواجه تطبيقات الكشف عن الشذوذ وتحديداً مشكلة البيانات غير المتوازنة التي تُعاني منها أغلب طرائق التعلّم الآلي، حيث يُمكن لهذه الطرائق الحصول على نسبة تصنيف عالية بدون أن تتضمن أي عملية تصنيف حقيقية، فيكفي أن تَعْتَبِر أن كل البيانات طبيعية.

اِقْتَرَحَتْ الدراسة شبكة Autoencoder لحل المشكلة السابقة وهي أحد أنواع الشبكات العصبونية العميقة. بينت النتائج تفوق شبكة Autoencoder في اكتشاف الحالات الشاذة الخفية غير الخطية، وقدرتها على التعامل مع البيانات غير المتوازنة، وذلك من خلال تعلّمها لنمط البيانات الطبيعية فقط وإعادة بناءها في الخرج، بينما تفشل في ذلك بحالة البيانات الشاذة. كما تَمَّ خلال الدراسة تحديد أفضل البارامترات لعمل الشبكة بكفاءة عالية من خلال دراسة عدة عتبات واختيار الأفضل بينها. كما تَمَّ تقييم أداء الخوارزمية المقترحة من خلال مقارنتها مع طريقة الانحدار اللوجستي المعروفة بحاجتها لتقنيات إعادة تكوين العينات Resampling لتحقيق توازن البيانات، باستخدام عدة مقاييس خاصة بالبيانات غير المتوازنة كالدقة Precision والاستذكار Recall ومصفوفة الارتباك وغيرهم، حيث وصلت قيم الدقة إلى 98% في حال Autoencoder مقابل 87% في حالة الانحدار اللوجيستي.

 

الكلمات المفتاحية: الشذوذ، التعلّم الآلي، تطبيقات الكشف عن الشذوذ، مجموعات البيانات، شبكة Autoencoder، الانحدار اللوجستي.

التحميل