التصنيف في استخراج البيانات

التصنيف هو أسلوب تعدين البيانات الذي يعين الفئات إلى مجموعة من البيانات للمساعدة في تنبؤات وتحليلات أكثر دقة. يسمى أيضًا أحيانًا تسمى شجرة القرارات ، التصنيف هو واحد من عدة طرق تهدف إلى جعل تحليل مجموعات البيانات كبيرة الحجم فعالة.

لماذا التصنيف؟

أصبحت قواعد البيانات الكبيرة جدا هي المعيار في عالم اليوم من "البيانات الكبيرة". تخيل قاعدة بيانات تحتوي على عدة تيرابايت من البيانات - هي تيرابايت واحد تريليون بايت من البيانات.

فيسبوك وحده يجرّب 600 تيرا بايت من البيانات الجديدة كل يوم (اعتبارًا من 2014 ، آخر مرة أبلغت فيها عن هذه المواصفات). التحدي الرئيسي للبيانات الضخمة هو كيفية فهمه.

والحجم الكبير ليس هو المشكلة الوحيدة: فالبيانات الضخمة تميل إلى أن تكون متنوعة وغير منظمة وسريعة التغير. فكّر في بيانات الصوت والفيديو أو منشورات الوسائط الاجتماعية أو البيانات ثلاثية الأبعاد أو البيانات الجغرافية المكانية. لا يتم تصنيف أو تنظيم هذا النوع من البيانات بسهولة.

لمواجهة هذا التحدي ، تم تطوير مجموعة من الطرق الآلية لاستخراج المعلومات المفيدة ، من بينها التصنيف .

كيف يعمل التصنيف

على الرغم من خطر الانتقال بعيداً في الكلام التقني ، دعنا نناقش كيفية عمل التصنيف. الهدف هو إنشاء مجموعة من قواعد التصنيف التي ستجيب عن سؤال أو اتخاذ قرار أو توقع السلوك.لبدء ، يتم تطوير مجموعة من بيانات التدريب التي تحتوي على مجموعة معينة من السمات بالإضافة إلى النتيجة المحتملة.

تتمثل وظيفة خوارزمية التصنيف في اكتشاف كيفية وصول مجموعة السمات هذه إلى نهايتها.

السيناريو : ربما تحاول إحدى شركات البطاقات الائتمانية تحديد أي الاحتمالات يجب أن تتلقى عرض بطاقة ائتمان.

قد يكون هذا مجموعة بيانات التدريب الخاصة به:

بيانات التدريب
اسم عمر جنس الدخل السنوي عرض بطاقة الائتمان
فلان الفلاني 25 M $ 39،500 لا
جين دو 56 F $ 125،000 نعم فعلا

تحدد الأعمدة "predictor" Age و Gender و Annual Income قيمة عرض بطاقة الائتمان "predictor attribute". في مجموعة التدريب ، من المعروف أن خاصية التنبؤ. ثم تحاول خوارزمية التصنيف تحديد كيفية الوصول إلى قيمة سمة التنبؤ: ما هي العلاقات الموجودة بين المتنبئين والقرار؟ سيطور مجموعة من قواعد التنبؤ ، عادةً عبارة IF / THEN ، على سبيل المثال:

IF (العمر> 18 أو العمر <75) و الدخل السنوي> 40،000 THEN Credit Card Offer = Yes

من الواضح ، هذا مثال بسيط ، وستحتاج الخوارزمية إلى أخذ عينات بيانات أكبر بكثير من السجلين اللذين يظهران هنا. علاوة على ذلك ، من المحتمل أن تكون قواعد التنبؤ أكثر تعقيدًا بكثير ، بما في ذلك القواعد الفرعية لالتقاط تفاصيل السمة.

بعد ذلك ، يتم إعطاء الخوارزمية "مجموعة تنبؤ" من البيانات لتحليلها ، ولكن هذه المجموعة تفتقر إلى خاصية التنبؤ (أو القرار):

بيانات التوقع
اسم عمر جنس الدخل السنوي عرض بطاقة الائتمان
صقيع 42 M $ 88،000
ماري موراي 16 F $ 0

تساعد بيانات التنبؤ هذه على تقدير دقة قواعد التنبؤ ، ثم يتم تعديل القواعد إلى أن يعتبر المطور أن التنبؤات فعالة ومفيدة.

يوما بعد يوم من الأمثلة على التصنيف

التصنيف ، وتقنيات استخراج البيانات الأخرى ، وراء الكثير من خبرتنا اليومية كمستهلكين.

قد تستفيد التنبؤات الجوية من التصنيف للإبلاغ عما إذا كان اليوم ممطرًا أو مشمسًا أو غائمًا. قد تقوم مهنة الطب بتحليل الظروف الصحية للتنبؤ بالنتائج الطبية. يستخدم نوع من أساليب التصنيف ، Naive Bayesian ، الاحتمال الشرطي لتصنيف رسائل البريد الإلكتروني غير المرغوبة. بدءًا من اكتشاف الاحتيال إلى عروض المنتجات ، يتم التصنيف في الكواليس يوميًا لتحليل البيانات وإنتاج التوقعات.