ماذا تعني k-clustering؟

استخراج البيانات باستخدام خوارزمية k-means

تعني كلمة "k" أن خوارزمية التجميع هي أداة لتعلم البيانات والتعلم الآلي تستخدم في تجميع الملاحظات في مجموعات من الملاحظات ذات الصلة دون أي معرفة مسبقة بتلك العلاقات. من خلال أخذ العينات ، تحاول الخوارزمية إظهار الفئة أو المجموعة التي تنتمي إليها البيانات ، مع تحديد عدد العناقيد حسب القيمة k.

إن خوارزمية k هي إحدى أبسط تقنيات التجميع ، وهي تُستخدم عادةً في التصوير الطبي ، والقياسات الحيوية ، والمجالات ذات الصلة. إن ميزة k- تعني التجميع هي أنه يخبر عن بياناتك (باستخدام نموذجها غير الخاضع للإشراف) بدلاً من أن تضطر إلى توجيه الخوارزمية حول البيانات في البداية (باستخدام النموذج الخاضع للإشراف في الخوارزمية).

يشار إليها أحيانا باسم لويدز الخوارزمية ، لا سيما في دوائر علوم الكمبيوتر لأن أول من اقترح الخوارزمية القياسية من قبل ستيوارت لويد في عام 1957. وقد صاغ مصطلح "ك يعني" في عام 1967 من قبل جيمس ماكوين.

كيف تعني الدالة K-Algorithm

الخوارزمية تعني خوارزمية تطورية اكتسبت اسمها من طريقة عملها. تقوم الخوارزميات بتجميع الملاحظات في مجموعات k ، حيث يتم توفير k كمعامل إدخال. ثم يعين كل ملاحظة للمجموعات على أساس قرب الملاحظة من متوسط ​​الكتلة. ثم يتم recomputed يعني الكتلة ثم تبدأ العملية مرة أخرى. إليك طريقة عمل الخوارزمية:

  1. تقوم الخوارزمية بشكل عشوائي بتحديد نقاط k كمراكز الكتلة الأولية (الوسيلة).
  2. يتم تعيين كل نقطة في مجموعة البيانات إلى المجموعة المغلقة ، استنادًا إلى المسافة الإقليدية بين كل نقطة وكل مركز عنقودية.
  3. يتم recomputed كل مركز الكتلة كمتوسط ​​نقاط في ذلك الكتلة.
  4. تكرار الخطوتين 2 و 3 حتى تتقارب الكتل. يمكن تعريف التقارب بشكل مختلف اعتمادًا على التنفيذ ، ولكنه يعني عادةً أنه إما عدم تغير الملاحظات في العناقيد عند تكرار الخطوتين 2 و 3 ، أو أن التغييرات لا تحدث فرقاً جوهريًا في تعريف المجموعات.

اختيار عدد العناقيد

واحدة من العيوب الرئيسية ل k- يعني التجميع هو حقيقة أنه يجب عليك تحديد عدد العناقيد كمدخل إلى الخوارزمية. على النحو المصمم ، فإن الخوارزمية غير قادرة على تحديد العدد المناسب من العناقيد وتعتمد على المستخدم لتحديد ذلك مسبقًا.

على سبيل المثال ، إذا كان لديك مجموعة من الأشخاص يتم تجميعها استنادًا إلى الهوية الثنائية بين الجنسين كذكر أو أنثى ، فإن استدعاء k- يعني خوارزمية باستخدام الإدخال k = 3 الذي سيجبر الأشخاص إلى ثلاث مجموعات عند اثنين فقط ، أو مدخلات من ك = 2 ، من شأنه أن يوفر نوبة أكثر طبيعية.

وبالمثل ، إذا تم تجميع مجموعة من الأفراد بسهولة استنادًا إلى حالة المنزل وكنت قد اتصلت بخوارزمية k- مع الخوارزمية k = 20 ، فقد تكون النتائج معممة جدًا بحيث تكون فعالة.

لهذا السبب ، غالبًا ما يكون من المفيد تجربة قيم مختلفة لـ k لتحديد القيمة التي تناسب بياناتك. قد ترغب أيضًا في استكشاف استخدام خوارزميات أخرى لاستخراج البيانات في سعيكم للحصول على المعرفة المكتسبة من الآلة.