ما تحتاج إلى معرفته حول تصفية رسائل البريد الإلكتروني العشوائية

by هاينز Tschabitscher

اكتشف كيف تساعد الإحصاءات في الحفاظ على نظافة بريدك الوارد

تقوم فلاتر البريد العشوائي النظرية بحساب احتمال أن تكون الرسالة رسالة غير مرغوب فيها بناءً على محتوياتها. على عكس الفلاتر البسيطة القائمة على المحتوى ، تتعلم تصفية الرسائل غير المرغوب فيها Bayesian من الرسائل غير المرغوب فيها ومن البريد الجيد ، مما يؤدي إلى اتباع منهج قوي ومكيف وفعال لمكافحة الرسائل الاقتحامية (SPAM) ، والذي لا يعود بالكاد أي إيجابيات خاطئة.

كيف يمكنك التعرف على البريد الإلكتروني غير الهام؟

فكّر في كيفية اكتشاف الرسائل غير المرغوب فيها . نظرة سريعة غالبا ما تكون كافية. أنت تعرف كيف تبدو الرسائل غير المرغوب فيها ، وتعرف كيف يبدو البريد الجيد.

احتمال وجود بريد إلكتروني غير مرغوب فيه يبدو جيدًا مثل البريد العادي.

مرشحات المحتوى المستندة إلى المحتوى Not Adapt

ألن يكون رائعًا لو عملت فلاتر البريد العشوائي التلقائية هكذا؟

سجل مرشحات الرسائل غير المرغوب فيها القائمة على المحتوى حاول ذلك. انهم يبحثون عن الكلمات وغيرها من الخصائص النموذجية للرسائل غير المرغوب فيها. يتم تعيين كل عنصر مميز على درجة ، ويتم احتساب درجة الرسائل غير المرغوب فيها للرسالة بأكملها من الدرجات الفردية. تبحث بعض مرشحات التسجيل أيضًا عن خصائص البريد الشرعي ، مما يؤدي إلى تقليل النتيجة النهائية للرسالة.

يعمل أسلوب تصفية نقاط التصفية ، ولكن له أيضًا عدة عيوب:

قائمة الخصائص مبنية من البريد العشوائي (والبريد الجيد) المتاحة لمهندسي الفلتر. للحصول على فهم جيد للرسائل غير المرغوب فيها المعتادة التي قد يحصل عليها أي شخص ، يجب جمع البريد في مئات عناوين البريد الإلكتروني. هذا يضعف كفاءة المرشحات ، خاصة لأن خصائص البريد الجيد ستكون مختلفة لكل شخص ، ولكن هذا لا يؤخذ بعين الاعتبار.
الخصائص التي يتم البحث عنها أكثر أو أقل في الحجر . إذا بذل مرسلو الرسائل غير المرغوب فيها الجهد للتكيف (وجعل البريد المزعج يبدو وكأنه بريد جيد للمرشحات) ، فيجب تعديل خصائص الترشيح يدويًا - جهد أكبر.
ربما تستند النتيجة المخصصة لكل كلمة إلى تقدير جيد ، لكنها لا تزال تعسفية. ومثل قائمة الخصائص ، لا يتكيف ذلك مع العالم المتغير للبريد العشوائي بشكل عام ولا احتياجات المستخدم الفردية.

Bayesian Spam Filters Tweak Theself، Getting Better and Better

تعد مرشحات البريد العشوائي النظرية نوعًا من فلاتر المحتوى المستندة إلى المحتوى أيضًا. إن نهجهم يتخلص من مشكلات مرشحات البريد العشوائي البسيطة ، رغم أنه يفعل ذلك بشكل جذري. بما أن ضعف مرشحات التسجيل موجودة في قائمة الخصائص المبنية يدويًا والنتائج الخاصة بها ، يتم التخلص من هذه القائمة.

وبدلاً من ذلك ، تنشئ عوامل تصفية الرسائل غير المرغوب فيها Bayesian القائمة نفسها. من الناحية المثالية ، يمكنك البدء بمجموعة (كبيرة) من رسائل البريد الإلكتروني التي صنفتها كرسائل غير مرغوب فيها ومجموعة أخرى من البريد الجيد. تبحث المرشحات في كلٍّ من البريد الشرعي بالإضافة إلى البريد العشوائي وتحليله لحساب احتمال ظهور خصائص متنوعة في الرسائل غير المرغوب فيها وفي البريد الجيد.

كيف يفحص عامل تصفية البريد الإلكتروني العشوائي بريدًا إلكترونيًا

يمكن أن تكون الخصائص التي يمكن أن يعرضها عامل تصفية رسائل البريد الإلكتروني غير المرغوب فيها كما يلي:

الكلمات في نص الرسالة ، بالطبع ، و
رؤوسها (المرسلين ومسارات الرسائل ، على سبيل المثال!) ، ولكن أيضا
جوانب أخرى مثل شفرة HTML / CSS (مثل الألوان والتنسيقات الأخرى) ، أو حتى
أزواج الكلمات والعبارات و
معلومات التعريف (حيث تظهر عبارة معينة ، على سبيل المثال).

إذا كانت كلمة "ديكارتي" ، على سبيل المثال ، لا تظهر أبدًا في الرسائل غير المرغوب فيها ولكن غالبًا ما تظهر في البريد الإلكتروني الشرعي الذي تتلقاه ، فإن احتمال أن "الديك" يشير إلى محتوى غير مرغوب فيه يقترب من الصفر. وعلى الجانب الآخر ، يظهر "الحبر" بشكل حصري ، وغالبًا ما يكون في الرسائل غير المرغوب فيها. "Toner" له احتمالية عالية جدًا في العثور عليه في الرسائل غير المرغوب فيها ، وليس أقل بكثير من 1 (100٪).

عند وصول رسالة جديدة ، يتم تحليلها بواسطة فلتر رسائل البريد الإلكتروني العشوائي ، ويحسب احتمال أن تكون الرسالة الكاملة بريدًا عشوائيًا باستخدام الخصائص الفردية.

افترض أن رسالة تحتوي على كل من "الديكارتية" و "مسحوق الحبر". من هذه الكلمات وحدها ليس من الواضح حتى الآن ما إذا كان لدينا بريد مزعج أو بريد شرعي. تشير الخصائص الأخرى (على الأرجح وعلى الأرجح) إلى احتمالية تسمح للمرشح بتصنيف الرسالة على أنها بريد عشوائي أو بريد جيد.

يمكن لمعالجات بايزاميان المتطفل أن تتعلم تلقائيا

الآن بعد أن أصبح لدينا تصنيف ، يمكن استخدام الرسالة لتدريب الفلتر نفسه. في هذه الحالة ، يتم تخفيض احتمال "الديكارتية" الذي يشير إلى بريد جيد (إذا كانت الرسالة التي تحتوي على كل من "الديكارتية" و "الحبر" عبارة عن رسائل غير مرغوب فيها) ، أو يجب إعادة النظر في احتمال "الحبر" الذي يشير إلى البريد العشوائي.

باستخدام هذه التقنية المكيّفة تلقائيًا ، يمكن لمرشحات Bayesian أن تتعلم من قراراتها وقرارات المستخدم (إذا قامت بتصحيح سوء التقدير يدويًا بواسطة المرشحات). تتكيف قابلية التصفية Bayesian أيضًا مع أنها أكثر فاعلية لمستخدم البريد الإلكتروني الفردي. في حين أن رسائل البريد العشوائي لمعظم الأشخاص قد تكون لها خصائص متشابهة ، إلا أن البريد الشرعي يختلف بشكل مميز للجميع.

كيف يمكن لمرسلي البريد العشوائي الحصول على مرشحات بايزي السابقة؟

إن خصائص البريد الشرعي لا تقل أهمية عن عملية تصفية رسائل البريد الإلكتروني العشوائية حيث أن الرسائل غير المرغوب فيها. إذا تم تدريب المرشحات خصيصًا لكل مستخدم ، سيكون لدى مرسلي الرسائل غير المرغوب فيها وقت أصعب في العمل حول فلاتر البريد العشوائي (أو حتى معظم الناس) الخاصة بالرسائل غير المرغوب فيها ، ويمكن أن تتكيف المرشحات مع كل محاولات مرسلي الرسائل غير المرغوب فيها تقريبًا.

لن يتمكن مرسلو الرسائل غير المرغوب فيها سوى من تجاوز مرشحات Bayesian المدربة جيدًا إذا جعلوا رسائل الرسائل غير المرغوب فيها تبدو تمامًا مثل الرسائل الإلكترونية العادية التي قد يحصل عليها الجميع.

لا يرسل مرسلو الرسائل غير المرغوب فيها عادة رسائل البريد الإلكتروني العادية هذه. دعنا نفترض أن هذا لأن رسائل البريد الإلكتروني هذه لا تعمل كبريد إلكتروني غير هام. لذا ، فإن الاحتمال أنهم لن يفعلوا ذلك عندما تكون الرسائل الإلكترونية العادية والمملة هي الطريقة الوحيدة لجعلها تتفوق على فلاتر البريد العشوائي.

إذا انتقل مرسلو الرسائل غير المرغوب فيها إلى رسائل البريد الإلكتروني ذات المظهر العادي ، فسنشاهد الكثير من الرسائل غير المرغوب فيها في البريد الوارد مرة أخرى ، وقد يصبح البريد الإلكتروني محبطًا كما كان في أيام Bayes (أو حتى الأسوأ). كما أنه سيدمر السوق لمعظم أنواع البريد المزعج ، على الرغم من ذلك ، وبالتالي لن يدوم لفترة طويلة.

مؤشرات قوية يمكن أن يكون عامل تصفية Bayamian Spam Filter & # 39؛ s Achilles & # 39؛ كعب

يمكن اعتبار استثناء واحد لمرسلي الرسائل الاقتحامية أن يشقوا طريقهم من خلال فلاتر Bayesian حتى مع محتواها المعتاد. في طبيعة إحصائيات بايزي ، يمكن أن تكون كلمة أو خاصية واحدة تظهر في كثير من الأحيان في بريد جيد ، مهمة جدًا لتحويل أي رسالة من الظهور كرسائل غير مرغوب فيها إلى تصنيفها كفلتر بواسطة عامل التصفية.

إذا عثر مرسلو الرسائل غير المرغوب فيها على طريقة لتحديد كلمات البريد الجيد المؤكدة في إطلاق النار - باستخدام إيصالات إرجاع HTML لمعرفة الرسائل التي قمت بفتحها ، على سبيل المثال - ، يمكنهم تضمين أحدهم في بريد إلكتروني غير هام والوصول إليك من خلال مرشح بايزي المدربين.

لقد جرب جون غراهام-كومينغ ذلك من خلال السماح بمرشحين بايزيين بالعمل ضد بعضهما البعض ، فالفئة "السيئة" التي تتكيف مع أي رسائل يتم الوصول إليها من خلال الفلتر "الجيد". يقول إنه يعمل ، على الرغم من أن العملية تستغرق وقتا طويلا ومعقدة. لا نعتقد أننا سنرى الكثير من هذا يحدث ، على الأقل ليس على نطاق واسع ، ولا يتناسب مع خصائص البريد الإلكتروني للأفراد. قد يحاول مرسلو الرسائل غير المرغوب فيها (محاولة) معرفة بعض الكلمات الرئيسية للمؤسسات (شيء مثل "Almaden" لبعض الأشخاص في IBM ربما؟) بدلاً من ذلك.

عادة ، سيكون البريد العشوائي دائمًا (بشكل ملحوظ) مختلفًا عن البريد العادي أو لن يكون بريدًا عشوائيًا.

The Bottom Line: Poweresian Filtering & # 39؛ s Strength Can Can its Weakness

مرشحات البريد العشوائي النظرية هي مرشحات قائمة على المحتوى :

يتم تدريبهم تحديدًا على التعرف على البريد الإلكتروني العشوائي لمستخدم البريد الفردي والبريد الجيد ، مما يجعلهم أكثر فعالية وصعوبة في التكيف مع مرسلي الرسائل غير المرغوب فيها.
يمكن بشكل مستمر وبدون الكثير من الجهد أو التحليل اليدوي التكيف مع أحدث حيل مرسلي الرسائل الاقتحامية.
تأخذ البريد الجيد للمستخدم الفردي في الاعتبار ، ويكون معدل منخفض جدا من ايجابيات كاذبة .
لسوء الحظ ، إذا كان هذا يسبب ثغرة عمياء في المرشحات المضادة للرسائل غير المرغوب فيها Bayesian ، فإنه يجعل الخطأ العرضي أكثر خطورة . التأثير المعاكس للسلبية الخاطئة (البريد العشوائي الذي يشبه تمامًا البريد العادي) له القدرة على إزعاج المستخدمين وإحباطهم.