python - شرح - باستخدام التعدين العناصر المتكررة لبناء قواعد الجمعيات؟




scikit-learn شرح (2)

أنا جديد في هذا المجال بالإضافة إلى المصطلحات لذا لا تتردد في اقتراح ما إذا كنت أخطأ في مكان ما. لدي مجموعتي بيانات مثل هذا:

مجموعة البيانات 1:

A B C 0 E
A 0 C 0 0
A 0 C D E
A 0 C 0 E

والطريقة التي أفسر بها ذلك هي في وقت ما ، (أ ، ب ، ج ، هـ) وقعت معاً وكذلك (أ ، ج) ، (أ ، ج ، د ، هـ) إلخ.

مجموعة البيانات 2:

5A 1B 5C  0 2E
4A  0 5C  0  0
2A  0 1C 4D 4E
3A  0 4C  0 3E

الطريقة التي أفسر بها هذا هي في وقت ما ، 5 مرات من A ، 1 حدوث B ، حدث 5 من C و 2 حدث E حدث وهلم جرا.

أحاول العثور على العناصر التي تحدث معًا ، وإذا أمكن ، يمكنك أيضًا معرفة السبب والنتيجة. لهذا ، أنا لا أفهم كيفية استخدام كلتا مجموعات البيانات (أو إذا كان واحدًا كافيًا). سيكون من الجيد أن يكون لديك برنامج تعليمي جيد حول هذا ولكن سؤالي الأساسي هو أي مجموعة بيانات للاستفادة منها وكيفية المضي قدما في (i) بناء العناصر المتكررة و (ii) بناء قواعد الارتباط فيما بينها.

هل يمكن أن يشيرني شخص ما إلى دروس / أمثلة عملية (يفضل أن تكون في بايثون) أو على الأقل تشرح بكلمات مختصرة حول كيفية التعامل مع هذه المشكلة؟

https://code.i-harness.com


إذا كان لديك كميات لكل العناصر ، فيمكنك التفكير في "التعدين ذو فائدة عالية". إنها مشكلة مواد التعدين ولكنها تتكيف مع الحالة التي يمكن أن تحتوي فيها العناصر على كميات في كل معاملة ، كما يمكن أن يكون لكل عنصر وزن.

إذا كنت تستخدم فقط Apriori الأساسية ، فإنك ستفقد المعلومات حول الكميات.


بعض الحقائق النظرية حول قواعد الجمعيات:

  • قواعد الاقتران هي نوع من عمليات استخراج البيانات غير الموجهة التي تجد أنماطًا في البيانات التي لم يتم تحديد الهدف منها مسبقًا. ما إذا كانت الأنماط منطقية تركت لتفسير الإنسان.
  • الهدف من قواعد الاقتران هو اكتشاف العلاقات أو الارتباط بين القيم المحددة للمتغيرات الفئوية في المجموعات الكبيرة.
  • ويمكن تفسير القواعد بأنها "70٪ من العملاء الذين يشترون النبيذ والجبن يشترون العنب أيضًا".

للعثور على قواعد الربط ، يمكنك استخدام خوارزمية apriori. يوجد بالفعل العديد من تطبيقات python ، على الرغم من أن معظمها غير فعال للاستخدام العملي:

أو استخدام مكتبة استخراج البيانات البرتقالية ، التي تحتوي على مكتبة جيدة لقواعد الارتباط .

مثال على الاستخدام:

'''
save first example as item.basket with format
A, B, C, E
A, C
A, C, D, E
A, C, E
open ipython same directory as saved file or use os module
>>> import os
>>> os.chdir("c:/orange")
'''
import orange

items = orange.ExampleTable("item")
#play with support argument to filter out rules
rules = orange.AssociationRulesSparseInducer(items, support = 0.1) 
for r in rules:
    print "%5.3f %5.3f %s" % (r.support, r.confidence, r)

لمعرفة المزيد عن قواعد الجمعيات / التعدين المتكرر للبند ، فإن اختياراتي للكتب هي:

لا يوجد طريق قصير.





data-mining