java - كيف يمكنني تحديد أفضل توزيع مناسب في جافا؟




math statistics (4)

إذا كان كل ما تحتاجه للتوزيع هو أن نموذج البيانات التي قد عينات، يمكنك جعل التوزيع الخاص بك استنادا إلى البيانات لديك:

1. إنشاء رسم بياني من عينتك: طريقة واحدة لاختيار حجم بن هنا . هناك طرق أخرى لاختيار حجم بن، والتي قد تفضلها.

2. اشتقاق عينة سدف : التفكير في الرسم البياني كما بدف الخاص بك، ومجرد حساب التكامل. ربما يكون من الأفضل أن يتم توسيع ارتفاع الصناديق بحيث يكون ل سدف الخصائص الصحيحة ... وهي أن قيمة سدف في + إنفينيتي هي 1.0.

لاستخدام التوزيع لأغراض النمذجة:

3. رسم X من التوزيع الخاص بك: جعل رسم Y من U (0،1). استخدام البحث العكسي على سدف الخاص بك من قيمة Y لتحديد X مثل سدف (X) = Y. منذ سدف هو عكس، X هو فريد من نوعه.

https://code.i-harness.com

لدي مجموعة من البيانات (بين 50 إلى 500 نقطة، يمكن لكل منها أن تأخذ قيمة متكاملة إيجابية) وتحتاج إلى تحديد أي توزيع يصفها بشكل أفضل. لقد فعلت هذا يدويا لعدة منهم، ولكن تحتاج إلى أتمتة هذا المضي قدما.

بعض مجموعات هي مشروط تماما (كل مسند له قيمة 15)، وبعضها مشروط بقوة أو ثنائية النسق، وبعضها منحنيات الجرس (غالبا ما تكون منحرفة ومع درجات مختلفة من التصلب / نقطة)، وبعضها مسطح تقريبا، وهناك أي عدد من التوزيعات المحتملة الأخرى (الحيازة، السلطة القانون، الخ). أنا بحاجة إلى طريقة لتحديد أي توزيع يصف أفضل البيانات و (مثالي) أيضا يوفر لي مع مقياس اللياقة البدنية حتى أعرف مدى ثقة أنا في التحليل.

وستكون مكتبات المصادر المفتوحة الموجودة مثالية، تليها خوارزميات موثقة جيدا يمكنني أن أطبقها بنفسي.


البحث عن التوزيع الذي يناسب من غير المرجح أن تعطيك نتائج جيدة في غياب بعض المعرفة الأولية . قد تجد التوزيع الذي من قبيل الصدفة هو صالح جيد ولكن من غير المرجح أن يكون التوزيع الأساسي.

هل لديك أي بيانات وصفية متاحة من شأنها أن تشير إلى ما تعني البيانات؟ على سبيل المثال، "هذه هي البيانات المفتوحة من عينات من السكان الطبيعي، لذلك هو نوع من التوزيع الطبيعي"، مقابل "هذه البيانات محصورة بطبيعتها في 0 ومتميزة، لذلك تحقق من أفضل بواسون المناسب".

أنا لا أعرف من أي حل يحل محل جافا من أعلى رأسي، وأنا لا أعرف من أي أن تخمين أي توزيع للاستخدام. يمكنك فحص بعض الخصائص الإحصائية (الانحراف / الخ)، وجعل بعض التخمينات هنا - ولكن من المرجح أن ينتهي بك الأمر المناسب بشكل غير مقصود الذي لا يمثل بشكل كاف التوزيع الأساسي. البيانات الحقيقية هي صاخبة وهناك فقط درجات كثيرة جدا من الحرية إذا كنت لا تعرف حتى ما التوزيع هو.


قد يكون هذا أعلى مما تريد القيام به، ولكن يبدو أن النهج الأكثر اكتمالا (ويسمح بالوصول إلى ثروة المعرفة الإحصائية المتاحة داخل R):

  1. استخدام جري للتواصل مع اللغة الإحصائية R
  2. استخدم R، داخليا، كما هو موضح في هذا الموضوع

لقد سمعت من حزمة تسمى يوريكا التي قد تملأ مشروع القانون بشكل جيد. لقد قمت بتحميله فقط. لم أحاول ذلك بنفسي بعد.





statistics