خبرنامه شماره ۴۷ انجمن آمار ایران
خبرنامه شماره ۴۷ انجمن آمار ایران منتشر شد.برای دریافت فایل آن در اینجا کلیلک کنید٠
خبرنامه شماره ۴۷ انجمن آمار ایران منتشر شد.برای دریافت فایل آن در اینجا کلیلک کنید٠
كاربرد روش پاسخ تصادفي در به دست آوردن داده هاي كمي
مترجم: محمد رضا ربیعی[1]
چکیده:
مقدمه :
امتناع ورزيدن از پاسخ و دادن اطلاعات غلط از روي عمد به عنوان دو منبع اصلي خطاي بدون نمونه گيري، مشخص هستند كه مي تواند نمونه مضر را در بررسي هاي شامل جامعه بشري بر آورد كند.ارائه چنين پاسخهاي طفره آميز هنگاميكه پاسخ دهندگان در باره موضوعات گيج كننده يا حساس پرسش مي شوند بسيار متداول تر است.
وارنر ] 9[ يك روش مصاحبه اي براي كاهش يا حذف اين زيان طراحي نمود. او اين روش را پاسخ تصادفي ناميد، زيرا شركت كننده در تحقيق ، به سئوالي كه به طور تصادفي از يك يا چند سئوال انتخاب مي كند، پاسخ مي دهد و اين عمل را به طريقي انجام مي دهد كه مصاحبه كننده نمي داند كه به كدام سئوال پاسخ داده است .وارنر موردي را در نظر گرفت كه در آن يك نسبت p از جامعه ( فرض كنيد گروهA) چند خصوصيت حساس داشتند، در حاليكه بقيه اي نسبت از جامعه آن خصوصيت حساس را نداشتند هدف بر آورد p بود. با كمك يك ابزار تصادفي، پاسخ دهنده ها به طور تصادفي يكي از عبارات زير را انتخاب مي كند.
(من عضوي از گروه A هستم)
( من عضوي از گروه A نيستم)
وپاسخ بله يا خير به هر كدام از دو عبارتي كه انتخاب مي شود، مي دهد.مصاحبه كننده ها نمي داند كه پاسخ، به كدام سئوال اشاره مي كند، در حقيقت، براي حفظ حريم شخصي پاسخ دهنده، او نبايد تمايل به دانستن داشته باشد.
مزيتي كه بر روش پاسخ تصادفي حاكم است، اين است كه از آنجايي كه پاسخ دهنده مي تواند بدون آشكار ساختن موقعيت شخصي خود به سئوال پاسخ دهد، اضطراب و بد نامي بالقوه حذف شده است: و در اين فرايند، يك دليل براي امتناع ورزيدن از پاسخ يا يك پاسخ غلط از بين رفته است. اگر پاسخ دهندگان كاملا مطمئن باشند كه اصلاً نيازي به پنهان كردن واقعيت وجود ندارد. اين امر به همكاري پاسخ دهنده و اعتبار پاسخ هاي او بهبود خواهد بخشيد.
آبول- الا[2][3[ مدل وارنر را به مورد سه حالتي طراحتي شده بسط داد تا نسبت هايي از سه رابطه و گروه هاي منحصراً دو طرفه را بر آورد كنند كه يك يا دو از آن ها داراي يك خصوصيت حساس بودند.اين مدل براي بر آورد هر نسبت j (j>3) ، زماني كه تمام خصوصيت هاي گروه
j منحصرا دو طرفه بوده و حداقل يك و حداكثر j-1 تا از آنها حساس هستند، بيشتر گسترش يافت.دليل اين بسط فراهم كردن نظريه اي براي موقعيت چند گانه اي است كه اغلب يافت مي شود و شايد كمي واقع گرايانه تر از دو حالتي بودن باشد.
توسعه اخير ديگر در روش پاسخ تصادفي ، مدل سئوال نامرتبط است. روش وارنر دو سئوال يا عبارت را در نظر مي گيرد كه هر دو به خصوصيت حساسي مرتبط مي باشند.روش نامرتبط حالتي بود كه اطمينان از پاسخ ها با توجه به مجهول بودن روش، در صورتي كه دو سئوال نامرتبط استفاده مي شد، افزايش پيدا مي كرد، كه يكي از سئوالها مربوط به خصوصيت حساس و ديگري مربوط به خصوصيت غير حساس بود.
آبول – الا اين مدل را در ] 2[ توصيف كرد، هورويتز ] 7[ بيشتر روي آن كاركرد و نتايج دو تحقيقي را كه از دو سئوال نامرتبط استفاده كردند، ارائه داد.گرين برگ ] 4[ در مورد جنبه هاي نظري روش سئوال نامرتبط تحقيق كرد و آن را با مدل اصلي وارنر مقايسه كرد.آنها نتيجه گرفتند كه روش سئوال نا مرتبط نسبت به مدل اصلي كارآمدتر بود و آن را براي استفاده عمومي معرفي كردند.انشعابات ديگر روش پاسخ تصادفي رايج توسط محققان و ديگران آورده شده است مانند دو امتحان در هر پاسخ ]6[ و داشتن سئوال غير حساس كه با ابزار تصادفي كننده ساخته مي شود[5[ .
يكي از ابزارها مانند وسيله زير، يك توپ قرمز را از جعبه اي كه حاوي توپ هاي قرمز، سفيد، و آبي است انتخاب مي شود ، با امتحان P1 كه اين سئوال حساس نياز دارد كه پاسخ داده شود انتخاب مي كنيم.انتخاب يك توپ سفيد يا آبي كه به ترتيب با احتمالات P2 وP3 انتخاب مي شوند، به دستور العملي براي پاسخ دادن با بله يا خير اشاره دارند.بنابر اين، سئوالي كه نامرتبط ناميده مي شود. هم اكنون مقدار مورد انتظار معلومي دارد ، كه pY نام دارد و برابر است با ( P3+ P2)/ P2
تا كنون عملا همه تحقيقات درباره پاسخ تصادفي با تصحيح روش مورد استفاده با سئوالاتي در زمينه كيفي كه فقط به پاسخ بله يا خير نياز دارند فعاليت كرده اند.نيازي نيست اين روش فقط به داه هاي مقياس اسمي محدود شوند اين روش كاربرد وسيعي در زمينه پاسخ كمي داردو تحقيق به سمت استفاده اين روش هدايت مي شود.
هدف اين مقاله ارائه نتايج از قبيل تلاش در به دست آوردن داده هاي كمي روي يك موضوع بسيار حساس ( شكست) و روش موضوعاتي كه بايد به طور متوسط حساس تلقي مي شود( در آمدهاي رئيس خانواده) مي باشد تاكيد روي مشتق روش هاي بر آورد مربوط به ميانگين و واريانس توزيع مي باشد. داده هاي كه در تحقيق شكست كاروليناي شمالي گرد آوري شد، در [1] توصيف شده و به طور خلاصه در اين جا مرور شده است.
مطالعه سقط جنين در كاروليناي شمالي به منظور بر آورد سرعتهاي شكست اجباري در يك منطقه شهري ، روش پاسخ تصادفي را به صورت وسايل جمع آوري اطلاعات روي موضوعات حساس ، تنظيم و ارزيابي مي كند. چهار نمونه احتمال از زنان بزرگسال از پنج منطقه مر كزي از كاروليناي شمالي انتخاب شدند. جمعيت اين شهرها از 000/100 تا 000/250 نفر متفاوت بود.
هر نمونه براي يك هدف ويژه اي انتخاب شدند. هر دو نمونه سن و تعداد پاسخ دهندگان ميان نمونه ها بر اساس اين هدف كه براي كدام نمونه انتخاب شده بودند فرق ميكرد. دو تا از چهار نمونه براي به دست آوردن داده هاي كمي روي سقط و در آمد استفاده مي شد. ابزار پاسخ تصادفي، يك جعبه مهره دار روشن پلاستيكي بود كه تقريباً چهار اينچ طول، سه اينچ عرض و يك اينچ عمق داشت.
ابزاري كه در امتحان سقط جنين استفاده مي شود دو سئوال داست كه روي سرپوش جعبه چاپ شده بود :
1)شما در طول دوران زندگي خود متحمل چند سقط شديد؟
2) اگر زني مجبور باشد تمام مدت براي امرار معاش كار كند، شما فكر مي كنيد او بايد چند فرزند داشته باشد؟
اولين سوال توپ قرمز كوچكي داشت و سئوال دوم توپ آبي داشت كه در مكاني كه به وسيله شماره ها (1)و (2) در سئوالاتي كه فهرست شدند درگير شده بود متصل شدند.
از پاسخ دهنده خواسته شد تا جعبه را با حركت آزادانه توپ در سراسر آن تكان دهد و جعبه را كج كند بطوريكه يكي از توپها بالا رود و در روزنه اي كه براي پاسخ دهنده قابل رؤيت بود ظاهر شود. رنگ توپي كه در پنجره ظاهر مي شد مشخص مي كرد كه پاسخ دهنده به كدام يك از دو سئوال پاسخ مي دهد. اگر توپ قرمز ظاهر شود، او به سئوالي كه در جلوي آن توپ قرمز قرار داشت (شكست) جواب مي داد، اگر توپ آبي ظاهر مي شد، او به سئوالي كه توپ آبي در جلوي آن قرارمي گرفت( تعداد فرزندان) پاسخ مي داد. مصاحبه كننده در فاصله دور تري از پاسخ دهنده بود و البته نمي دانست كه كدام سئوال توسط ابزار تصادفي انتخاب شده است.
جواب پاسخ دهنده فقط يك عدد بود، بدون تعيين اينكه پاسخ، به كدام سئوال اشاره مي كند. براي جلوگيري از مشخص شدن سئوال، جعبه دوباره قبل از باز گرداندن آن به مصاحبه كننده ها تكان داده مي شد دو نمونه مستقل رده بندي شده از زنان 31 ساله يا بزرگتر از جامعه طراحي شدند. اندازه كلي نمونه به طور مطلوب به دو نمونه اي كه در] 4 [بحث شد، براي توليد بر آورد كمترين واريانس پارامترها نسبت به آنهايي كه كه در اينجا مد نظر قرار گرفته اند، اختصاص داده شد. اندازه هاي دو نمونه n1 وn2 ، به ترتيب 623و 287 بودند روش استفاده شده در امتحان براي در آمد به دست آمده براي آنچه كه براي مطالعه سقط جنين توصيف شد، يكسان بود.
پاسخ دهندگان، همان گروه زناني كه به مجموعه سئوالات سقط پاسخ مي دادند، نبودند آنان يك نمونه مستقل از 1628 زن 18 ساله يا بيشتر از مناطق مر كزي شهري ، با اندازه نمونه n1 وn2 كه به ترتيب برابر با 1040 و 588 بودند، معرفي كردند سئوالات در آمد به ترتيب زير بود:
1) رئيس خانواده سال گذشته در حدود چند دلار پول به دست آورد؟
2) شما فكر مي كنيد رئيس خانواده به طور متوسط در يك سال در حدود چند دلار پول به دست مي آورد؟ (پاسخ به اين سئوالات مجموع پول بود.)
در مدل كمي كه از دو سئوال استفاده مي كنند، توزيع كلي پاسخها از جوابهاي عددي به هر دو سئوال تشكيل مي شود كه پاسخها براي سئوالات متفاوت هستند.
بنابر اين، اين توزيع، مخلوطي از دو توزيع خالص مي باشد كه بايد از نظر آماري به فراهم كردن بر آوردهاي معنا دار از پارامترهاي مطلوب بدست آوردن ميانگين جامعه از هر دو توضيح حساس و غير حساس به ترتيب
فرض مي كنيم دو نمونه مستقل با اندازه نمونه n1 و n2 در اختيار داريم خواهيم داشت:
Pi = احتمال اينكه سئوال حساس به وسيله پاسخ دهنده در نمونه P1¹P2. ،) 2و1 =i ) i انتخاب شود.
Pi 1- = احتمال اينكه سئوال غير حساس به وسيله پاسخ دهنده در نمونه 2) و 1 =i ) i انتخاب شود.
Zij = پاسخ از فرد j ام در نمونه i ( ni ……و 2و1 = j و 2و1 = i )
( z ) f = احتمال عملي كه با سئوال غير حساس انجام شود
g (Z) = احتمال عملي كه به سوال غير حساس انجام مي شود و شبيه (z ) f با توجه به دامنه پاسخ مي باشند
احتمال عمل هر فرد در يك نمونه به ترتيب زير است.
نمونه1: ، (Z1 )g(p1 -1) +( Z1)P1f =(z1 ) Y1
( 1-3 ) نمونه2: . ) Z2) g (P2 – 1 ) + (Z2 ) f P2 = (Z2 ) Y2
پس
(2-3 )
در حاليكه
با جايگزيني
(3-3 )
با داشتن واريانس
(4-3)
در حاليكه
مي دهد:
(3-5)
بر آورد كننده هاي (3-3) ارزش ساده شدن براي ساده شدن براي محاسبات دادههاي نمونه نااريب و توزيع آزاد را دارد كه آنها ميانگينهاي نمونه را كه مهم نيست طبيعت به خصوصf (z) و g(z) چه باشد، را به كار مي گيرند. واريانس بر آورد كننده ها مي توانند به راحتي با استفاده از واريانس نمونه Si2 در ( 4-3) بر آورد شوند.
براي اندازه هاي بزرگتر نمونه، فرد مي تواند به وسيله به كار بردن اعتدال متناسب (3-3) فاصله هاي اطمينان تقريبي را براي
همان طور كه به وسيله وارنر در [10] پيشنهاد شد، اين مدل مي تواند به صورت رگرسيوني رفتار كند و بر آورد كمترين مربعات را بكار گيرد. با در نظر گرفتن (1-3) و
(2-3) ما مدل
وقتي E(U) بر دار صفر و ماتريس واريانس V از U ماتريس خط مورب باشد كه
V( Z1) را براي اولين عنصر n1 در طول خط مورب و (2 Z)V را براي عناصر بعدي 2n در طول خط مورب دارد. بنابر اين كمترين مربعات بر آورد كننده
كه دقيقا بوسيله (3-3) ارائه شده است.
بتابر اين براي (2p و1p) ثابت، (3-3) مجموعه اي از بر آورد كننده هاي خطي نااريب با كمترين واريانس از
(1-3) در مي يابيم كه احتمال L عبارت است از
(3-6 )
اگر ما MLE دو ميانگين را تنها بر اساس يك نمونه ساده جستجو كنيم، حل معادلات MLE باز هم مشكل است ما اين نكته را هم به ذهن مي سپاريم كه ويژگي كمترين واريانس MLE يك ويژگي متناسب است و مربوط به واريانس در توزيع طبيعي ، محدود كنندهMLE مي باشد. و به طور كلي به توالي واريانس براي اندازه هاي بزرگتر نمونه ارتباطي ندارد. بعضي از محققان تاثير (3.3) را به كمترين حد كرامر- رائو روي واريانس يك برآورد كننده نااريب mA نسب داده اند. در مورد اين مطالب در ضميمه بحث شده است.
طرح اوليه بررسي پاسخ تصادفي از سؤالات كمّي استفاده مي كند كه نياز به انتخاب مناسب از P2,P1 انتخاب درست از يك سوال غير حساس Y و تقسيم مناسي اندازه نمونه كلي به n2,n1 دارد.
1-4) انتخاب معيار P2,P1
معيار انتخاب مناسب از احتمالاتي كه با توزيع توپها بطور تصادفي وجود دارد، و در جمع آوري داده هاي كمّي انتخاب مي شود به آن دسته اطلاعاتي كه به وسيله گرين برگ (4) در مطالعه سوالاتي كه يك پاسخ غلط را استنباط مي كنند بسيار شبيه مي باشد.
آزمايش برآوردها براي
تجربه نشان داده است كه نتايج رضايت بخشي مي توانند با انتخاب P1 بين 70/0 و 80/0 يا متمم آنها به دست آيد. اگر مدت min كردن مقدار
نمودار واريانس كه در مقابل P2 رسم شده است در مقايسه P1. اغراق آميز است به ازاي P1 ثابت، همانطور كه P2 به P1 مي رسد واريانس افزايش و با افزايش ½P2-P1½ واريانس كاهش مي يابد. بنابراين، اگر عملا P1 نزديك به صفر يا يك انتخاب كنيم P2=1-P1 انتخاب مي شود با انتخاب P2=1-P1 مقدار
2-4) انتخاب ويژگيهاي غير حساس
مبناي اساسي اين است كه سوالات غير حساس همانند سوال حساس در واحدهاي يكساني از اندازه نوشته شوند به طور مثال، پوند، اينچ يا تعداد دفعاتي كه يك اتفاق روي داده است از يك نقطه نظر، فرد ممكن است اين طور فكر كند كه ميزان احتمال عملكرد پاسخ به دو سوال بايد شامل هيچ كليتي نباشد و پارامترهاي موقعيتي آنها بايد دور از هم باشد.
براي مثال، اگر سوال حساس در اعدادي با ميانگين حدود 50 سنت قابل پاسخ دادن بودند و پرس و جوي غير حساس پاسخهايي با ميانگين حدود 500 دلار داشت، فرد ممكن است اين طور تصور كند كه اين امر مطلوب و ايده آل است زيرا پاسخ فرد حتي نياز به فرمولهاي برآورد هم نخواهد داشت اين امر، خود فرد را گول مي زند زيرا هنگامي كه پاسخ به طور خودكار طبقه بندي يا مشخص شود پاسخ دهنده تمايلي به همكاري ندارد.
هر بار كه P2,P1 طبق معيار پيش بيني گروه فرعي، انتخاب ميشوند، ساير پارامترها
3-4) تقسيم n2,n1
تقسيم فرعي بهينه اندازه نمونه كلي به دو گروه مي تواند بر اساس اصل
كاهش
كه
محاسبه
¢(1-4)
اين امر از اين واقعيت تبعيت مي كند كه هنگامي كه انتخاب P1+P2=1 , P2,P1 را بر آورد مي كند. همان طور كه در بخش (1-4) و ¢(1-4) پيشنهاد شده مي توان به صورت زير دوباره نويسي كرد.
ازاي
از آنجايي كه براي تعيين n1/n2 به وسيله عبارت دقيق (1-4) ما بايد مقدار پارامترهاي جامعه f2,f1 را حدس بزنيم، منطقي است فرض كنيم كه كل فرمول ¢(1-4) مي تواند بهترين مقدار تقريبي را ارائه دهد. (1-4)
4-4) وقتي كه (my,sy) معلوم هستند.
هنگامي كه پاسخهاي دو جمله اي را مطالعه مي كنيم اين مطلب درست است وقتي كه مقدار (my ,sy) براي سوال طبيعي به طور گسترده معلوم است تحقيقات مي تواند به طور موثرتري ظاهر شود. در به كار بردن اين اصل براي پاسخهاي كمّي، سوال دوم، ممكن است تعداد افرادي باشد كه در يك خانه زندگي مي كنند. در حالي كه متوسط اندازه خانواده از طريق بعضي سرشماري يا ساير منابع معلوم است، هنگامي كه مقدار (my ,sy) معلوم است، نيازي به دو نمونه نيست.mA و واريانس آن هنگامي كه (my ,sy) معلوم هستند، به صورت زير ارائه مي شود.
در اين دو نوع جمله اي، كاهش بسيار چشمگيري در واريانس پارامترهاي mA هنگامي كه (my ,sy)شناخته شده هستند وجود دارد.
5. مثال هاي عددي
1-5) سقط جنين و تعداد فرزندان
داده هايي از بررسي سقط جنين در كاروليناي شمالي براي تشريح روشهاي برآورد استفاده مي شود. اين بررسي طراحي شده بود، تا ميانگين تعداد سقط ها ((mA در زندگي يك فرد و ميانگين تعداد فرزنداني ((my كه يك زن اگر مجبور باشد تمام مدت براي امرارمعاش كار كند فكر مي كند بايد داشته باشد را برآورد مي كند كه بوسيله رقابت طبقه بندي ميشوند.
واريانسهاي برآورد شده از همه چهار بر آورد نيز طراحي شده بودند. در اين تحقيق احتمال P سؤال حساس كه بوسيله پاسخ دهنده انتخاب شده بود (سقط جنين) نسبت توپهاي قرمز به كل توپها در جعبه پلاستيكي در نمونه اول 7/0 و در نمونه دوم 3/0 بود. توزيعهاي پاسخها براي هر نمونه، بوسيله رنگ، در جدول 10 نشان داده شده است كه به وسيله برآوردهاي پارامترها در جدول (1- ب) دنبال مي شود.
مطالعه واريانسهايي كه نشان داده شده اند تحت فرض طرح نمونه تصادفي ساده محاسبه شده است، واضح است كه مقادير برآورده شده mA و my به وسيله رنگ منطقي به نظر مي رسد. براي مثال مطالعه نتايج در اين زمينه به وسيله آبرناتي [1] نشان داد كه سقط در ميان زنان غير سفيد پوست بيشتر متداول بود. همچنين از مشاهده مقادير Z واضح است كه به نظر نمي رسد آنان نمون اي از تركيب خطي دو توزيع باشند كه تابع چگالي احتمال يكساني دارند.
تجاوز از مقدار 0 و 2 مي تواند چند گروهبندي ويژه اي را توسط پاسخ دهندگان پيشنهاد كند اگر صحيح باشد. كار بيشتر در تحليل صحيح تحقيق انجام خواهد شد.
2-5) درآمد
جدول 1-الف: بررسي پاسخ به سوالات سقط توسط رنگ و نمونه در كاروليناي شمالي در سال 1968
|
تعداد پاسخ ها |
مقدار Z | |||
|
نمونه دوم |
نمونه اول | |||
|
غیر سفید |
سفید |
سفید |
سفید | |
|
56 |
114 |
130 |
304 |
0 |
|
8 |
10 |
22 |
14 |
1 |
|
17 |
30 |
39 |
56 |
2 |
|
2 |
6 |
9 |
10 |
3 |
|
5 |
1 |
8 |
7 |
4 |
|
2 |
1 |
- |
2 |
5 |
|
1 |
- |
- |
- |
6 |
|
9 |
25 |
9 |
13 |
ناشناخته |
|
100 |
187 |
217 |
406 |
کل |
|
923/0 |
599/0 |
764/0 |
494/0 |
|
جدول 1b: بررسي برآورده هاي ميانگين و انحراف معيار از مجموعه سوالات سقط، توسط رنگ در كاروليناي شمالي در سال 1968
خانواده و ميانگين درآمد سرپرست يك خانواده در حد شما در جدول 2 با مولفه رنگ نشان داده شده است.
فرض مي شود كه واريانسهاي برآورد شده يك نمونه تصادفي ساده طراحي نيز ارائه مي دهند، اين برآوردهاي درآمد نيز بخصوص براي جامعه تحت مطالعه، منطقي به نظر ميرسد، درآمدهاي غير سفيد پوستان، به طور قابل ملاحظه اي همانطور كه انتطار مي رفت كمتر از سفيد پوستان مي باشد. بعلاوه هر دو رقابت پايداري اقتصادي سرپرست خانواده در حد متوسط را به صورت ارجح تر به تصوير مي كشاند. البته اگر همانطور كه به نظر مي رسد پاسخ دهنده تمايل به ايجاد مقايسات درون گروهي (نژاد خود)داشته باشد. ممكن است اين امر مورد انتظار بوده باشد و در طبيعت بشري متداول تفسير شود. به نظر مي رسد كه سند قابل ملاحظه اي در نوشته ها روي بررسي هاي درآمد وجود داشته باشد كه پاسخ دهندگان به سوالات، تمايل به دانستن درآمد دارند.
اگر درآمد سرپرست يك خانواده متوسط به نزديك شدن صحيح پاسخ دهنده تفسير شود نتايج شامل چنين پديده اي مي شود.
جدول 2) برآورد هاي ميانگين و انحراف معيار در مجموعه اي از سوالات توسط مولفه رنگ در كاروليناي شمالي در سال 1968
روش پاسخ تصادفي براي متغير پيوسته كه آيا واقعا اين روش، مقدار مورد نظر درآمد را كاهش مي دهد يا نه، نياز به مطالعه بيشتري دارد. پاسخ تصادفي نسبت رد پاسخ درآمد را كاهش مي دهد با اين وجود حدود كمتر از 3 درصد بود خوب است توجه كنيم كه كمتر از يك درصد، از پاسخ دادن به سوال مربوط به سقط، سرباز زدند.
6. خلاصه
توسعه روش پاسخ تصادفي از زمان شروع آن به صورت يك روش تحقيقي براي كاهش پاسخ غلط در سوالات حساس براي نشان حالتي از مهارت به طور اريب، امتحان شد.
تلاشهايي براي گسترش اين روش براي سوالاتي انجام شد كه پاسخهاي كمّي را نسبت به پاسخهاي كيفي استنطاق مي كرد.
نظريه اي جهت گردآوري اطلاعات، كاربرد كمّي روش پاسخ تصادفي را مورد تاكيد قرار مي دهد كه براي هدفي در بررسي اخير سقط در كاروليناي شمالي ارائه مي شود. برآوردها و واريانسهاي ميانگين سقط هاي يك جامعه شهري از زنان در طول زندگيشان بدست آمده و ميانگين درآمد سرپرست خانواده ها گزارش شده است.
ضميمه: (كارايي برآورد كنندگان)
درهر يك از پارامترها در (1-3) قرار دهيد.
مقدار مورد انتظار هر دوره توليد صفر مي شود. اگر zij مستقل باشد داريم:
A.1 : توزيع هاي پواسون با پارامترهاي
به وسيله(3.5) خواهيم داشت:
مساوي، تاثير E ، عملكرد (P1,P2) و پارامتر نسبت مي باشد. جدولA2 چند نتيجه را در اين مورد ارائه مي دهد.
كه n1=n2
از(A7) و (3.4) ، را خواهيم داشت. وقتي كه اندازه دو نمونه يكسان باشند. تاثير نتايج به دست آمده از
آزمايش تاثير بر آورد ها در (3.3) در ارتباط با قانون كرامر- رائو با سه توزيع نرمال، نمايي و پواسون چند نكته در طراحي تحقيقات آينده ارائه مي دهد.
هر سه توزيع نشان مي دهند كه ماكسيمم، اثر زماني به دست مي آيد كه پارامتر گرايش به مركز و واريانس در خصوصيت غير حساس باشند سطح واقعي تاثير %2/95 زماني بالاست كه P2=0.9 يا P1باشد. اما اين مقادير بالا از Pi عملي نيستند.در محدودهاي كه مقادير Pi بالاست، اما هنوز تمايل به قابل قبول بودن دارد، يعني در حدود 8/. و 2/. مي باشد، تاثير 78% است. تاثيري كه ما مد نظر قرار داده ايم متناسب با قانون كرامر- رائو مي باشد.
رفتار اين تاثير مربوطه در مورد حداكثر احتمال بر آورد كننده هايي كه از اندازههاي نمونه محدود استفاده مي كنند براي فرد مجهول است.
در حالت دو جمله اي، آبول- الا(2) توضيح داد كه بر آورد كننده هاي (3-3) همان MLE مي باشند. و در تحقيق در اين مورد، مشابه قسمتهاي قبلي كه نشان داده شده اند . نتايج بسيار نزديكي داشته است.
براي مثال، براي هرn1=n2 زماني كه
براي هر كدام از مقادير جدول (P1,P2) ، اثر
مي كند تا يكي از
در حقيقت، در مورد دو جمله اي نيز در قسمتهاي فرعي A.1 و A.2 و A.3 . ساختار6 در
يعني
تجزیه و تحلیل میانگین درجه حرارت ماهانه
(مطالعه موردی شهرستان قائمشهر)
محمد رضا ربیعی[1]، محمد طالبی[2]، علی جعفرپور[3]
چکیده:
یکی از مهمترین تحقیقات آماری در زمینه هواشناسی بررسی تغییرات دما در یک ناحیه و در دوره ای خاص می باشد. نتایج این تحقیقات می تواند کمک بسزایی در برنامه ریزی و تصمیم گیری کشاورزان و مدیران عرصه کشاورزی آن منطقه داشته باشد.
میانگین درجه حرارت ماهانه هر منطقه یکی از مهمترین شاخصهای دمای آن منطقه است . سعی ما در این تحقیق بر آن است که با بررسی میانگین درجه حرارت ماهانه شهرستان قائمشهر ، این شاخص را برای ماه های سالهای آتی پیش بینی کنیم.
داده های این تحقیق از سازمان هواشناسی استان مازندران جمع آوری شده است.این داده ها شامل میانگین درجه حرارت ماهانه شهرستان قائمشهر در یک دوره 24 ساله طی سالهای 1359 تا 1382 شمسی می باشد. تجزیه و تحلیل داده های بدست آمده با استفاده سری های زمانی و توسط نرم افزار Minitab انجام شده است.
پس از تجزیه و تحلیل سری میانگین درجه حرارت ماهانه این شهرستان این شاخص را برای24 ماه سال 1382و 1383 پيش بيني کرده ایم.
واژگان کلیدی: میانگین درجه حرارت ماهانه، سری زمانی، Minitab.
1. مقدمه
محیطی که در آن زندگی می کنیم، مجموعه ای از عوامل گوناگون از جمله پدیده های مربوط به وضعیتهای جوی و آثار اقلیمی است. برای تامین زندگی بهتر و تولید بیشتر در بخشهای مختلف بخصوص بخش کشاورزی که بسیار دستخوش تغییرات و رخدادهای جوی است باید به دانش هواشناسی و کاربرد آن توجه بیشتری داشت.
دما بعنوان شاخصی از شدت گرما یکی از عناصر مهم تاثیر گذار بر پدیده های جوی است . چنانکه مشهود است تغییرات دما تاثیر مستقیم بر زندگی روزمره بشر دارد و اختلال در این مقوله کار ها را دشوار می کند و گاهی خسارتهای جبران ناپذیری نیز به بار می آورد. برای مثال کاهش دما در اوایل فصل بهار هر از چند گاه به باغهای میوه و مرکبات کشور خسارت وارد می کند و یا کاهش نزولات جوی در بسیاری از کشورها موجب خشکسالی می گردد که استرالیا یک نمونه از این کشورهاست که اين چند سال اخیر با این مشکل دست به گریبان است .
برای ایمن ماندن از این وقایع و مقابله با آن واتخاذ تصمیمات اصولی برای مدیریت بحران و نیز آمادگی برای رویا رویی با اینگونه حوادث چه باید کرد و چگونه می توان از عواقب آن در امان باشیم ؟پیش بینی اینگونه حوادث برای آینده از طریق اطلاعاتی که در سالهای گذشته جمع آوری شده است می تواند کمک بسزایی در حل این مشکل باشد.
سری های زمانی یکی از شاخه های علم آمار است که برای پیش بینی آینده براساس آنچه در گذشته ثبت و ضبط گردیده است ،کاربرد فراوان دارد. سریهای زمانی برای درک، توصیف، کنترل و پیش بینی بهتر فرایند زیربنایی تحلیل می شوند و بدیهی است چنانچه وابستگی خاصی میان داده ها در طول زمان وجود داشته باشد، فرصت مناسبی پیش می آید که به کمک آن مشاهدات بتوان روند آینده پدیده ای را پیش بینی کرد.
اهمیت و کاربرد تحقیقات در زمینه هواشناسی ما را برآن داشت تا به تحلیل سری زمانی مربوط به میانگین درجه حرارت ماهانه قائمشهر طی24 سال(1359 تا 1382) بپردازیم و در صورت امکان با اطلاعات موجود و با استفاده از ویژگی وابستگی بین داده ها، میانگین درجه حرارت ماهانه این شهرستان را در ماه های آتی پیش بینی کنیم.
2. جمع آوري داده ها:
داده های این تحقیق که از پایگاه هواشناسی قراخیل شهرستان قائمشهر به سازمان هواشناسی استان مازندران واقع در شهرستان ساري مخابره شده، جمع آوری شده است. داده ها مربوط به میانگین درجه حرارت ماهانه شهرستان قائمشهر می باشد که با استفاده از فرمول زیر محاسبه می گردد.
/2(ميانگين حداكثر دمای ماهانه[4]+ ميانگين حداقل دمای ماهانه[5]) = ميانگين درجه حرارت ماهانه
3-تحليل سري زماني مربوط به ميانگين درجه حرارت ماهانه
3. 1 تشخيص مولفه هاي روند و تغييرات فصلي
اولين قدم در تحليل سري زماني رسم نمودار سري ميانگين درجه حرارت (Xt) در مقابل ماه هاي سال (t ) مي باشد (نمودار 1). به نظر مي رسد كه واريانس مشاهدات با پيشرفت در ماه تغير نمي كند ولي وجود يك روند ضعيف رو به بالا در ميانگين سري مشاهده می شود بنابراين سري ميانگين درجه حرارت ماهانه يك سري ناماناي در روند مي باشد. همچنین طول دوره تغيرات فصلي ميانگين درجه حرارت ماهانه 12 مي باشد.
(نمودار 1)
همچنين در اين نمودار وجود تغيرات فصلي براي ميانگين درجه حرارت ماهانه ، را مي توان تشخيص داد. اما مهمتر از همه تشخيص طول دوره تناوب تغيرات فصلي براي ميانگين درجه حرارت ماهانه است ، كه از اين نمودار بنظر مي رسد كه طول دوره تغيرات فصلي ميانگين درجه حرارت ماهانه 12 مي باشد.
(نمودار2)
علاوه بر نمودار سري زماني مي توان بوسيله همبستگي نگار مشاهدات اوليه ، به وجود روند و تغيرات فصلي در سري ميانگين درجه حرارت ماهانه نيز پي برد (نمودار 2). با توجه به این نمودار وجود يك روند ضعيف در سري مشاهدات میانگین درجه حرارت ماهانه بار ديگر تاييد مي شود. همچنین مشاهدات سري زماني داراي اثر فصلي مي باشند، يعني میانگین درجه حرارت ماهانه بصورت سينوسي با طول دوره ي تناوب 12 ماه نوسان مي كند که اين ، نامانا بودن سري مربوط به ميانگين درجه حرارت، در اثر فصلي را تاييد مي كند.
3. 2 تجزيه سري ميانگين درجه حرارت ماهانه به مولفه هاي فصلي ، روند و تغييرات نا منظم
همانطور كه در بخش3. 1 نتيجه شد ،سري زماني مربوط به میانگین درجه حرارت ماهانه داراي سه مولفه روند (
نمودار سري زماني واقعي به همراه سري زماني برازش داده شده و نيز خط روند برازش داده شده ، در نمودار(3) نمايش داده شده است.
(نمودار 3)
چهار شكل موجود در نمودار (4) تجزيه سري به مولفه ها را تحت يك مدل جمعي[6] نشان مي دهد كه عبارتند از : نمودار سري میانگین درجه حرارت ماهانه[7] ، نمودارسري مشاهدات بدون مولفه روند[8]، نمودار مقادير تعديل شده نسبت به مولفه فصلي[9] و نمودار سري بدون روند و نيز تعديل شده نسبت به مولفه فصلي ( باقیمانده ها)[10] ، مي باشد.
نمودار(4)
. همچنين در مجموعه نمودار هاي(5) به ترتيب نمودارهای زیر رسم شده اند:
نمودار شاخص هاي فصلي[11] : همان طور كه اين نمودار نشان مي دهد، اثر فصلي ماه های اردیبهشت، خرداد، تیر، مرداد ، شهریور و مهر بر میانگین درجه حرارت ماهانه يك اثر مثبت است. برعكس اثر ماه هاي آبان، آذر، دي، بهمن، اسفند و فروردین بر میانگین درجه حرارت ماهانه يك اثر فصلي منفی است. از مقدار شاخص هاي به دست آمده در مي يابيم كه بزرگترين اثر فصلي منفي بر میانگین درجه حرارت ماهانه بهمن ماه مي باشد كه برابر «
Seasonal Indices Period Index 1 -3.20208 2 1.73125 3 6.31042 4 8.61042 5 9.78542 6 7.88542 Seasonal Indices Period Index 7 3.06042 8 -1.67708 9 -6.15625 10 -8.80625 11 -9.66250 12 -7.87917
نمودار جعبه اي براي سري بدون روند[12]: اين نمودار نشان دهنده چگونگي توزيع سري ميانگين درجه حرارت (
نمودار جعبه اي براي باقيمانده ها (تغييرات نامنظم)[13] : چگونگي توزيع باقيمانده هاي مربوط به سري ميانگين درجه حرارت (
نمودار درصد پراكندگي میانگین درجه حرارت براي پريود فصلي[14] : اين نمودار نشان دهنده درصد تغييرات سري در هر ماه از يك سال مي باشد. اين نمودار نيز بيشترين درصد پراكندگي براي ميانگين درجه حرارت ماهانه را در ماه مهر و كمترين آن در تيرماه ، نشان مي دهد.
نمودار(5)
3. 3 حذف تغيرات فصلي و روند از سري ميانگين درجه حرارت
الف) حذف اثر فصلي از سري نمودار سري زماني اين مشاهدات تفاضلي شده با تاخير 12 همراه با يك خط روند برازش داده شده، در نمودار (6) رسم شده است. با حذف مولفه فصلي از سري، اين مشاهدات تنها دارا ي دو مولفه روند در ميانگين و تغيرات نامنظم مي باشند .
(نمودار6)
مدل روند خطي Yt = -0.16 +0.00099*t كه به روش كمترين مربعات به اين سري از مشاهدات برازش داده شده بيانگر وجود يك روند ضعيف روبه بالا در ميانگين درجه حرارت ماهانه مي باشد. دليل برازش يك مدل خطي به اين سري از مشاهدات را مي توان مناسب بودن اين مدل با توجه به نمودار سري زماني آنها دانست. البته مي توان از معيارهای درستي[15] MAPE و MAD و MSD نيز براي مشخص كردن صحت برازش استفاده كرد.
ب) حذف روند در ميانگين سري
با يك بار تفاضلي كردن با تاخير يك از سري بدون تغيرات فصلي مربوط به ميانگين درجه حرارت به سري اي دست مي يابيم كه معادله ي خط روند برازش شده به آن Yt = 0.0125 + 0.000025*tمي باشد .ضريب زاويه ي اين خط بيانگر حذف مولفه ي روند در ميانگين از سري مذكور ، تاحدود زيادي مي باشد.(نمودار 7)
(نمودار 7)
انجام تفاضلي با تاخير يك براي بار دوم باعث به وجود آمدن روندي قوي تر در سري مي گردد، و اين چيزي است كه از معادله ي خط روندYt = -0.016 + 0.000094*t در مي يابيم. اين خط به سري حاصل از تفاضلي دوم با تاخير يك برازش داده شده است.(نمودار 8)
(نمودار 8)
بنابراين يك بار تفاضلي كردن با تاخير يك تا حد امكان مولفه ي روند را از سري فاقد تغيرات فصلي مربوط به ميانگين درجه حرارت ، حذف مي كند. در نهايت سري اي كه باقي مي ماند ، يك سري ايستا است كه تنها داراي مولفه ي تغيرات نامنظم مي باشد.(نمودار 8)
3. 4 برازش مدل كليARIMA به سري میانگين درجه حرارت ماهانه
همان طور كه مشاهده شد، سري زماني مربوط به ميانگين درجه حرارت ماهانه در شهرستان قائمشهر، يك سري ناماناي در روند و اثر فصلي مي باشد، لذا براي پيش بيني درجه حرارت در ماه هاي آتي بايد يك الگوي فصلي كليARIMA(p[16],d[17],q[18],P[19],D[20],Q[21]) را برازش داد.
براي برازش يك مدل فصلي مناسب ARIMA بايد شش پارامتر p,d,q,P,D,Q مدل را به طور مناسب انتخاب كنيم.
الف) تعيين مرتبه ميانگين متحرك فصلي و غير فصلي (Qوq)
با توجه به مقادیر آماره t و نمودار تابع خود همبستگی سری اي كه تنها داراي مولفه تغييرات نامنظم است (سري باقیمانده ها)، مشاهده می کنیم که فرض صفر بودن
نمودار(9)
ب) تعیین مرتبه اتو رگرسیو فصلی و غیر فصلی(P,p)
در نمودار(10) مقادیر آماره tو
نمودار(10)
بنابر آنچه که حاصل شد مدل پیشنهادی برای سری اولیه ي ميانگين درجه حرارت ماهانه ARIMA(3,1,2;2,1,2) می باشد.(خروجي 1)
Model: Mean Air Temperature (c)
ARIMA model for Mean Air Temperature (c)
Final Estimates of Parameters
Type Coef SE Coef T P
AR 1 -0.7105 0.0695 -10.22 0.000
AR 2 0.1748 0.0816 2.14 0.033
AR 3 -0.0321 0.0668 -0.48 0.631
SAR 12 -0.6679 0.7775 -0.86 0.391
SAR 24 -0.0461 0.0790 -0.58 0.560
MA 1 -0.0234 0.0381 -0.61 0.539
MA 2 0.9353 0.0256 36.50 0.000
SMA 12 0.2706 0.7746 0.35 0.727
SMA 24 0.6057 0.7344 0.82 0.410
Constant 0.002082 0.001457 1.43 0.154
Differencing: 1 regular, 1 seasonal of order 12
Number of observations: Original series 288, after differencing 275
Residuals: SS = 403.059 (backforecasts excluded)
MS = 1.521 DF = 265
Modified Box-Pierce (Ljung-Box) Chi-Square statistic
Lag 12 24 36 48
Chi-Square 7.8 20.9 37.3 45.8
DF 2 14 26 38
P-Value 0.020 0.105 0.070 0.179
خروجي (1)
با توجه به مقدار p-value در ستون p ملاحظه می کنیم که تنها فرضهاي
ARIMA Model: Mean Air Temperature (c)
ARIMA model for Mean Air Temperature (c)
Final Estimates of Parameters
Type Coef SE Coef T P
AR 1 -0.5195 0.0581 -8.94 0.000
AR 2 -0.4433 0.0608 -7.29 0.000
AR 3 -0.2800 0.0583 -4.81 0.000
SAR 12 -0.0141 0.0684 -0.21 0.837
SMA 12 0.9182 0.0463 19.84 0.000
Constant 0.004273 0.009636 0.44 0.658
Differencing: 1 regular, 1 seasonal of order 12
Number of observations: Original series 288, after differencing 275
Residuals: SS = 464.355 (backforecasts excluded)
MS = 1.726 DF = 269
Modified Box-Pierce (Ljung-Box) Chi-Square statistic
Lag 12 24 36 48
Chi-Square 16.9 39.2 53.8 66.4
DF 6 18 30 42
P-Value 0.010 0.003 0.005 0.010
(خروجي2)
بنظر مي رسد الگوی فصلی مناسب برای سری زمانی مربوط به ميانگين درجه حرارت ماهانه ، ARIMA(3,1,0;1,1,1) بدست آمده است و به شکل
با استفاده از آناليز باقيمانده هاي مدل فوق مي توان مناسبت مدل برازش شده ARIMA(3,1,0;1,1,1) را به سري ميانگين درجه حرارت ماهانه شهرستان قائمشهر آزمود. معيارهايي كه مناسبت مدل را تاييد مي كنند شامل : استقلال باقيمانده هاي مدل، نرمال بودن باقيمانده ها، تصادفي بودن مانده ها و در نهايت پايداري واريانس باقيمانده ها مي باشد كه اين ويژگيها را براي باقيمانده هاي مدل برازش شده فوق مي توان در چهار شكل موجود در نمودار (11) مشاهده كرد. كه اين مناسب بودن مدل ARIMA(3,1,0;1,1,1) را براي سري مذكور تاييد مي كند.
نمودار(11).
4. نتایج
اطلاعات این تحقیق از ایستگاه هواشناسی قراخیل قائمشهر جمع آوری شده است . مشخصات جغرافیایی این ایستگاه درجدول زير آمده است.
|
ایستگاه هواشناسی قراخیل قائمشهر |
عرض جغرافیایی |
طول جغرافیایی |
ارتفاع |
|
N 27 36 |
E 46 52 |
M 7/14 |
با تجزیه وتحلیل سری زمانی میانگین درجه حرارت ماهاننه شهرستان قائمشهر، میانگین درجه حرارت ماهانه این شهرستان را برای 24 ماه سالهای 1382و 1383 پیش بینی کردیم.این پیش بینی در خروجی(3) آمده است.برای مقایسه ي بين مقادير پيش بيني شده و واقعي ميانگين درجه حرارت ، مقدار واقعی میانگین درجه حرارت ماهانه سالهای 1382 و 1383 در ستون Actual خروجی(3) آمده است. چنانچه مشاهده می گردد فقط 2 پیش بینی از 24 پیش بینی انجام شده خارج از بازه اطمینان افتاده اند و بقیه پیش بینی ها در فاصله اطمینان 95% قرار دارند.
Forecasts from period 276
95 Percent Limits
Period Forecast Lower Upper Actual
277 13.0622 10.4865 15.6378 11.60
278 18.1441 15.2865 21.0017 16.70
279 22.8905 19.9255 25.8556 22.30
280 25.0163 21.9192 28.1135 25.20
281 26.2018 22.7973 29.6063 25.90
282 24.4192 20.8016 28.0367 25.30
283 19.5193 15.7488 23.2898 21.30
284 14.8021 10.8785 18.7257 16.30
285 9.9386 5.8362 14.0411 11.10
286 7.8657 3.5984 12.1329 9.40
287 7.1455 2.7311 11.5600 10.30
288 8.8393 4.2820 13.3967 10.60
289 15.1210 12.5453 17.6967 13.90
290 19.9697 17.1121 22.8274 18.90
290 19.9697 17.1121 22.8274 22.40
291 24.9018 21.9368 27.8669 24.80
292 27.1904 24.0932 30.2875 27.10
293 28.3074 24.9029 31.7119 25.20
294 26.5580 22.9404 30.1755 20.90
295 21.7835 18.0130 25.5540 16.60
296 17.0395 13.1159 20.9631 9.30
297 12.1035 8.0010 16.2059 8.00
298 10.0608 5.7935 14.3280 6.30
299 9.4702 5.0557 13.8846 11.70
خروجی (3)
منابع و ماخذ:
· مقدمه ای بر تجزیه و تحلیل سریهای زمانی/تالیف سی چتفیلد/ترجمه دکتر حسینعلی نیرومند، دکتر ابولقاسم بزرگ نیا
· آمارو کاربرد آن در مدیریت، جلد دوم:تحلیل آماری/تالیف دکتر عادل آذر و دکتر منصور مومنی تهران: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاهها(سمت)
· آمار کاربردی، جلد دوم تالیف جان نتر،ویلیام واسرمن، ویتمور/ ترجمه دکتر علی عمیدی تهران: مرکز نشر دانشگاهی
· سریهای زمانی/ تالیف دکتر حسینعلی نیرومند، دکتر ابولقاسم بزرگنیا / نشر دانشگاه پیام نور
· شناخت و سنجش سازه های جوی موثر در کشاورزی/ تالیف دکتر اسمائیل مالک/ مرکز نشر دانشگاه شیراز
· پردازش داده ها با Minitab / تاليف عليرضا نگهبان / انتشارات جهاد دانشگاهي فارس
[1] کارشناس ارشد آمار اقتصادی و اجتماعی- عضو هیئت علمی دانشگاه علوم پزشکی گلستان- آدرس: گرگان – کیلومتر 5 جاده گرگان-ساری – اول جاده شصت کلاته- ساختمان فلسفی- دانشکده پزشکی – تلفن: 4421656-0171 –rabie1354@yahoo.com Email:
[2] دانشجوی کارشناس ارشد آمار محض
[3] کارشناس آمار
[4] میانگین ماکسیمم دمای روزانه در طول ماه
[5] میانگین مینیمم دمای روزانه در طول ماه
[6] Additive model
[7] Original Data
[8] Data Detrend
[9] Seasonally Adjested Data
[10] Seasonally Adj.and Detrended Data
[11] Seasonal Indices
[12] Original Data, by Seasonal Period
[13] Residuals by Seasonal Period
[14] Percent Variation by Seasonal Period
[15] Accuracy Measure
[16] مرتبه اتورگرسيو غير فصلي
[17] تعداد تفاضل گيري هاي غير فصلي
[18] مرتبه ميانگين متحرك غير فصلي
[19] مرتبه اتورگرسيو فصلي
[20] تعداد تفاضل گيري هاي فصلي
[21] مرتبه ميانگين متحرك فصلي
اگر مطلبی داشتید...اگر خواستیدبا ما تماس داشته باشید
این ایمیل را از یاد نبرید
gorgan_statistics_soc @yahoo.com
با تشکر انجمن علمی آمار
پیدایش رسمی احتمال از قرن هفدهم به عنوان متدی برای محاسبه شانس در بازیهای قمار بوده است. اگر چه ایده های احتمال شانس و تصادفی بودن از تاریخ باستان در رابطه با افسونگری و بخت آزمایی و بازیهای شانسی و حتی در تقسیم کار بین راهبان در مراسم مذهبی وجود داشته است و به علاوه شواهدی از بکارگیری این ایده ها در مسائل حقوق٫ بیمه٫ پزشکی و نجوم نیز یافت میشود٫ اما بسیار عجیب است که حتی یونانیان اثری از خود در رابطه با استفاده از تقارنی که در هندسه بکار می برده اند در زمینه احتمال یا اصولی که حاکم بر مسایل شانس باشد بجا نگذاشته اند.
ارسطو پیشامدها را به سه دسته تقسیم می نمود:
۱) پیشامدهای قطعی که لزومآ اتفاق می افتادند.
۲) پیشامدهای احتمالی که در بیشتر موارد اتفاق می افتادند.
۳) پیشامدهای غیر قابل پیش بینی و غیر قابل شناسایی که فقط با شانس محض رخ میدهند.
اما ارسطو به تعبیرهای مختلف احتمال اعتقاد نداشته و فقط احتمال شخصی که مربوط به درجه اعتقاد افراد نسبت به وقوع پیشامدهاست را معتبر می دانسته است.
پاسکال و فرما اولی کسانی هستند که در اوایل قرن هفدهم مسایل مربوط به بازیهای شانسی را مورد مطالعه قرار دادند و این دو نفر به عنوان بنیانگزاران تئوری ریاضی احتمال لقب گرفته اند. دانشمندانی از قبیل هی گنز کارهای آنها را ادامه داده و ویت و هلی این مسایل را در آمارهای اجتماعی بکار گرفتند. این علم جدید نخستین نقطه اوج خود را در اثر مشهوری از ژاکوب برنولی بدست آورد. در این اثر علاوه بر تعریف کلاسیک احتمال ریاضی٫ اساس خاصی از قانون اعداد بزرگ و کاربردهای احتمال در آمارهای اجتماعی نیز مطرح شده است.
در قرن هجدهم متفکران بزرگی چون دی مور٫ دانیل برنولی٫ آلمبرت٫ اویلر٫ لاگرانژ٫ بیز٫ لاپلاس و گاوس قسمتی از وقت خود را به این علم جدید اختصاص دادند. بیز در سال ۱۷۶۳ قانون معروف بیز را ارائه می دهد و لاپلاس در نوشته ای تمام موضوع علم احتمال را جمع آوری می کند. مهمترین قضایای حدی که در محاسبات احتمالی بکار می رفته و تاثیر احتمال در ریاضی٫ فیزیک٫ علوم طبیعی٫ آمار٫ فلسفه و جامعه شناسی در این اثر جمع آوری شده است.
با مرگ لاپلاس در سال ۱۸۷۲ اوج پیشرفت این علم به اتمام رسید و علی رغم برخی تلاشهای فردی که ماحصل آنها کشف قضایایی چون قضیه اعداد بزرگ پواسون و یا نظریه خطاهای گاوس بود٫ بطور کلی احتمال کلاسیک ارتباط خود را با مسائل تجربی و علمی از دست میدهد. اما جریانهای متقابل ظاهر می شوند. به موازات پیشرفت نظریه ریاضی یک نظریه آمار به عنوان کاربردهایی از احتمال بوجود می آید. این نظریه در رابطه با مسایل مهم اجتماعی از قبیل اداره داده های آماری٫ مطالعه جمعیت و مسایل بیمه بکار می رفته است. اساس کار توسط افرادی چون کوتلت و لکسیز ریخته شده و توسط دانشمندانی چون فشنر(روانشناس)٫ تیله و برانز(منجمان)٫ گالتون و پیرسون(زیست شناسان) پیشرفت نموده است. این کارها در اواخر قرن نوزدهم در جریان بوده و در انگلستان و برخی دیگر از کشورها حرفه حسابگری٫ به مفهوم آماردانی که از اقتصاد و ریاضی هم اطلاعاتی دارد و در جمعیت شناسی و بیمه خبره می شود٫ رونق می یابد. از طرف دیگر فرمولهای کلاسیک ایده های احتمال میز مسیر پیشرفت و کاربردی خود را ادامه میدادند. در این قرن در تلاش برای روشن سازی پایه منطقی کاربردهای احتمال٫ وان میزز یک فرمولبندی جدید برای محاسبات احتمالی ارائه میدهد که نه تنها از نظر منطقی سازگار بوده بلکه نظریه ریاضی و تجربی پدیده های آماری در علوم فیزیکی و اجتماعی را پایه گذاری می نماید.
مدل کلاسیک احتمال توسط برنولی و لاپلاس معرفی شد. این مدل به دلیل فرض همطرازی و عدم امکان تکرار در شرایط یکسان و دلایل دیگر با اشکالاتی روبروست که بسیاری از پدیده های طبیعی بر آن منطبق نیست.
ایده های اساسی نظریه تجربی احتمال که قرار دادن فراوانی نسبی بجای احتمال است در سال ۱۸۷۳ توسط پواسون ارائه گردید.
بسیاری از مسائل احتمال حتی قبل از بیان اصول آن توسط کلموگرف در سال ٫۱۹۳۳ با ابزارهای تجربی و حتی نظری توسط دانشمندان مطرح شده است. ولی کلموگرف با بیان اصول احتمال پایه این علم و ارتباط دقیق آنرا با مباحث ریاضی مستحکم می نماید.
در این زمان احتمال به عنوان یکی از شاخه های ریاضی٫ نه تنها کلیه ابزارهای ریاضی را جهت پیشرفت خود بکار می گیرد٫ بلکه توانسته کاربردهایی را در حل برخی از مسایل ریاضی داشته باشد. نظریه احتمالی اعداد٫ نظریه احتمالی ترکیبیاتی و کاربردهای شاخص احتمال در برخی از مسایل آنالیز٫ بعضی از کاربردهای احتمال در ریاضی هستند.
از طرف دیگر احتمال به عنوان زیربنای ساختاری و اصول ریاضی علم آمار٫ در جهت پیشرفت این علم و قوام بخشی به دستورات آن نقشی اساسی دارد.
مسائل جالب احتمال هندسی و نظریه احتمالی اعداد٫ شمه ای از زیبایی های احتمال است که همه اینها با هم زیبایی٫ کارآیی و توان علم احتمال را نشان می دهند.
در سال 1368 پس از تبادل نظر ميان آماردانان كشور, يك اساسنامه پيشنهادي از سوي گروه آمار دانشگاه شهيد بهشتي به دانشگاهها و سازمانهاي آماري كشور ارسال شد و درخواست گرديد كه ضمن ارائه نظرهاي اصلاحي, نمايندگان خود را براي پيگيري موضوع تاسيس انجمن آمار ايران معرفي كنند
با تقديم اساسنامة پيشنهادي به دفتر همكاريهاي علمي و روابط بينالملل تقاضاي مجوز براي انجمن شد. در آن موقع اجازة انجمنها از طرف وزارت كشور صادر ميشد. از اين رو دفتر همكاريها ضمن موافقت اصولي با فعاليت انجمن مدارك مربوط را طي نامة شماره 15229/22 مورخ 9/12/1369 به وزارت كشور ارسال نمود. با وجود پيگيريهايي كه در وزارت كشور به عمل آمد, به خاطر روشن نبودن طرز كار موضوع به تاُخير افتاد در ايام برگزاري بيست و دومين كنفرانس رياضي كشور در دانشگاه فردوسي مشهد در تاريخ 24 اسفند 1369 مجمع عمومي موقت انجمن تشكيل شد. و آقايان نامبرده زير را به عنوان شوراي اجرايي و اعضاي عليالبدل به طور موقت برگزيد تا ضمن شروع فعاليتهاي انجمن امر به ثبت رساندن انجمن و تشكيل نخستين كنفرانس آمار را دنبال كنند. اين عده عبارت بودند از آقايان دكتر محمدرضا مشكاني, دكتر جواد بهبوديان, دكتر علي رجالي, دكتر احمد پارسيان, دكتر ابوالقاسم بزرگنيا, دكتر عينالله پاشا, دكتر جلال داودزاده, دكتر ناصر رضا ارقامي, دكتر قاسم وحيدي و آقاي آزاده. اين عده نخستين شوراي اجرايي موقت انجمن را تشكيل دادند و كار خود را آغاز نمودند
دراين ضمن شورايعالي انقلاب فرهنگي باتصويب ماده واحدهاي درتاريخ 29/5/70 امر صدور مجوز انجمنهاي علمي را به تناسب نوع آنها به عهده وزارت فرهنگ و آموزش عالي, وزارت بهداشت, درمان و آموزش پزشكي, يا وزارت فرهنگ و آموزش عالي مراجعه ميشد. چون براي شروع كار بايد كميتهاي مركب از سه وزارتخانه تشكيل و آئيننامه اجرائي نوشته ميشود, بازهم ثبت انجمن با تاُخير مواجه شد
پس از تدوين آئيننامه, كسب اطلاع شد كه مجوز انجمنهاي علمي به نام اعضاي شوراي اجرائي صادر ميشود و اين زماني بود كه انجمن آمار فعاليتهاي خود را شروع كرده بود, از آن جمله نخستين كنفرانس آمار در دانشگاه صنعتي اصفهان برگزار شده بود. در همان روزهاي كنفرانس, مجمع عمومي نيز تشكيل شد. در اين مجمع اعضاي اصلي و عليالبدل شوراي اجرائي انتخاب شدند و تركيب جديد عبارت بودند از آقايان دكتر محمدرضا مشكاني, دكتر جواد بهبوديان, دكتر احمد پارسيان, دكتر مرتضي جمشيديان, دكتر ناصررضا ارقامي, دكتر عينالله پاشا, مهندس محمدباقر سخاوت و اكبر بديعزادگان.
بالاخره پس از آنكه وزارت فرهنگ و آموزش عالي آئيننامه اجرائي تصويب انجمنهاي علمي را تدوين و به موقع اجرا گذاشت, تقاضاي تاسيس انجمن آمار نيز در آنجا مطرح شد. در اين موقع در اداره ثبت شركتها امضاي هيئت موسس را كه طبق آئيننامه همان اعضاي شوراي اجرائي بودند خواستار شدند و چون برخي از اعضاي موسس سابق در خارج از كشور به سر ميبردند, با صلاحديد وزارت فرهنگ و آموزش عالي اعضاي اصلي شوراي اجرائ