- สูตรและสมการ
- ความแตกต่างกับการแจกแจงแบบทวินาม
- ตัวอย่าง
- การใช้งานจริง
- การประมาณค่าการแจกแจงแบบทวินามด้วยการแจกแจงแบบปัวซอง
- แบบฝึกหัดที่แก้ไข
- แบบฝึกหัด 1
- แนวทางแก้ไข c)
- แบบฝึกหัด 2
- แนวทางแก้ไข)
- อ้างอิง
การแจกแจงแบบปัวซองคือการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องซึ่งสามารถทราบความน่าจะเป็นที่ภายในกลุ่มตัวอย่างขนาดใหญ่และในช่วงเวลาหนึ่งเหตุการณ์ที่มีความน่าจะเป็นน้อยจะเกิดขึ้น
บ่อยครั้งการแจกแจงแบบปัวซองสามารถใช้แทนการแจกแจงทวินามได้ตราบเท่าที่ตรงตามเงื่อนไขต่อไปนี้: ตัวอย่างขนาดใหญ่และความน่าจะเป็นน้อย
รูปที่ 1. กราฟของการแจกแจงแบบปัวซองสำหรับพารามิเตอร์ต่างๆ ที่มา: Wikimedia Commons
Siméon-Denis Poisson (1781-1840) สร้างการแจกจ่ายนี้ขึ้นมาซึ่งมีชื่อของเขาซึ่งมีประโยชน์มากเมื่อพูดถึงเหตุการณ์ที่ไม่สามารถคาดเดาได้ ปัวซองตีพิมพ์ผลการวิจัยของเขาในปี พ.ศ. 2380 ซึ่งเป็นงานสืบสวนเกี่ยวกับความน่าจะเป็นของการตัดสินโทษทางอาญาที่ผิดพลาด
ต่อมานักวิจัยคนอื่น ๆ ได้ปรับการกระจายตัวในพื้นที่อื่น ๆ เช่นจำนวนดาวที่สามารถพบได้ในอวกาศจำนวนหนึ่งหรือความเป็นไปได้ที่ทหารจะเสียชีวิตจากการเตะม้า
สูตรและสมการ
รูปแบบทางคณิตศาสตร์ของการแจกแจงแบบปัวซองมีดังนี้:
- μ (บางครั้งแสดงเป็นλ) คือค่าเฉลี่ยหรือพารามิเตอร์ของการแจกแจง
- หมายเลขออยเลอร์: e = 2.71828
- ความน่าจะเป็นที่จะได้รับ y = k คือ P
- k คือจำนวนความสำเร็จ 0, 1,2,3 …
- n คือจำนวนการทดสอบหรือเหตุการณ์ (ขนาดตัวอย่าง)
ตัวแปรสุ่มแบบไม่ต่อเนื่องตามชื่อของมันขึ้นอยู่กับโอกาสและรับเฉพาะค่าที่ไม่ต่อเนื่อง: 0, 1, 2, 3, 4 …, k
ค่าเฉลี่ยของการแจกแจงกำหนดโดย:
ความแปรปรวนσซึ่งวัดการแพร่กระจายของข้อมูลเป็นอีกพารามิเตอร์หนึ่งที่สำคัญ สำหรับการแจกแจงแบบปัวซองคือ:
σ = μ
ปัวซองระบุว่าเมื่อ n →∞และ p → 0 ค่าเฉลี่ยμหรือที่เรียกว่าค่าที่คาดหวัง - มีแนวโน้มที่จะคงที่:
- เหตุการณ์หรือเหตุการณ์ที่พิจารณาเป็นอิสระจากกันและเกิดขึ้นแบบสุ่ม
- ความน่าจะเป็น P ของเหตุการณ์บางอย่างที่เกิดขึ้นในช่วงเวลาหนึ่งมีค่าน้อยมาก: P → 0
- ความน่าจะเป็นของเหตุการณ์มากกว่าหนึ่งเหตุการณ์ที่เกิดขึ้นในช่วงเวลาคือ 0
- ค่าเฉลี่ยประมาณค่าคงที่ที่กำหนดโดย: μ = np (n คือขนาดตัวอย่าง)
- เนื่องจากการกระจายσเท่ากับμเนื่องจากใช้ค่าที่มากขึ้นความแปรปรวนก็จะมากขึ้นด้วย
- กิจกรรมจะต้องกระจายอย่างเท่าเทียมกันในช่วงเวลาที่ใช้
- ชุดของค่าที่เป็นไปได้ของเหตุการณ์ y คือ: 0,1,2,3,4 ….
- ผลรวมของตัวแปร i ที่ตามการแจกแจงแบบปัวซองก็เป็นตัวแปรปัวซองอีกเช่นกัน ค่าเฉลี่ยคือผลรวมของค่าเฉลี่ยของตัวแปรเหล่านี้
ความแตกต่างกับการแจกแจงแบบทวินาม
การแจกแจงแบบปัวซองแตกต่างจากการแจกแจงทวินามในลักษณะสำคัญดังต่อไปนี้:
- การแจกแจงแบบทวินามได้รับผลกระทบจากทั้งขนาดตัวอย่าง n และความน่าจะเป็น P แต่การแจกแจงแบบปัวซองจะได้รับผลกระทบจากค่าเฉลี่ยμเท่านั้น
- ในการแจกแจงแบบทวินามค่าที่เป็นไปได้ของตัวแปรสุ่ม y คือ 0,1,2, …, N ในขณะที่การแจกแจงแบบปัวซองไม่มีขีด จำกัด สูงสุดสำหรับค่าเหล่านี้
ตัวอย่าง
ในตอนแรกปัวซองใช้การจัดจำหน่ายที่มีชื่อเสียงของเขากับคดีทางกฎหมาย แต่ในระดับอุตสาหกรรมหนึ่งในการใช้งานแรกสุดของเขาคือการต้มเบียร์ ในกระบวนการนี้ใช้เชื้อยีสต์ในการหมัก
ยีสต์ประกอบด้วยเซลล์ที่มีชีวิตซึ่งมีจำนวนประชากรที่เปลี่ยนแปลงตลอดเวลา ในการผลิตเบียร์จำเป็นต้องเพิ่มจำนวนที่จำเป็นดังนั้นจึงจำเป็นต้องทราบจำนวนเซลล์ต่อหน่วยปริมาตร
ในช่วงสงครามโลกครั้งที่สองการแจกแจงแบบปัวซองถูกใช้เพื่อค้นหาว่าชาวเยอรมันมีเป้าหมายที่ลอนดอนจากกาเลส์จริงหรือเพียงแค่ยิงแบบสุ่ม นี่เป็นสิ่งสำคัญสำหรับฝ่ายสัมพันธมิตรในการพิจารณาว่าเทคโนโลยีที่นาซีสามารถใช้ได้ดีเพียงใด
การใช้งานจริง
แอปพลิเคชันของการแจกแจงแบบปัวซองมักอ้างถึงการนับในเวลาหรือการนับในอวกาศ และเนื่องจากความน่าจะเป็นที่จะเกิดขึ้นมีเพียงเล็กน้อยจึงเรียกอีกอย่างหนึ่งว่า "กฎแห่งเหตุการณ์ที่หายาก"
นี่คือรายการของเหตุการณ์ที่อยู่ในหมวดหมู่เหล่านี้:
- การลงทะเบียนอนุภาคในการสลายตัวของกัมมันตภาพรังสีซึ่งเช่นเดียวกับการเติบโตของเซลล์ยีสต์เป็นฟังก์ชันเอกซ์โพเนนเชียล
- จำนวนการเข้าชมเว็บไซต์บางแห่ง
- การมาถึงของคนต่อแถวเพื่อจ่ายเงินหรือเข้าร่วม (ทฤษฎีคิว)
- จำนวนรถที่ผ่านจุดหนึ่งบนถนนในช่วงเวลาที่กำหนด
รูปที่ 2. จำนวนรถยนต์ที่ผ่านจุดหนึ่งโดยประมาณตามการแจกแจงแบบปัวซอง ที่มา: Pixabay
- การกลายพันธุ์ได้รับความเดือดร้อนในสายโซ่ดีเอ็นเอบางอย่างหลังจากได้รับรังสี
- จำนวนอุกกาบาตที่มีเส้นผ่านศูนย์กลางมากกว่า 1 เมตรตกลงมาในหนึ่งปี
- ข้อบกพร่องต่อตารางเมตรของผ้า
- ปริมาณเม็ดเลือด 1 ลูกบาศก์เซนติเมตร
- โทรต่อนาทีไปยังชุมสายโทรศัพท์
- ช็อคโกแลตชิพมีอยู่ในแป้งเค้ก 1 กก.
- จำนวนต้นไม้ที่ติดเชื้อปรสิตในป่า 1 เฮกตาร์
โปรดทราบว่าตัวแปรสุ่มเหล่านี้แสดงถึงจำนวนครั้งที่เหตุการณ์เกิดขึ้นในช่วงเวลาที่กำหนด (การโทรต่อนาทีไปยังชุมสายโทรศัพท์) หรือพื้นที่ที่กำหนด (ข้อบกพร่องของผ้าต่อตารางเมตร)
เหตุการณ์เหล่านี้ตามที่ได้กำหนดขึ้นแล้วไม่ขึ้นอยู่กับเวลาที่ผ่านไปนับจากเหตุการณ์สุดท้าย
การประมาณค่าการแจกแจงแบบทวินามด้วยการแจกแจงแบบปัวซอง
การแจกแจงแบบปัวซองเป็นการประมาณที่ดีสำหรับการแจกแจงทวินามตราบใดที่:
- ขนาดของตัวอย่างมีขนาดใหญ่: n ≥ 100
- ความน่าจะเป็น p มีค่าน้อย: p ≤ 0.1
- μอยู่ในลำดับ: np ≤ 10
ในกรณีเช่นนี้การแจกแจงแบบปัวซองเป็นเครื่องมือที่ยอดเยี่ยมเนื่องจากการแจกแจงทวินามอาจเป็นเรื่องยากที่จะนำไปใช้ในกรณีเหล่านี้
แบบฝึกหัดที่แก้ไข
แบบฝึกหัด 1
การศึกษาแผ่นดินไหวระบุว่าในช่วง 100 ปีที่ผ่านมามีแผ่นดินไหวขนาดใหญ่ 93 ครั้งทั่วโลกโดยมีอย่างน้อย 6.0 ตามมาตราริกเตอร์ -logarithmic- สมมติว่าการแจกแจงแบบปัวซองเป็นรูปแบบที่เหมาะสมในกรณีนี้ หา:
ก) การเกิดแผ่นดินไหวขนาดใหญ่โดยเฉลี่ยต่อปี
b) ถ้า P (y) คือความน่าจะเป็นของแผ่นดินไหวที่เกิดขึ้นในปีที่เลือกแบบสุ่มให้ค้นหาความน่าจะเป็นดังต่อไปนี้:
ค่อนข้างน้อยกว่า P (2)
ผลลัพธ์อยู่ด้านล่าง:
P (0) = 0.395, P (1) = 0.367, P (2) = 0.171, P (3) = 0.0529, P (4) = 0.0123, P (5) = 0.00229, P (6) = 0.000355, P (7) = 0.0000471
ตัวอย่างเช่นเราสามารถพูดได้ว่ามีความเป็นไปได้ 39.5% ที่จะไม่มีแผ่นดินไหวครั้งใหญ่เกิดขึ้นในปีหนึ่ง ๆ หรือว่ามีแผ่นดินไหวขนาดใหญ่เกิดขึ้น 5.29% ของ 3 ครั้งในปีนั้น
แนวทางแก้ไข c)
c) วิเคราะห์ความถี่คูณด้วย n = 100 ปี:
39.5; 36.7; 17.1; 5.29; 1.23; 0.229; 0.0355 และ 0.00471
ตัวอย่างเช่น:
- ความถี่ 39.5 ระบุว่าเกิดแผ่นดินไหวขนาดใหญ่ 0 ครั้งใน 39.5 จาก 100 ปีเราสามารถพูดได้ว่ามันค่อนข้างใกล้เคียงกับผลที่แท้จริงของ 47 ปีที่ไม่มีแผ่นดินไหวขนาดใหญ่
ลองเปรียบเทียบผลลัพธ์ Poisson อื่นกับผลลัพธ์จริง:
- ค่าที่ได้ 36.7 หมายความว่าในช่วง 37 ปีเกิดแผ่นดินไหวใหญ่ 1 ครั้ง ผลที่เกิดขึ้นจริงคือในรอบ 31 ปีมีแผ่นดินไหวใหญ่ 1 ครั้งซึ่งตรงกับแบบจำลอง
- 17.1 ปีคาดว่าจะเกิดแผ่นดินไหวขนาดใหญ่ 2 ครั้งและเป็นที่ทราบกันดีว่าในรอบ 13 ปีซึ่งเป็นมูลค่าที่ใกล้เคียงมีแผ่นดินไหวขนาดใหญ่ 2 ครั้ง
ดังนั้นแบบจำลองปัวซองจึงเป็นที่ยอมรับสำหรับกรณีนี้
แบบฝึกหัด 2
บริษัท หนึ่งประมาณว่าจำนวนส่วนประกอบที่ล้มเหลวก่อนถึง 100 ชั่วโมงการทำงานเป็นไปตามการกระจายแบบปัวซอง หากจำนวนความล้มเหลวโดยเฉลี่ยเท่ากับ 8 ในช่วงเวลานั้นให้ค้นหาความน่าจะเป็นดังต่อไปนี้:
ก) ส่วนประกอบนั้นล้มเหลวใน 25 ชั่วโมง
b) ความล้มเหลวของส่วนประกอบน้อยกว่าสองชิ้นใน 50 ชั่วโมง
c) อย่างน้อยสามองค์ประกอบล้มเหลวใน 125 ชั่วโมง
แนวทางแก้ไข)
a) เป็นที่ทราบกันดีว่าค่าเฉลี่ยของความล้มเหลวใน 100 ชั่วโมงคือ 8 ดังนั้นใน 25 ชั่วโมงหนึ่งในสี่ของความล้มเหลวจึงคาดว่าจะล้มเหลว 2 ครั้ง นี่จะเป็นพารามิเตอร์μ
มีการร้องขอความน่าจะเป็นที่ 1 องค์ประกอบล้มเหลวตัวแปรสุ่มคือ "ส่วนประกอบที่ล้มเหลวก่อน 25 ชั่วโมง" และค่าของมันคือ y = 1 โดยการแทนที่ในฟังก์ชันความน่าจะเป็น:
อย่างไรก็ตามคำถามคือความน่าจะเป็นที่ส่วนประกอบน้อยกว่าสองชิ้นล้มเหลวใน 50 ชั่วโมงไม่ใช่ว่าส่วนประกอบ 2 อย่างล้มเหลวใน 50 ชั่วโมงดังนั้นเราต้องเพิ่มความน่าจะเป็นที่:
- ไม่มีล้มเหลว
- ความล้มเหลวเพียง 1
พารามิเตอร์μของการแจกแจงในกรณีนี้คือ:
μ = 8 + 2 = 10 ความล้มเหลวใน 125 ชั่วโมง
P (3 ส่วนประกอบขึ้นไปล้มเหลว) = 1- P (0) - P (1) - P (2) =
อ้างอิง
- MathWorks การแจกแจงแบบปัวซอง สืบค้นจาก: es.mathworks.com
- Mendenhall, W. 1981. สถิติสำหรับการจัดการและเศรษฐศาสตร์. 3 ฉบับ Grupo Editorial Iberoamérica
- สถิติ Trek สอนสถิติตัวเอง การกระจายปัวซอง ดึงมาจาก: stattrek.com,
- Triola, M. 2012. สถิติเบื้องต้น. วันที่ 11 เอ็ดการศึกษาของเพียร์สัน
- วิกิพีเดีย การแจกแจงแบบปัวซอง สืบค้นจาก: en.wikipedia.org