- ความสำคัญของ homoscedasticity
- homoscedasticity เทียบกับ heteroscedasticity
- การทดสอบความเป็นเนื้อเดียวกัน
- ตัวแปรมาตรฐาน
- การทดสอบความเป็นเนื้อเดียวกันที่ไม่ใช่กราฟิก
- อ้างอิง
homoscedasticityในแบบจำลองทางสถิติการทำนายจะเกิดขึ้นหากทุกกลุ่มข้อมูลของหนึ่งหรือมากกว่าการสังเกตความแปรปรวน (หรืออิสระ) รูปแบบ ที่มี ความเคารพในการอธิบายตัวแปรคงที่
แบบจำลองการถดถอยอาจเป็น homoscedastic หรือไม่ซึ่งในกรณีนี้เราพูดถึงความยืดหยุ่นต่างกัน

รูปที่ 1. ชุดข้อมูลห้าชุดและความพอดีของการถดถอยของชุด ความแปรปรวนที่เกี่ยวกับค่าทำนายจะเหมือนกันในแต่ละกลุ่ม (upav-biblioteca.org)
แบบจำลองการถดถอยทางสถิติของตัวแปรอิสระหลายตัวเรียกว่า homoscedastic เฉพาะในกรณีที่ความแปรปรวนของข้อผิดพลาดของตัวแปรทำนาย (หรือค่าเบี่ยงเบนมาตรฐานของตัวแปรตาม) ยังคงเหมือนกันสำหรับกลุ่มค่าต่างๆของตัวแปรอธิบายหรือตัวแปรอิสระ
ในกลุ่มข้อมูลห้ากลุ่มในรูปที่ 1 ความแปรปรวนในแต่ละกลุ่มได้รับการคำนวณโดยเทียบกับค่าที่ประมาณโดยการถดถอยกลายเป็นค่าเดียวกันในแต่ละกลุ่ม สันนิษฐานเพิ่มเติมว่าข้อมูลเป็นไปตามการแจกแจงปกติ
ในระดับกราฟิกหมายความว่าจุดต่างๆจะกระจัดกระจายเท่า ๆ กันหรือกระจัดกระจายรอบ ๆ ค่าที่คาดการณ์โดยการปรับการถดถอยและแบบจำลองการถดถอยมีข้อผิดพลาดและความถูกต้องเหมือนกันสำหรับช่วงของตัวแปรอธิบาย
ความสำคัญของ homoscedasticity
เพื่อแสดงให้เห็นถึงความสำคัญของ homoscedasticity ในสถิติเชิงทำนายจำเป็นต้องเปรียบเทียบกับปรากฏการณ์ที่ตรงกันข้ามคือ heteroscedasticity
homoscedasticity เทียบกับ heteroscedasticity
ในกรณีของรูปที่ 1 ซึ่งมี homoscedasticity เป็นความจริงที่ว่า:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈…… Var ((y4-Y4); X4)
โดยที่ Var ((yi-Yi); Xi) แสดงถึงความแปรปรวนคู่ (xi, yi) แสดงถึงข้อมูลจากกลุ่ม i ในขณะที่ Yi เป็นค่าที่ทำนายโดยการถดถอยสำหรับค่าเฉลี่ยของกลุ่ม Xi ความแปรปรวนของข้อมูล n จากกลุ่ม i คำนวณได้ดังนี้:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
ในทางตรงกันข้ามเมื่อเกิด heteroscedasticity แบบจำลองการถดถอยอาจใช้ไม่ได้กับทั้งภูมิภาคที่คำนวณ รูปที่ 2 แสดงตัวอย่างของสถานการณ์นี้

รูปที่ 2. กลุ่มข้อมูลที่แสดงความยืดหยุ่นต่างกัน (ความประณีตของตัวเอง)
รูปที่ 2 แสดงถึงกลุ่มข้อมูลสามกลุ่มและความพอดีของเซตโดยใช้การถดถอยเชิงเส้น ควรสังเกตว่าข้อมูลในกลุ่มที่สองและสามมีการกระจายตัวมากกว่ากลุ่มแรก กราฟในรูปที่ 2 ยังแสดงค่าเฉลี่ยของแต่ละกลุ่มและแถบข้อผิดพลาด±σพร้อมด้วยσค่าเบี่ยงเบนมาตรฐานของข้อมูลแต่ละกลุ่ม ควรจำไว้ว่าค่าเบี่ยงเบนมาตรฐานσคือรากที่สองของความแปรปรวน
เป็นที่ชัดเจนว่าในกรณีของ heteroscedasticity ข้อผิดพลาดในการประมาณค่าการถดถอยจะเปลี่ยนไปในช่วงของค่าของตัวแปรอธิบายหรือตัวแปรอิสระและในช่วงเวลาที่ข้อผิดพลาดนี้มีขนาดใหญ่มากการทำนายการถดถอยไม่น่าเชื่อถือหรือ ไม่สามารถใช้ได้.
ในแบบจำลองการถดถอยข้อผิดพลาดหรือส่วนที่เหลือ (และ -Y) จะต้องกระจายด้วยความแปรปรวนเท่ากัน (σ ^ 2) ตลอดช่วงของค่าของตัวแปรอิสระ ด้วยเหตุนี้แบบจำลองการถดถอยที่ดี (เชิงเส้นหรือไม่เชิงเส้น) ต้องผ่านการทดสอบความเป็นเนื้อเดียวกัน
การทดสอบความเป็นเนื้อเดียวกัน
คะแนนที่แสดงในรูปที่ 3 สอดคล้องกับข้อมูลของการศึกษาที่มองหาความสัมพันธ์ระหว่างราคา (ดอลลาร์) ของบ้านตามขนาดหรือพื้นที่เป็นตารางเมตร
แบบจำลองแรกที่จะทดสอบคือการถดถอยเชิงเส้น ก่อนอื่นสังเกตว่าค่าสัมประสิทธิ์การกำหนด R ^ 2 ของความพอดีนั้นค่อนข้างสูง (91%) ดังนั้นจึงคิดได้ว่าพอดีเป็นที่น่าพอใจ
อย่างไรก็ตามสองภูมิภาคสามารถแยกแยะได้อย่างชัดเจนจากกราฟการปรับปรุง หนึ่งในนั้นทางด้านขวาล้อมรอบด้วยวงรีจะเติมเต็ม homoscedasticity ในขณะที่พื้นที่ทางด้านซ้ายไม่มี homoscedasticity
ซึ่งหมายความว่าการทำนายของแบบจำลองการถดถอยนั้นเพียงพอและเชื่อถือได้ในช่วงตั้งแต่ 1800 ม. ^ 2 ถึง 4800 ม. ^ 2 แต่ยังไม่เพียงพอนอกภูมิภาคนี้ ในเขต heteroscedastic ข้อผิดพลาดไม่เพียง แต่มีขนาดใหญ่มาก แต่ข้อมูลยังเป็นไปตามแนวโน้มที่แตกต่างจากที่เสนอโดยแบบจำลองการถดถอยเชิงเส้น

รูปที่ 3. ราคาที่อยู่อาศัยเทียบกับพื้นที่และแบบจำลองการทำนายโดยการถดถอยเชิงเส้นแสดงโซน homoscedasticity และ heteroscedasticity (ความประณีตของตัวเอง)
พล็อตการกระจายของข้อมูลเป็นการทดสอบ homoscedasticity ที่ง่ายที่สุดและเป็นภาพมากที่สุดอย่างไรก็ตามในบางครั้งที่ไม่ชัดเจนเท่าในตัวอย่างที่แสดงในรูปที่ 3 จำเป็นต้องใช้กราฟที่มีตัวแปรเสริม
ตัวแปรมาตรฐาน
ในการแยกพื้นที่ที่มีการเติมเต็ม homoscedasticity และที่ที่ไม่ได้มีการแนะนำตัวแปรมาตรฐาน ZRes และ ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
ควรสังเกตว่าตัวแปรเหล่านี้ขึ้นอยู่กับรูปแบบการถดถอยที่ประยุกต์ใช้เนื่องจาก Y คือค่าของการทำนายการถดถอย ด้านล่างนี้เป็นพล็อตการกระจาย ZRes กับ ZPred สำหรับตัวอย่างเดียวกัน:

รูปที่ 4 ควรสังเกตว่าในโซน homoscedasticity ZRes จะยังคงสม่ำเสมอและมีขนาดเล็กในขอบเขตการทำนาย (การอธิบายด้วยตัวเอง)
ในกราฟในรูปที่ 4 ที่มีตัวแปรมาตรฐานพื้นที่ที่ข้อผิดพลาดตกค้างมีขนาดเล็กและสม่ำเสมอจะถูกแยกออกจากพื้นที่ที่ไม่ได้อยู่อย่างชัดเจน ในโซนแรกมีการเติมเต็ม homoscedasticity ในขณะที่ในพื้นที่ที่ข้อผิดพลาดที่เหลือมีความผันแปรสูงและมีขนาดใหญ่จะมีการเติมเต็ม heteroscedasticity
การปรับการถดถอยถูกนำไปใช้กับกลุ่มข้อมูลเดียวกันในรูปที่ 3 ในกรณีนี้การปรับจะไม่เป็นเชิงเส้นเนื่องจากโมเดลที่ใช้เกี่ยวข้องกับฟังก์ชันที่เป็นไปได้ ผลลัพธ์จะแสดงในรูปต่อไปนี้:

รูปที่ 5. โซนใหม่ของ homoscedasticity และ heteroscedasticity ในการปรับข้อมูลด้วยแบบจำลองการถดถอยที่ไม่ใช่เชิงเส้น (ความประณีตของตัวเอง).
ในกราฟของรูปที่ 5 ควรสังเกตพื้นที่ homoscedastic และ heteroscedastic อย่างชัดเจน นอกจากนี้ควรสังเกตด้วยว่าโซนเหล่านี้มีการเปลี่ยนแปลงเมื่อเทียบกับโซนที่เกิดขึ้นในแบบจำลองพอดีเชิงเส้น
ในกราฟของรูปที่ 5 จะเห็นว่าแม้ว่าจะมีค่าสัมประสิทธิ์การกำหนดความพอดีที่ค่อนข้างสูง (93.5%) แบบจำลองก็ไม่เพียงพอสำหรับช่วงเวลาทั้งหมดของตัวแปรอธิบายเนื่องจากข้อมูลสำหรับค่า มากกว่า 2,000 m ^ 2 ความยืดหยุ่นในปัจจุบัน
การทดสอบความเป็นเนื้อเดียวกันที่ไม่ใช่กราฟิก
หนึ่งในการทดสอบที่ไม่ใช่กราฟิกที่ใช้บ่อยที่สุดในการตรวจสอบความเป็นเนื้อเดียวกันว่าเป็นไปตามเงื่อนไขหรือไม่คือการทดสอบ Breusch-Pagan
รายละเอียดทั้งหมดของการทดสอบนี้จะไม่ได้ระบุไว้ในบทความนี้ แต่มีการสรุปลักษณะพื้นฐานและขั้นตอนที่เหมือนกัน:
- แบบจำลองการถดถอยถูกนำไปใช้กับข้อมูล n และความแปรปรวนของค่าเดียวกันจะคำนวณตามค่าที่ประมาณโดยโมเดลσ ^ 2 = ∑j (yj - Y) ^ 2 / n
- ตัวแปรใหม่ถูกกำหนดε = ((yj - Y) ^ 2) / (σ ^ 2)
- แบบจำลองการถดถอยเดียวกันจะถูกนำไปใช้กับตัวแปรใหม่และมีการคำนวณพารามิเตอร์การถดถอยใหม่
- ค่าวิกฤตไคสแควร์ (χ ^ 2) ถูกกำหนดซึ่งเป็นครึ่งหนึ่งของผลรวมของกำลังสองที่เหลือใหม่ในตัวแปรε
- ตารางการแจกแจงไคสแควร์ใช้โดยพิจารณาจากระดับนัยสำคัญ (โดยปกติคือ 5%) และจำนวนองศาอิสระ (# ของตัวแปรการถดถอยลบหน่วย) บนแกน x ของตารางเพื่อให้ได้ค่าของ คณะกรรมการ.
- ค่าวิกฤตที่ได้รับในขั้นตอนที่ 3 จะถูกเปรียบเทียบกับค่าที่พบในตาราง (χ ^ 2)
- ถ้าค่าวิกฤตต่ำกว่าตารางแสดงว่าเรามีสมมติฐานว่างนั่นคือ homoscedasticity
- ถ้าค่าวิกฤตสูงกว่าตารางแสดงว่าเรามีสมมติฐานทางเลือก: ไม่มี homoscedasticity
แพ็คเกจซอฟต์แวร์ทางสถิติส่วนใหญ่เช่น SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic และอื่น ๆ อีกมากมายรวมการทดสอบความเป็นเนื้อเดียวกันของ Breusch-Pagan การทดสอบอื่นเพื่อตรวจสอบความสม่ำเสมอของความแปรปรวนคือการทดสอบ Levene
อ้างอิง
- กล่องฮันเตอร์และฮันเตอร์ (2531) สถิติสำหรับนักวิจัย. ฉันกลับตัวแก้ไข
- จอห์นสตันเจ (1989). วิธีเศรษฐมิติ, Vicens -Vives editores
- มูริลโลและกอนซาเลซ (2000) คู่มือเศรษฐมิติ. มหาวิทยาลัย Las Palmas de Gran Canaria สืบค้นจาก: ulpgc.es.
- วิกิพีเดีย Homoscedasticity สืบค้นจาก: es.wikipedia.com
- วิกิพีเดีย Homoscedasticity สืบค้นจาก: en.wikipedia.com
