สถิติเพื่อการวิจย ั ทางสังคม (Statistics for Social Research)
ั • บทบาทของสถิติในการวิจย 1. อธิบาย และพรรณนาลักษณะของข้อมูล - Descriptive Statistics 2. อนุมานไปถึงลักษณะของประชากรในวงกว้าง - Inferential Statistics
•
The Univariate Distribution (การแจกแจงของตัวแปรตัวเดียว) •
การแจกแจงความถี่ (Frequency Distribution)
• • • • • • 100
ศาสนา พุทธ คริสต์ อิสลาม รวม
จำานวน (f) 160 10 30
%
200
80 5 15
การวัดแนวโน้มเข้าสู่สูวนกลาง (Measures of Central Tendency)
ค่าแนวโน้มเข้าสู่ส่วนกลางคือค่าที่แสดงลักษณะ ทัว่ ๆ ไป (typical) ของข้อมูลชุดนั้น ๆ โดยธรรมชาติแล้ว สิ่งต่าง ๆ มักมีการแจกแจงแบบปกติ (normally distributed) หรือใกล้เคียงปกติ ค่ากลาง ๆ จึงมีจำานวน มากที่สุด i.e. ความสูง เชาวน์ปัญญา ความสวยงาม ฯลฯ 1. ฐานนิ ยม (Mode) 2. มัธยฐาน (Median) 3. มัชฌิมเลขคณิต (Arithmetic Mean)
•
2.1 ฐานนิ ยม (The mode) การแจกแจงของศาสนาต่าง ๆ ศาสนา พุทธ คริสต์ อิสลาม รวม
f 160 10 30 200
Mode คือ คะแนนที่มค ี วามถี่ สูงสุดในการแจกแจงของคะแนนชุดหนึ่ ง ๆ ในที่น้ ี คือศาสนาพุทธ ซึ่งมีความถี่ 160 หรือกล่าวอีกอย่าง หนึ่ งคือในจำานวนประชากร 200 ราย ที่เราศึกษา มี คนนับถือศาสนาพุทธถึง 160 ราย (ลักษณะที่เห็น ได้ทัว่ ไปคือคนนับถือพุทธศาสนา) ตามปกติในคะแนนชุดหนึ่ ง ๆ จะ มีค่า Mode เพียงค่าเดียว หรือเป็ น unimodal distribution อย่างไรก็ตามบางครั้งข้อมูลก็อาจจะ เป็ น bimodal distribution โดยเฉพาะอย่ายิ่งถ้ามี การรวมประชากร 2 กลุ่มเข้าด้วยกัน เช่นความสูง ของประชากรที่เป็ นผู้ใหญ่ท้ ังชาย-หญิง จะมีค่า
Mode เป็ นการวัดอย่างหยาบ ๆ เราสามารถมองเห็นการกระจาย ของข้อมูลได้อย่าง รวดเร็ว 2.2 มัธยฐาน (The Median) Median คือคะแนนที่ที่อยู่ตรง ตำาแหน่งกี่งกลางที่แบ่งคะแนนออกเป็ น 2 ส่วนเท่า ๆ กัน มัธยะ = คะแนน 1, 3, 4, 6, 7
จุดกึ่งกลาง เช่น
คะแนนที่อยู่ตรงตำาแหน่งกึ่งกลาง หลังจากการจัดเรียงลำาดับคะแนน แล้วได้แก่
วืธห ี าค่ามัธยฐาน 1. ให้จัดลำาดับคะแนนโดย เรียงจาก น้อยไปหามาก หรือมากไปหาน้อยก็ได้ 2. หาคะแนนที่อยู่ตำาแหน่ง กึง่ กลางที่จะแบ่งคะแนนออกเป็ นสองส่วนเท่า ๆ กัน
(N+1)/2
3. Median = สำาหรับข้อมูลที่มีจำานวนเป็ นคี่
ค่าเฉลี่ยของคะแนนที่ N/2 และ (N/2+1) มีจำานวนเป็ นคู่
= สำาหรับ ข้อมูลที่
ต.ย. สำาหรับคะแนนที่มีจำานวนเป็ นคี่ 6, 9, 11, 12, 16, 18, 21, 24, 30 Median = (N+1)/2 ตัวที่ห้า)
= (9+1)/2
= 5 (ได้แก่คะแนน = 16
ต.ย. สำาหรับคะแนนที่มีจำานวนเป็ นคู่ 4, 5, 6, 7, 8, 9
1, 3,
Median = ค่าเฉลี่ยของคะแนน ตำาแหน่งที่ N/2 หรือ (8/2 = คะแนนตำาแหน่งที่ 4 ซึง่ ได้แก่คะแนน 5) และ คะแนนตำาแหน่งที่ N/2+1
Mean)
2.3 มัชฌิมเลขคณิต (The Arithmetic
มัชฌิมเลขคณิต หรือค่าเฉลี่ย เป็ นค่าสถิตท ิ ี่ใช้บ่อยที่สุดในการวิจัย บางครั้งเรียกสั้น ๆ ว่า ค่า Mean n Σ
x =
i =1
N
xi
สูตร
สมมุตวิ ่า นศ.ปริญญาโท รปศ. ใช้เวลาดูโทรทัศน์ใน หนึ่ งงสัปดาห์ดังนี้ 6, 7, 12, 11, 10, 3, 4, 1, อยากทราบว่าน ศ.รปศ.ดูโทรทัศน์โดยเฉลี่ยสัปดาห์ ละ กีช ่ ัว่ โมง
Σ x =
n
i =1
xi
N
6+7+12+11+10+3+4+1
x
=
=
54
อาจารย์คณะรัฐศาสตร์มหาวิทยาลัยแห่งหนึ่ งใช้เวลาศึกษาในต่างประเทศดัง ต่อไปนี้ จำานวนปี
จำานวนอาจารย์ (f)
2
3 3
2
6
5 8
10
10
8
12
4
14
2
อาจารย์คณะรัฐศาสตร์มหาวิทยาลัยแห่งหนึ่ งใช้เวลาศึกษาในต่างประเทศดัง ต่อไปนี้ จำานวนปี f x 2
จำานวนอาจารย์ (f) 3
6 3
6
2
6
5 8
30 10
10
8
80
12
4
48
80
• •
X =
278
• 34 • = 8.18 • อาจารย์ภาควิชารัฐศาสร์ใช้เวลาในการศึกษา ต่อต่างประเทศ 8.18 ปี
การวัดการกระจาย (Measures of Dispersion) •
ค่ากลางแสดงลักษณะของข้อมูลได้ไม่ละเอียดเพราะยัง ไม่เห็นการกระจายตัวของคะแนนออกจากค่ากลาง เช่นคะแนน 2 ชุดอาจจะมีค่ามัฌิมเลขคณิต (Mean) เท่ากัน แต่อาจจะมีการกระ จายตัวแตกต่งกันมาก เช่นนักศึกษษ 2 Section อาจสอบ Midterm ได้คะแนนเฉลี่ยเท่ากัน แต่นักศึกษา Sect หนึ่ งอาจมีคะแนน สอบเกาะกลุ่มอย่รู อบ ๆ Mean ขณะที่นักศึกษาอีก Sect หนึ่ งอาจ จะมี คะแนนสูงมาก ๆ และตำา่ มาก ๆ รวมอยู่ แต่เมื่อหาค่า Mean ออกมาแล้วมีค่าเท่ากัน เป็ นต้น
• การแสดงค่าการกระจายของข้อมูลชุดนั้น ๆ ประกอบไว้ด้วยจะทำาให้ เรามองเห็นภาพ หรือลักษณะของข้อมูลได้ดียงิ่ ขี้น (1) พิสัย (Range) • ได้แก่ระยะห่างระหว่างคะแนนสูงสุด และ • คะแนนตำา่ สุด Range = Max - Min • สมมุติว่าคะแนนชุดหนึ่ งมีดังนี้ 4, 6, 8, 9, • 17 พิสย ั ของคะแนนชุดนี้ = 17 - 4 = 13 •
• •
(2) สูวนเบีย ่ งเบนเฉลีย ่ (Mean Deviation) ได้แก่ค่าเฉลี่ยของความ เบีย ่ งเบนของคะแนนแต่ละตัวที่เบีย ่ งเบนออก จากค่า Mean
Average deviation N
Average Deviation =
Σ i= 1
( X i- X ) ————————— N
สมมุติว่าคะแนนชุดหนึ่ งมีดังนี้ • 2, 4, 6, 8, 10 • X = 2+4+6+8+10 • 5 • = 6 • (2-6)+(4-6)+(6-6)+(8-6)+(10-6) • Average Deviation = • 5
• •
Average Deviation =
(-4)+(-2)+(0)+(2)+(4)
= 0
5
เพื่อแก้ไขปั ญหานี้ เราจึง ignore เครื่องหมาย คือไม่นำาเครื่องหมายมาคำานวณ คง คิดแต่ค่า • absolute value Mean Deviation = (4)+(2)+(0)+(2)+(4) = 12 = 2.4 • 5 5 •
Mean deviation
N
Σ i=1
Xi - X Mean Deviation = ———————— N
• (3) ความแปรปรวน (Variance) Variance มีวธ ิ ค ี ิดเช่นเดียวกับ Mean • Deviation เพียงแต่แทนที่จะ ignore เครื่องหมาย เราใช้ วิธย ี กกำาลังสองเพื่อเปลี่ยนให้ค่า ลบเปลี่ยนเป็ นบวก ทำาให้ค่า Variance ไม่มค ี ่าเป็ นศูนย์ อย่างไรก็ตามค่า Variance ก็ยังไม่ใช่ค่า • การกระจายทีแ ่ ท้จริง เพราะเกิดจาการที่เราไปยกกำาลังสอง ผลต่างของคะแนนแต่ละตัวที่กระจายตัวออกจากค่า Mean
The Variance N
Σ i=1
( X i- X ) ² s ² = ————————— N
(Definitional formula)
N
Σ i=1
2
Xi s ² = —————— - X N
2
(Computational formula)
• • • • • 144 • •
_
Xi 3 4 6 12
Xi - X -6 -5 -3 3
20 X= 9
11
2(Xi - X)
2
36 25 9 9
121 200
Xi
9 16 36 400 605
่ งเบนมาตรฐาน (Standard Deviation) • (4) ส่วนเบีย เพื่อนำาค่าการกระจายกลับมาสู่ค่าที่แท้จริง (ไม่ใช่คา่ ยกกำาลังสอง) เราจึงใส่ รากที่สอง (Square root) ของค่าความ แปรปรวน ส่วนเบีย ่ งเบนมาตรฐานจึงเป็ นค่าเฉลี่ยของการกระจาย ของข้อมูลชุดนั้น ๆ หรือกล่าวอีกนัยหนึ่ ง ส่วนเบีย ่ งเบนมาตรฐานจึง เป็ นค่ารากที่สอง (square root)ของค่า ความแปรปรวน หรือ Variance นัน ่ เอง
Standard deviation N
s=
Σ ( i=1
X i- X ) ² ————————— N
(Definitional formula)
N
s=
Σ Xi i=1
2
—————— - X N
2
(Computational formula)
• ความพีงพอในชีวิตของคน 4 ประเทศ (Mean and S.D.) Germany (950) • UK (903) US (980) Mean S.D • Mean S.D Mean S.D 1.0 6.7 • 6.7 3.2 6.5 1.3
Italy (998) Mean S.D 1.2
6.6
• การมีส่วนร่วมทางการเมืองของคน 4 ประเทศ (Mean and S.D.) Germany (950) Italy • UK (903) (998) US (980) Mean S.D • Mean S.D Mean S.D Mean S.D 2.7 5.4 2.9 • 4.75 2.8 2.8 5.64 2.7
์ วามผันแปร (Coeeficient of • (5) สัมประสิทธิค Variation, V) s • • • •
•
V
x=
—
ค่าส่วนเบี่ยงเบนมาตรฐานไม่สามารถนำามา เปรียบเทียบโดยตรงได้ หากค่า Mean แตกต่าง กันมากเพราะ S.D. เป็ นค่าที่ผูกติดกับค่า Mean ์ วามผันแปร จะทำาให้สามารถ การหาค่าสัมประสิทธิค เปรียบเทียบการกระจายตัวของมูลแต่ละชุดได้
• การมีสว่ นร่วมทางการเมืองของคน 4 ประเทศ (Mean and V) • UK (903) Italy (998) V • Mean Mean V 0.57 • 4.75 2.8 1.00
Germany (950) US (980) Mean V Mean V 5.4 0.54 5.64 0.48
โค้งปกติ
(Normal Curve)
• คุณสมบัติ 1. มีลักษณะสมมาตรเป็ นรูประฆังควำา ่ • 2. Mean, Median, Mode อยู่บนจุดเดียวกัน • 3. เกิดจากจำานวน Case ทีน ่ ับไม่ถ้วน • 4. สัดส่วนของพื้ นที่ภายใต้โค้งปกติในแต่ละช่วง • ของคะแนนมาตรฐานที่แยกออกจาก Mean ต่อพื้ นที่ท้ ังหมดมี สัดส่วนที่แน่นอน •
โค้งปกติ
(Normal Curve)
Proportions under the normal curve
34.13% 34.13% 13.6%
13.6%
2.13%
-3s
-2 s
2.13%
-s
X
+s
+2 s
+3 s
• หมายความว่า + 1 s ครอบคลุมพื้ นที่ 68.26 + 2 s ครอบคลุมพื้ นที่ 95.46 • + 3 s ครอบคลุมพื้ นที่ 99.72 • • ระยะห่างจาก Mean แต่ละหน่วยของ S หรือ S.D. นี้ เราเรียกว่า คะแนนมาตรฐาน (Standard Score หรือ Z-Score) •
การหาพื้ นที่ภายใต้โค้งปกติในแต่ละช่วงคะแนน มาตรฐาน สมมุติว่าในการสำารวจ I.Q. ของเด็กในชุมชน หนึ่ ง พบว่ามีค่าเฉลี่ยของ I.Q. = 100 และมี S.D. = 10 ถ้าการแจกแจงของ I.Q. เป็ นแบบปกติ เราจะสรุปด้วยความมัน ่ ใจได้ว่า • 68.26% ของเด็กในชุมชนจะมี I.Q. • ระหว่าง 90 - 110 95.46 % ของเด็กในชุมชนจะมี I.Q. • ระหว่าง 80 - 120 และ 99.72% ของเด็กใน ชุมชนจะมี I.Q. ระหว่าง 70 - 130 •
การคำานนวณหาคะแนนมาตรฐาน
• • • • • •
Z
score)
=
Xi - X
Xi X s Z
= = = =
s คะแนนแต่ละตัว มัชฌิมเลขคณิ ต ส่วนเบี่ยงเบนมาตรฐาน คะแนนมาตรฐาน (standard
• ต.ย. ชุมชนแห่งหนึ่ งประชากรมีรายได้เฉลี่ยเดือนละ 10,000 บาท มีค่าส่วนเบี่ยงเบนมาตรฐานเท่ากับ 2,000 บาท อยากทราบว่าถ้าการกระจายรายได้ของ คนในชุมชนนี้ เป็ นแบบปกติ (ก) จะมีประชากรร้อยละเท่าใดที่มีรายได้ • ระหว่าง 6,000 – 10,000บาท และ (ข) จะมีประชากรร้อยละเท่าใดที่มีราย • ได้ระหว่าง 11,000 – 15,000 บาท
ข้อ (ก)
47.73%
Xi 6.000
X 10.000
• หาประชากรที่มีรายได้ระหว่าง 6,000 10,000 โดยการหา พ.ท. ภายใต้โค้งปกติ (โดยการหาคะแนนมาตรฐาน) • Z = 6,000 - 10,000 • 2,000 • = -2 • พ.ท. = 47.73 % ของพื้ นที่ท้ ังหมด
47.73% 47.73%
Xi 6.000
X 10.000
ข้อ (ข)
X 10.000 11.000
15.000
• หาประชากรที่มีรายได้ระหว่าง 11,000 - 15,000 โดย การหา พ.ท. ภายใต้โค้งปกติระหว่างคะแนน 10,000 - 1 5,000 ก่อน (โดยการหาคะแนนมาตรฐาน) • Z1 = 15,000 - 10,000 2,000 • = 2.5 • • พ.ท. = 49.38 % ของพื้ นที่ท้ งั หมด •
49.38 % X 10.000
15.000
• จากนั้ นจึงหาประชากรที่มรี ายได้ระหว่าง 10,000 - 11,000 โดยการหา พ.ท. ภายใต้ โค้งปกติ (โดยการหาคะแนนมาตรฐาน) • Z2 = 11,000 - 10,000 • 2,000 • = 0.5 • พ.ท. = 19.15 % ของพิ้นที่ท้ ังหมด
X 10.000 11,000
• จากนั้ นจึงนำาพื้ นที่ ภายใต้โค้งปกติระหว่างรายได้ 10,000-11,000 (19.15%) ลบออกจากพื้ นที่ภายใต้โค้งปกติ ระหว่างรายได้ 10,000-15,000 (49.38%) จะทำาให้ได้พนที ื้ ่ ภายใต้โค้งที่เราต้องการ พื้ นที่ภายใต้โค้งระหว่าง 11,000 - 15,000 บาท • = 49.38 - 19.15 • = 30.23% ของพื้ นที่ท้ ังหมด • •
19.15 X 10.000 11,000
19.15 X 10.000 11.000
15.000
30.23%
X 10.000 11.000
15.000
• แบบฝึ กหัด จากโจทก์เดิม จงหา • (ก) ประชากรทีม ่ ีรายได้ระหว่าง 7,000-9,000 บาท และ (ข) ประชากรที่มีรายได้ระหว่าง 12,000-16,000 บาท
การทดสอบสมมุติฐาน Hypothesis Testing
สมมุติฐาน คือข้อสมมุติที่นก ั วิจย ั ตั้งขึ้นมา เป็ นความเชื่อของนักวิจย ั เกี่ยวกับเรื่องใดเรื่องหนึ่ ง ความ เชื่อนี้ จะเป็ นจริงหรือไม่เป็ นจริงก็ได้ เราจึงต้องมีการ ทดสอบ สมมุติฐานที่เราตั้งขึ้นมาเพื่อทำาการทดสอบนี้ เรา เรียกว่า สมมุติฐานทางสถิติ (Statistical Hypothesis) หรือบางทีเรียกว่าสมมุติฐานว่าง (Null Hypothesis) ซึง่ จะไม่แสดงความแตกต่าง หรือไม่แสดงความสัมพันธ์ ระหว่างตัวแปร ใช้สญ ั ลักษณ์ ว่า Ho:
•
• • • •
สมมุตฐิ านวิจัย (Research Hypothesis) เป็ น สมมุติฐานที่นักวิจัยตั้งขึ้นซึง่ คาดคะเนความแตก ต่าง(มากกว่า น้อยกว่า หรือไม่เท่ากับ) หรือ คาด คะเนความสัมพันธ์ระหว่างตัวแปรว่ามีความสัมพันธ์กัน ในลักษณะใด ใช้สัญลักษณ์ H1: เนื่ องจาก Ho : และ H1: มีลักษณะตรงข้ามกัน การปฏิเสธ Ho : จึงเทูากับเป็ นการ ยอมรับ H1: การยอมรับ Ho : จึงเทูากับเป็ นการ ปฏิเสธ H1: (การทดสอบ เราจะทดสอบ Ho เสมอ)
• ต.ย. • สมมุติฐานวิจัย (H1:) • “นำ้าหนักเฉลี่ยของเด็กแรกเกิดในเมืองกับเด็กในชนบทแตกต่างกัน” หรือ • “นำ้าหนักเฉลี่ยของเด็กแรกเกิดในเมืองมากกว่ายองเด็กในชนบท” หรือ ่ ีความสัมพันธ์กับการเป็ นมะเร็งในปอด” • “การสูบบุหรีม
• สมมุติฐานสถิติ (Ho:) • “นำ้าหนักเฉลี่ยของเด็กในเมืองและของเด็ก ในชนบทไม่แตกต่างกัน” • “การสูบบุหรีไ่ ม่มีมีความสัมพันธ์กับการเป็ น มะเร็งในปอด”
• สุ่มตัวอย่างเด็กแรกเกิดในเมือง และใน ชนบทมาจำานวนหนึ่ งแล้วหานำ้าหนักเฉลี่ย หรือ • ติดตามคนที่สูบบุหรี่ และคนที่ไม่สบ ู บุหรี่ (ประชากร 2 กลุ่ม) แล้วดูว่ามีอัตราเป็ นโรค มะเร็งต่างกันหรือไม่ หรือ • การจะทดสอบสมมุตฐ ิ าน จำาเป็ นต้องไปเก็บ รวบรวมข้อมูลที่เกี่ยวข้องมา เช่น • ดูประวัติผป ู้ ่ วยมะเร็งปอดว่า มีพวกสูบบุหรี่ และพวกที่ไม่สูบบุหรีจ ่ ำานวนแตกต่างกันหรือ ไม่
• ความผิดพลาดในการทดสอบสมมุติฐาน 1. ความผิดพลาดชนิ ดที่ 1 (Type-I error) เป็ นความผิดพลาดเนื่ องจาก การปฏิเสธสมมุติฐาน เมื่อ สมมุตฐ ิ านนั้นเป็ น ความจริง บางทีเราเรียกว่า alpha-error 2. ความผิดพลาดชนิ ดที่ 2 (TypeII error) เป็ นความผิดพลาดเนื่ องจากการ ยอมรับสมมุติฐาน เมื่อ สมมุตฐ ิ านนั้นไม่เป็ น ความจริง • บางทีเราเรียกว่า beta-error
ในการวิจย ั เราพยายามลด Type-I error ลงให้ได้ มากที่สุดเท่าที่จะทำาได้ ในทางปฏิบต ั ิถ้าลดลงเหลือ 5% ได้ ก็ถือว่าอยู่ในระดับที่ยอมรับได้ แต่ถา้ เป็ นการวิจย ั ที่ เคร่งครัดมาก ๆ ก็อาจจะใช้ 1% หรือ .01% เราเรียก Type-I error ที่ยอมให้เกิดได้ในการ ทดสอบสมมุติฐานนี้ ว่าระดับนัยสำาคัญทางสถิติ (Significance Level) เช่นที่ .05 (เรายอมให้ผิดพลาดได้ • 5 ครั้งใน 100 ครั้ง) .01 (เรายอมให้ผิด • พลาดได้ 1 ครั้งใน 100 ครั้ง) .001 (เรายอมให้ผิด • พลาดได้ 1 ครั้งใน 1000 ครั้ง) •
• ส่วน ระดับความเชื่อมัน ่ ในการทดสอบ สมมุติฐานนั้นจะเท่ากับ (1 - alpha) x 100 • เช่น ระดับนัยสำาคัญ = .05 ระดับความเชื่อมัน ่ จะเท่ากับ ( 1 - .05) x 100 = 95 %
ขั้นตอนในการทดสอบสมมุตฐ ิ าน • • • • •
1. ตั้งสมมุติฐานทางสถิติ (Ho:)เพื่อใช้ใน การทดสอบ 2. เลือกตัวสถิติที่จะใช้ในการทดสอบ เช่น 2 “t” “F” “X ”
• 3. กำาหนดระดับนัยสำาคัญทางสถิติ หรือระดับ ความเชื่อมัน ่ ในการทดสอบ • 4. แทนค่าข้อมูลที่เก็บรวบรวมได้จากตัวอย่าง ลงในสูตรคำานวณ • 5. หาค่าวิกฤต (critical value) จากตาราง แจกแจงแบบต่าง ๆ ที่ ตรงกับตัวสถิติที่ใช้ใน การทดสอบ •
ั ค่าวิกฤต ถ้าค่าที่คำานวณ • 6. เปรียบเทียบค่าที่คำานวณได้กบ ได้ตกอย่ใู นเขตวิกฤต (critical region) คือมีคา่ มากกว่า critical value เราก็ปฏิเสธ Ho: (ที่ระดับนัยสำาคัญ นั้น ๆ) ถ้าค่าที่คำานวณได้นอ ้ ยกว่าค่าวิกฤต เราก็ยอมรับ Ho: เชูนเราปฏิเสธ สมมุติฐาน (Ho:) ที่ระดับนัย • สำาคัญ .05 หมายความวูาเรามีโอกาสจะผิดพลาด 5% (หรือ 5 ครั้ง ใน 100 ครั้ง)
•
การทดสอบด้านเดียว หรือสอง ด้าน (One-sided test or Two-sided Test) • บางทีเราเรียก ว่าการทดสอบ แบบ หางเดียว (One-tailed test) หรือ สอง หาง (Two-tailed test)
One-tailed test
1 -
Critical region or region of rejection Critical Value
หางเดียว กรณีมากกว่า
One-tailed test
1 -
Region of rejection
Region of Acceptance
หางเดียว กรณีน้อย กว่า
Two-tailed test
2
1 สองหาง กรณีแตกต่าง อาจจะมากกว่า หรือน้อย กว่าก็ได้
2
Chi-square distribution
Critical region or region of rej Region of Acceptance Critical value
• ต.ย. (1) ในการวิจัยเรื่องหนึ่ งผู้วิจัยเชื่อว่าจะมีความแตกต่างกัน ระหว่างเพศหญิงกับเพศชายในเรื่องรูปแบบการลงคะแนนเสียงเลือก ตั้ง กล่าวคือ ผู้ชายจะเลือกพรรค และผู้หญิงจะเลือกตัวบุคคล จึงไป สุ่มตัวอย่างประชากรมากจำานวน 100 ราย เป็ น ชาย 50 ราย และ เป็ นหญิง 50 ราย ผลการลงคะกนนในการเลือกตั้งครั้งที่แล้วเป็ น ดังนี้ ผู้ชายเลือกพรรค 40 ราย เลือก บุคคล 10 ราย ผู้หญิงเลือก พรรค 20 ราย และเลือกตัวบุคคล 30 ราย •
•
จงทำาการทดสอบดูว่ามีความแตก ต่างกันระหว่างเพศหญิง และเพศชายในเรื่อง วิธีการลงคะแนนเสียงเลือกตั้งหรือไม่ ที่ระดับ นัยสำาคัญ .05
• H1: มีความแตกต่างกันในรูปแบบการลง คะแนนเลือกตั้งระหว่างผู้หญิงกับผ้ช ู าย • Ho: ไม่มค ี วามแตกต่างกันในรูปแบบการลง คะแนนเลือกตั้งระหว่างผู้หญิงกับผ้ช ู าย
2
Chi-square (X ) •
•
•
2
Chi-square (X ) เป็ นสถิติที่ใช้บ่อยมากเมื่ อตัวแปรอยู่ในระดับ nominal scale, Chi-square จึงเป็ นสถิติที่สามารถใช้ทำาการทดสอบ สมมุติฐานได้
X2 = Σ
( O- E ) ²
E
• • • •
X
2
= Chi-square O = Observed frequencies E = Expected frequencies d.f. = degree of freedom
• E total) • total • d.f.
=
(row total) x (column Grand
=
(r - 1)(c - 1)
Observed
Expected • • • •
พรรค บุคคล
ชาย
หญิง
N = 100
E • • • • • •
= (row total) x (column total) Grand total a = 60 x 50 b = 60 x 50 100 100 c = 40 x 50 d = 40 x 50 100 100
Expected • • • • • • ••
พรรค บุคคล
X
ชาย
30 20
หญิง
50
30
20
60 50
40 N = 100
= (40 - 30) + (20 - 30) + (10 - 20) + (30 - 20) 30 30 20
2
20
2
2
2
2
• • • • • •
2
X
(ค่า Chi-square ที่คำานวณได้) d.f. = (2 - 1)(2 - 1) = 1 X = 3.841 (ค่าวิกฤตที่เปิ ดจากตาราง) เพราะฉะนั้น เราจึงปฏิเสธสมมุติฐาน Ho: หรือ ยอมรับ H1: ว่า มีความแตกต่างกันในวิธก ี ารลงคะแนนระหว่างเพศหญิง และเพศชาย อย่างมี นัยะสำาคัญทางสถิติ ที่ระดับนัยสำาคัญที่ .05
2
= 16.6
(. 05, d.f. = 1)
•
• แบบฝึ กหัด มหาวิทยาลัยแห่งหนึ่ งต้องการทราบความคิดเห็นของบุคลากรเกี่ยวกับการ • ที่มหาวิทยาลัยจะออกจากระบบราชการ โดย ผู้บริหารมหาวิทยาลัยมีความเชื่อว่า ข้าราชการที่อยู่ในสายต่างกันจะมีความคิดเห็นเกี่ยวกับเรื่องนี้ แตกต่างกันจึงไป ทำาการสุ่มตัวอย่างบุคลากรมาจำานวน 300 ราย แยกเป็ นสาย ก. 100 ราย สาย ข.50 ราย และสาย ค. 150 ราย ผลปรากฏว่า ข้าราชการสาย ก.เห็นด้วย 75 ราย ไม่เห็นด้วย 20 ราย และเฉย ๆ 5 ราย สาย ข. เห็นด้วย 20 ราย ไม่ เห็นด้วย 20 ราย เฉย ๆ 10 ราย สาย ค.เห็นด้วย 40 ราย ไม่เห็น ด้วย 100 และ เฉย ๆ 10 ราย จงทำาการทดสอบว่าความเชื่อของผู้บริหาร เกี่ยวกับเรื่องนี้ เป็ นจริงหรือไม่ที่ระดับความเชื่อมัน ่ 95 %
• (2) กรมสรรพาวุธได้ผลิตกระสุนปื นชนิ ดใหม่ และเชื่อว่า ความเร็ว เฉลี่ยของกระสุนปื นเมื่ออกจากปากกระบอกปื นจะสูงกว่า 3,000ฟุต ต่อวินาที จึงไปทำาการทดลองสุ่มยิงมา 8 นัด พบว่าได้ความเร็วของ กระสุนต่างๆ กันดังนี้ 3005, 2925, 2935, 2965, 2995, 3005, 2935, และ 2905ฟุตต่อวินาทีตามลำาดับ จงทดสอบว่าสมมุติฐานของกรมสรรพาวุธที่ว่ากระสุนชนิ ด • ใหม่จะมีความเร็วสูงกว่า 3000 ฟุตต่อวินาทีจริงหรือไม่ (ที่ระดับนัย สำาคัญ .05)
• Ho : • H1 :
M 3,000 ft / sec M 3,000 ft / sec
t-test
t =
8
=
n
X - M s)
( •
= 3000 = Σ ( xi - x ) • S 2 2 n • = (3005 - 2959) + (2925 - 2959)…………. + (2905 • - 2959) 2 2 2 8 8 • 8 = 1552.36 • = 1552.36 = 39.4 • S •
M
•
t
=
8
(2959 - 3000) 39.94 -2.94
• = • • d.f. = (n-1) • ค่า t ที่เปิ ดจากตาราง (ค่าวิกฤต) • ทีร่ ะดับนัยะสำาคัญ .05 d.f. = 7 มีค่าเท่ากับ 1.895
• เมื่อเปรียบเทียบค่า t ที่คำานวณได้ กับค่าวิกฤตที่เปิ ด จากตารางพบว่า • ค่า t ที่คำานวณได้มีค่าน้อยกว่า ค่าวิกฤติจากตาราง • เราจึงยอมรับ Ho: และปฏิเสธ H1: ที่ระดับนัยสำาคัญ .05 • กล่าวคือ ความเชื่อของกรมสรรพาวุธเกี่ยวกับ ความเร็วของกระสุนปื นที่ผลิตขึ้นใหม่วา่ จะสูงกว่า 3000 ft / sec นั้นไม่เป็ นความจริง
Greek Letters •Σ µ λ σ μ γ χ
•
การวัดความสัมพันธ์ระหว่าง ตัวแปร (Measures of Association) การใช้ Chi-square ทดสอบความสัมพันธ์ระหว่างตัวแปร 2 ตัว
เช่น เพศกับร่ปแบบการลงคะแนนเสียงเลือกตั้ง แล้วเราสรุปว่ามีความแตก ต่างกันระหว่างรูปแบบของการลงคะแนนระหว่างผู้มีสิทธิออกเสียงเลือกตั้ง ์ อกเสียงเลือกตั้งที่เป็ นผู้หญิงอย่างมีนย ที่เป็ นผู้ชาย และผู้มส ี ิทธิอ ั สำาคัญ ทางสถิติน้ น ั เพียงแต่ทำาให้เราทราบว่า เพศ คงจะมีความสัมพันธ์กบ ั รูป แบบการลงคะแนนเสียงเลือกตั้งเท่านั้น ไม่สามารถบอกขนาดของความ สัมพันธ์ ระหว่างตัวแปรทั้งสองได้ เราต้องใช้สถิติอีกกลุ่มหนึ่ งที่ใช้วัด ความสัมพันธ์ระหว่างตัวแปร
Nominal-Scale 1. สถิติที่ใช้ค่า Chi-square เป็ นพื้ นฐาน (Chi-squareBased Measures of Association) ์ วามมีเงื่อนไขของเพียร์สัน(Pearson’s 1.1 สัมประสิทธิค Contingency) Pearson’s C C
=
2 2
X X + N
• • •
เลือกพรรค เลือกบุคคล
ชาย 40 10
•
•
•
X
2
.05, d.f. 1
หญิง
50
20 30
= 16.6
60 40 50
N =100
16.6
C
=
16.6 + 100 =
0.38
• (2) Tschuprow’s T • • •
N
T
X
(r-1)(c-1) 2
=
• • •
•
16.6
T
= 100
(2-1)(2-1)
=
0.40
• • • •
•
•
(3) Cramer’s V V
=
2
m = (r-1) or (c-1), whichever is smaller
X mN
•
• •
•
•
V
=
16.6 1x100
=
0.40
• 2. Yule’s Q • กรณีตาราง 2 x 2 Yule’s Q เป็ นสถิตท ิ ี่นิยมใช้มากที่สุด เพราะใช้ได้ สะดวก • Q = ad - bc • ad + bc
• • • • • • • •
ชาย 40 10
เลือกพรรค เลือกบุคคล N =100
Q
หญิง
50
20 30
= (40 x 30) - (20 x 10) (40 x 30) + (20 x 10) = 0.71
60 40 50
์ ารคาดคะเนของกัทแมน (Guttman’s Coefficient • 3. สัมประสิทธิก • of Predictability) , Lambda ( λ ) • Lambda ( λ ) วางอยู่บนหลักการ ของโอกาสในการลดความผิด พลาดในการทำานาย หรือ PRE (Probable Reduction of Error)เมื่อเรารู้การแจกแจงของตัวแปรอีกตัวหนึ่ ง ต.ย. นักศึกษากลุ่มหนึ่ งสอบ Mid-term วิชาระเบียบวิธี • วิจัย ปรากฏว่ามีผู้สอบได้ 30 คน และ สอบตก 20 คน เราจะมี วิธีการทำานายอย่างไรว่าใครสอบได้ และใครสอบตก
ถ้าเราไม่รู้อะไรเลย วิธีทำานายที่ดีที่สุด คือทำานายว่า ทุกคนสอบได้หมด ซึ่งในการทำานายอย่างนี้ จะทำาให้ทำานายถูก ต้อง 30 และผิดพลาด 20 (ความผิดพลาดเดิม) ทีน้ ี สมมุตวิ ่าเราร้ข ู ้อมูลเกีย ่ วกับการแจกแจงของ • ตัวแปรอึกตัวหนึ่ งเพิ่มเติมคือในบรรดาคนที่สอบได้น้ น ั เป็ นคนที่ เคยเรียนวิชาสถิตม ิ าก่อน 22 คน และไม่เคยเรียนมาก่อน 8 คน ส่วนพวกที่สอบตก มีพวกที่เคยเรียนสถิติมาก่อน 3 คน อึก 17 คน ไม่เคยเรียนสถิติมาก่อน •
• • • •
เคยเรียน 3 ไม่เคยเรียน 17
สอบได้ 22 25 8 25 20 N =50
สอบตก
30
ทีน้ ี ถ้าเราร้วู ่าใครบ้างเคยเรียนสถิตม ิ าก่อน เราก็จะทำานายว่า สอบได้ • ทั้งหมด ซึ่งเราจะผิดพลาด 3 ราย ส่วนพวกที่ไม่เคยเรียนสถิตม ิ าก่อนเราก็จะทำานาย ว่าสอบตกทั้งหมด ซึ่งเราจะผิดพลาด 8 ราย (รวมเป็ นความผิดพลาดใหม่เพียง 11 ราย ลดลงจากเดิม 9 ราย) Lambda ( λ ) = ปริมาณความผิดที่ลดลง • ปริมาณความผิดพลาดเดิม • = 20 - 11 = 9 • = 0.45 20 • 20 •
• แปลว่า ถ้าเรารู้ประสบการณ์การเคยหรือไม่ เคยเรียนสถิติมาก่อน (ตัวแปรอิสระ) เราจะ สามารถลดความผิดพลาดในการทำานายลงได้ 45% หรือตัวแปรอิสระอธิบายการเกิดของ ตัวแปรตามได้ 45% • หรือการเรียนสถิติมาก่อนมีความ สัมพันธ์กับผลการสอบ Mid-term เท่ากับ 0.45
เราสามารถทำานายในทางกลับกันได้ด้วย คือ ทำานายว่าใครเคยเรียนสถิตม ิ าก่อนบ้าง ถ้าเรารู้แต่เพียงว่าในจำานวนนักศึกษา 50 คน • เคยเรียน สถิตม ิ าก่อน 25 คน ไม่เคยเรียน 25 คน เราจะ ทำานายว่าเคยเรียนมาก่อนทั้งหมด หรือไม่เคยเรียนมา ก่อนทั้งหมดก็ได้ เราก็จะผิดพลาด 25 ราย (ปริมาณความผิด • พลาดเดิม) •
•
• •
ทีน้ ี ถ้าเรารู้ผลสอบว่าใครบ้างสอบได้ และใคร บ้างที่สอบตกเราก็จะทำานายเปลีย ่ นไป คือคนทีส ่ อบได้ เราก็จะ ทำานายว่า เคยเรียนมาทั้งหมด ซึ่งเราจะผิดพลาด 8 ราย ส่วน พวกที่สอบตกเราก็จะทำานายว่าไม่เคยเรียนมาทั้งหมด ซึ่งเราจะ ผิดพลาด 3 ราย (รวมเป็ นความผิดพลาดใหม่เพียง 11 ราย ลดลงจากเดิม 14 ราย)
• • • •
ทีล ่ ดลง
Lambda ( λ ) =
ปริมาณความผิดพลาดเดิม 25 - 11 25
=
14 25
ปริมาณความผิด
= = 0.56
• Lambda ( λ ) •
• • •
fi Fd
=
= =
(
Σ
fi ) - Fd
N - Fd
ความถี่สูงสุดในชั้นย่อยของตัวแปรคัวที่ 1 ความถี่สูงสุดในยอดรวมของตัวแปรตัวที่ 2
• •
เคยเรียน
25 ไม่เคยเรียน • 25 •
สอบได้ 22
สอบตก
8
3 17
30
20 N =50 fi = ความถี่สูงสุดในชั้นย่อยของตัวแปรตัวที่ 1 = 22 • และ 17 Fd = ความถี่สงู สุดในยอดรวมของตัวแปรตัวที่ 2= 30 •
กรณีท่ี 1 • Lambda ( λ ) • • • • •
• •
=
(22 + 17 ) - 30
50 - 30 = 39 - 30 20 = 0.45
กรณีท่ี 2 • Lambda ( λ ) • • • • •
• •
=
(22 + 17 ) - 25
50 - 25 = 39 - 25 25 = 0.56
ในกรณีทต ี่ อ ้ งการจะทำานายตัวแปรตาม เมื่อรู้ตวั แปร อิสระ และขณะเดียวกัน ก็ตอ ้ งการทำานายตัวแปรอิสระเมื่อ รู้ตวั แปรตามด้วย เราเรียกว่า Lambda ( λ ) ไม่กำาหนด ทิศทาง คือต้องการความสัมพันธ์ระหว่างตัวแปรทั้งสองว่า มีขนาดของความสัมพันธ์ระหว่างกันเป็ นเท่าใด ในกรณี อย่างนี้ ่ ดลงของทั้ง • Lambda ( λ) = ปริมาณความผิดพลาดทีล สองตัวแปร ปริมาณความผิดพลาด • เดิมของทั้งสองตัวแปร •
• Lambda ( λ) = ปริมาณความผิดพลาดที่ลดลงของทั้งสองตัวแปร • ปริมาณความผิดพลาดเดิมของทั้งสอง • ตัวแปร = (20 - 11) + (25 - 11 ) • 20 + 25 • = 23 = 0.51 • 45 •
= Σfr + Σfc - (Fr + Fc) • Lambda ( λ ) 2N - (Fr • + Fc) • Σfr = ผลรวมของความถี่สูงสุดที่พบในแถว • Σfc = ผลรวมของความถี่สูงสุดที่พบในคอลัมน์ • Fr = ความถี่สูงสุดที่พบในยอดรวมของแถว • Fc = ความถี่สูงสุดที่พบในยอดรวมของคอลัมน์ = จำานวน รวม • N •
• •
เคยเรียน
3 25 ไม่เคยเรียน • 17 25 • •
สอบได้ 22
สอบตก
8
20 N =50
30
= Σfr + Σfc - (Fr + Fc) • Lambda ( λ ) 2N - (Fr • + Fc) • Σfr = (22 + 17) • Σfc = (22 + 17) Fr = 25 • Fc = 30 • N = 50 • •
• • • • • • • • •
•
•
Lambda ( λ )
=
(22 + 17) + (22 + 17) - (25 + 30) 2(50) - (25 + 30) = 78 + 55 100 - 55 = 23 45 = 0.51
จงหาความสัมพันธ์ระหว่างตัวแปรในตาราง ชาย หญิง เลือกพรรค 40 5 45 เลือกบุคคล 10 25 35 50 30 • N =80 โดยใช้ (1) สถิติทใี่ ช้ Chi-square เป็ นพื้ นฐาน (2) Yule’s Q และ • (3) Lambda แบบไม่กำาหนดทิศทาง • • • • •
แบบฝี กหัด
Ordinal Scale ์ วามสัมพันธ์เชิงอันดับของ กููดแมนและ ครัสคัล • 1. สัมประสิทธิค (Goodman and Kruskal’s Gamma, ) • = P - Q • P + Q • • P = Σ (ความถี่ของแต่ละ cell ในตารางคูณด้วยผลรวมของทุก cell ที่อย่ใู นบรรทัดที่ตาำ่ กว่าลากไปทางขวามือ) • Q = Σ (ความถี่ของแต่ละ cell ในตารางคูณด้วยผลรวมของทุก cell ที่อย่ใู นบรรทัดที่ตาำ่ กว่าลากไปทางซ้ายมือ)
• ต.ย. • • สูง 180 • กลาง 180 • ตำา่ •
ฟ.ฟมาก 40
ฟ.ฟ.ปานกลาง
50 80 180
ฟ.ฟ.น้อย 60
80
70
60
40 170
60 170
200 N = 540 P = 40(70+60+40+60)+ 60(60+60)+50(40+60)+70(60) =25,600 • Q= 80(70+50+40+80)+ 60(50+80)+60(40+80)+70(80) =39,800 • •
= 25,600 • P = 39,800 • Q = 25,600 - 39,800 • 25,600 + 39800 • = -14,200 • 65,400 • = -0.22 (มีความสัมพันธ์เชิงผกผันใน • ระดับตำา่ )
์ วามสัมพันธ์เชิงอันดับของสเปึ ยร์แมน • 2. สัมประสิทธิค • (Spearman’s Rho, γ)
• • • •
Rho (γ) - 1) สองครั้ง
=
1 -2
2
6 Σ di
n(n
di = ผลต่างของการจัดอันดับทั้ง n = จำานวน case ทั้งหมด
• • • • • • •
นักศึกษา ก. ข. ค. ง. จ.
9
อันดับ การสอบเข้า 5
16 1 1 9
N = 5 Σ = 36
อันดับ การสอบปลายปี
2
di
di
2
3
1
5
-4
3
4
-1
2
3
-1
4
1
3
• • • • • • •
Rho (γ)
=
2
1 - 6 Σ di
2
= =
เชิงผกผันในระดับสูง)
=
n(n - 1) 1 6(36) 5(25 - 1) 1 216 120 - 0.8 (มีความสัมพันธ์
Interval Scale ์ หสัมพันธ์ของเพียร์สัน (Pearson’s Product Moment 1. สัมประสิทธิส Coefficient, r
=
Pearson’s r)
N ΣXY -
Correlation
(ΣX) (ΣY)
{ N ΣX - ( Σ X ) }{ N Σ Y - ( Σ Y ) • •
X Y
= ตัวแปรอิสระ = ตัวแปรตาม
2
2
2 2
Country
Percent of Per Capita XY Urban (X) GNP (Y)
Nepal
4.4
45
Afghanistan
7.5
50
Laos
4.0
50
Burma
10.0
57
Libya
18.4
60
Pakistan
11.8
70
Bolivia
21.0
99
Iran
21.0
108
Jordan
25.5
129
Egypt
29.1
142
Iraq
23.6
156
Syria
38.8
173
Turkey
18.2
220
Spain
39.8
293
Japan
43.1
306
Chile
46.3
379
Total
360.9
2,337
X2
Y2
Country
Percent of Per Capita Urban (X) GNP (Y)
XY X2
Y2
Nepal
4.4
45
198.0
19.36
2,025
Afghanistan
7.5
50
375.0
56.25
2,500
Laos
4.0
50
200.0
16.00
2,500
Burma
10.0
57
570.0
100.00
3,249
Libya
18.4
60
1,104.0
338.56
3,600
Pakistan
11.8
70
826.0
139.24
4,900
Bolivia
21.0
99
1,920.6
376.36
9,801
Iran
21.0
108
2,268.0
441.00
11,664
Jordan
25.5
129
3,289.5
650.25
16,641
Egypt
29.1
142
4,132.2
846.81
20,164
Iraq
23.6
156
3681.6
556.96
34,336
Syria
38.8
173
6,712.4
1,505.44
29,929
Turkey
18.2
220
4,004.0
331.24
48,400
Spain
39.8
293
11.661.4
1,584.24
85,849
Japan
43.1
306
13,188.6
1,857.61
93,636
Chile
46.3
379
17,547.7
2,143.69
143,641
Total
360.9
2,337
71,679.0
10,962.81
502,835