Statistics For Social Research

  • Uploaded by: สมพร เขียวจันทร์
  • 0
  • 0
  • June 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Statistics For Social Research as PDF for free.

More details

  • Words: 3,566
  • Pages: 125
สถิติเพื่อการวิจย ั ทางสังคม (Statistics for Social Research)

ั • บทบาทของสถิติในการวิจย 1. อธิบาย และพรรณนาลักษณะของข้อมูล - Descriptive Statistics 2. อนุมานไปถึงลักษณะของประชากรในวงกว้าง - Inferential Statistics



The Univariate Distribution (การแจกแจงของตัวแปรตัวเดียว) •

การแจกแจงความถี่ (Frequency Distribution)

• • • • • • 100

ศาสนา พุทธ คริสต์ อิสลาม รวม

จำานวน (f) 160 10 30

%

200

80 5 15

การวัดแนวโน้มเข้าสู่สูวนกลาง (Measures of Central Tendency)

ค่าแนวโน้มเข้าสู่ส่วนกลางคือค่าที่แสดงลักษณะ ทัว่ ๆ ไป (typical) ของข้อมูลชุดนั้น ๆ โดยธรรมชาติแล้ว สิ่งต่าง ๆ มักมีการแจกแจงแบบปกติ (normally distributed) หรือใกล้เคียงปกติ ค่ากลาง ๆ จึงมีจำานวน มากที่สุด i.e. ความสูง เชาวน์ปัญญา ความสวยงาม ฯลฯ 1. ฐานนิ ยม (Mode) 2. มัธยฐาน (Median) 3. มัชฌิมเลขคณิต (Arithmetic Mean)



2.1 ฐานนิ ยม (The mode) การแจกแจงของศาสนาต่าง ๆ ศาสนา พุทธ คริสต์ อิสลาม รวม

f 160 10 30 200

Mode คือ คะแนนที่มค ี วามถี่ สูงสุดในการแจกแจงของคะแนนชุดหนึ่ ง ๆ ในที่น้ ี คือศาสนาพุทธ ซึ่งมีความถี่ 160 หรือกล่าวอีกอย่าง หนึ่ งคือในจำานวนประชากร 200 ราย ที่เราศึกษา มี คนนับถือศาสนาพุทธถึง 160 ราย (ลักษณะที่เห็น ได้ทัว่ ไปคือคนนับถือพุทธศาสนา) ตามปกติในคะแนนชุดหนึ่ ง ๆ จะ มีค่า Mode เพียงค่าเดียว หรือเป็ น unimodal distribution อย่างไรก็ตามบางครั้งข้อมูลก็อาจจะ เป็ น bimodal distribution โดยเฉพาะอย่ายิ่งถ้ามี การรวมประชากร 2 กลุ่มเข้าด้วยกัน เช่นความสูง ของประชากรที่เป็ นผู้ใหญ่ท้ ังชาย-หญิง จะมีค่า

Mode เป็ นการวัดอย่างหยาบ ๆ เราสามารถมองเห็นการกระจาย ของข้อมูลได้อย่าง รวดเร็ว 2.2 มัธยฐาน (The Median) Median คือคะแนนที่ที่อยู่ตรง ตำาแหน่งกี่งกลางที่แบ่งคะแนนออกเป็ น 2 ส่วนเท่า ๆ กัน มัธยะ = คะแนน 1, 3, 4, 6, 7

จุดกึ่งกลาง เช่น

คะแนนที่อยู่ตรงตำาแหน่งกึ่งกลาง หลังจากการจัดเรียงลำาดับคะแนน แล้วได้แก่

วืธห ี าค่ามัธยฐาน 1. ให้จัดลำาดับคะแนนโดย เรียงจาก น้อยไปหามาก หรือมากไปหาน้อยก็ได้ 2. หาคะแนนที่อยู่ตำาแหน่ง กึง่ กลางที่จะแบ่งคะแนนออกเป็ นสองส่วนเท่า ๆ กัน

(N+1)/2

3. Median = สำาหรับข้อมูลที่มีจำานวนเป็ นคี่

ค่าเฉลี่ยของคะแนนที่ N/2 และ (N/2+1) มีจำานวนเป็ นคู่

= สำาหรับ ข้อมูลที่

ต.ย. สำาหรับคะแนนที่มีจำานวนเป็ นคี่ 6, 9, 11, 12, 16, 18, 21, 24, 30 Median = (N+1)/2 ตัวที่ห้า)

= (9+1)/2

= 5 (ได้แก่คะแนน = 16

ต.ย. สำาหรับคะแนนที่มีจำานวนเป็ นคู่ 4, 5, 6, 7, 8, 9

1, 3,

Median = ค่าเฉลี่ยของคะแนน ตำาแหน่งที่ N/2 หรือ (8/2 = คะแนนตำาแหน่งที่ 4 ซึง่ ได้แก่คะแนน 5) และ คะแนนตำาแหน่งที่ N/2+1

Mean)

2.3 มัชฌิมเลขคณิต (The Arithmetic

มัชฌิมเลขคณิต หรือค่าเฉลี่ย เป็ นค่าสถิตท ิ ี่ใช้บ่อยที่สุดในการวิจัย บางครั้งเรียกสั้น ๆ ว่า ค่า Mean n Σ

x =

i =1

N

xi

สูตร

สมมุตวิ ่า นศ.ปริญญาโท รปศ. ใช้เวลาดูโทรทัศน์ใน หนึ่ งงสัปดาห์ดังนี้ 6, 7, 12, 11, 10, 3, 4, 1, อยากทราบว่าน ศ.รปศ.ดูโทรทัศน์โดยเฉลี่ยสัปดาห์ ละ กีช ่ ัว่ โมง

Σ x =

n

i =1

xi

N

6+7+12+11+10+3+4+1

x

=

=

54

อาจารย์คณะรัฐศาสตร์มหาวิทยาลัยแห่งหนึ่ งใช้เวลาศึกษาในต่างประเทศดัง ต่อไปนี้ จำานวนปี

จำานวนอาจารย์ (f)

2

3 3

2

6

5 8

10

10

8

12

4

14

2

อาจารย์คณะรัฐศาสตร์มหาวิทยาลัยแห่งหนึ่ งใช้เวลาศึกษาในต่างประเทศดัง ต่อไปนี้ จำานวนปี f x 2

จำานวนอาจารย์ (f) 3

6 3

6

2

6

5 8

30 10

10

8

80

12

4

48

80

• •

X =

278

• 34 • = 8.18 • อาจารย์ภาควิชารัฐศาสร์ใช้เวลาในการศึกษา ต่อต่างประเทศ 8.18 ปี

การวัดการกระจาย (Measures of Dispersion) •

ค่ากลางแสดงลักษณะของข้อมูลได้ไม่ละเอียดเพราะยัง ไม่เห็นการกระจายตัวของคะแนนออกจากค่ากลาง เช่นคะแนน 2 ชุดอาจจะมีค่ามัฌิมเลขคณิต (Mean) เท่ากัน แต่อาจจะมีการกระ จายตัวแตกต่งกันมาก เช่นนักศึกษษ 2 Section อาจสอบ Midterm ได้คะแนนเฉลี่ยเท่ากัน แต่นักศึกษา Sect หนึ่ งอาจมีคะแนน สอบเกาะกลุ่มอย่รู อบ ๆ Mean ขณะที่นักศึกษาอีก Sect หนึ่ งอาจ จะมี คะแนนสูงมาก ๆ และตำา่ มาก ๆ รวมอยู่ แต่เมื่อหาค่า Mean ออกมาแล้วมีค่าเท่ากัน เป็ นต้น

• การแสดงค่าการกระจายของข้อมูลชุดนั้น ๆ ประกอบไว้ด้วยจะทำาให้ เรามองเห็นภาพ หรือลักษณะของข้อมูลได้ดียงิ่ ขี้น (1) พิสัย (Range) • ได้แก่ระยะห่างระหว่างคะแนนสูงสุด และ • คะแนนตำา่ สุด Range = Max - Min • สมมุติว่าคะแนนชุดหนึ่ งมีดังนี้ 4, 6, 8, 9, • 17 พิสย ั ของคะแนนชุดนี้ = 17 - 4 = 13 •

• •

(2) สูวนเบีย ่ งเบนเฉลีย ่ (Mean Deviation) ได้แก่ค่าเฉลี่ยของความ เบีย ่ งเบนของคะแนนแต่ละตัวที่เบีย ่ งเบนออก จากค่า Mean

Average deviation N

Average Deviation =

Σ i= 1

( X i- X ) ————————— N

สมมุติว่าคะแนนชุดหนึ่ งมีดังนี้ • 2, 4, 6, 8, 10 • X = 2+4+6+8+10 • 5 • = 6 • (2-6)+(4-6)+(6-6)+(8-6)+(10-6) • Average Deviation = • 5

• •

Average Deviation =

(-4)+(-2)+(0)+(2)+(4)

= 0

5

เพื่อแก้ไขปั ญหานี้ เราจึง ignore เครื่องหมาย คือไม่นำาเครื่องหมายมาคำานวณ คง คิดแต่ค่า • absolute value Mean Deviation = (4)+(2)+(0)+(2)+(4) = 12 = 2.4 • 5 5 •

Mean deviation

N

Σ i=1

Xi - X Mean Deviation = ———————— N

• (3) ความแปรปรวน (Variance) Variance มีวธ ิ ค ี ิดเช่นเดียวกับ Mean • Deviation เพียงแต่แทนที่จะ ignore เครื่องหมาย เราใช้ วิธย ี กกำาลังสองเพื่อเปลี่ยนให้ค่า ลบเปลี่ยนเป็ นบวก ทำาให้ค่า Variance ไม่มค ี ่าเป็ นศูนย์ อย่างไรก็ตามค่า Variance ก็ยังไม่ใช่ค่า • การกระจายทีแ ่ ท้จริง เพราะเกิดจาการที่เราไปยกกำาลังสอง ผลต่างของคะแนนแต่ละตัวที่กระจายตัวออกจากค่า Mean

The Variance N

Σ i=1

( X i- X ) ² s ² = ————————— N

(Definitional formula)

N

Σ i=1

2

Xi s ² = —————— - X N

2

(Computational formula)

• • • • • 144 • •

_

Xi 3 4 6 12

Xi - X -6 -5 -3 3

20 X= 9

11

2(Xi - X)

2

36 25 9 9

121 200

Xi

9 16 36 400 605

่ งเบนมาตรฐาน (Standard Deviation) • (4) ส่วนเบีย เพื่อนำาค่าการกระจายกลับมาสู่ค่าที่แท้จริง (ไม่ใช่คา่ ยกกำาลังสอง) เราจึงใส่ รากที่สอง (Square root) ของค่าความ แปรปรวน ส่วนเบีย ่ งเบนมาตรฐานจึงเป็ นค่าเฉลี่ยของการกระจาย ของข้อมูลชุดนั้น ๆ หรือกล่าวอีกนัยหนึ่ ง ส่วนเบีย ่ งเบนมาตรฐานจึง เป็ นค่ารากที่สอง (square root)ของค่า ความแปรปรวน หรือ Variance นัน ่ เอง

Standard deviation N

s=

Σ ( i=1

X i- X ) ² ————————— N

(Definitional formula)

N

s=

Σ Xi i=1

2

—————— - X N

2

(Computational formula)

• ความพีงพอในชีวิตของคน 4 ประเทศ (Mean and S.D.) Germany (950) • UK (903) US (980) Mean S.D • Mean S.D Mean S.D 1.0 6.7 • 6.7 3.2 6.5 1.3

Italy (998) Mean S.D 1.2

6.6

• การมีส่วนร่วมทางการเมืองของคน 4 ประเทศ (Mean and S.D.) Germany (950) Italy • UK (903) (998) US (980) Mean S.D • Mean S.D Mean S.D Mean S.D 2.7 5.4 2.9 • 4.75 2.8 2.8 5.64 2.7

์ วามผันแปร (Coeeficient of • (5) สัมประสิทธิค Variation, V) s • • • •



V

x=



ค่าส่วนเบี่ยงเบนมาตรฐานไม่สามารถนำามา เปรียบเทียบโดยตรงได้ หากค่า Mean แตกต่าง กันมากเพราะ S.D. เป็ นค่าที่ผูกติดกับค่า Mean ์ วามผันแปร จะทำาให้สามารถ การหาค่าสัมประสิทธิค เปรียบเทียบการกระจายตัวของมูลแต่ละชุดได้

• การมีสว่ นร่วมทางการเมืองของคน 4 ประเทศ (Mean and V) • UK (903) Italy (998) V • Mean Mean V 0.57 • 4.75 2.8 1.00

Germany (950) US (980) Mean V Mean V 5.4 0.54 5.64 0.48

โค้งปกติ

(Normal Curve)

• คุณสมบัติ 1. มีลักษณะสมมาตรเป็ นรูประฆังควำา ่ • 2. Mean, Median, Mode อยู่บนจุดเดียวกัน • 3. เกิดจากจำานวน Case ทีน ่ ับไม่ถ้วน • 4. สัดส่วนของพื้ นที่ภายใต้โค้งปกติในแต่ละช่วง • ของคะแนนมาตรฐานที่แยกออกจาก Mean ต่อพื้ นที่ท้ ังหมดมี สัดส่วนที่แน่นอน •

โค้งปกติ

(Normal Curve)

Proportions under the normal curve

34.13% 34.13% 13.6%

13.6%

2.13%

-3s

-2 s

2.13%

-s

X

+s

+2 s

+3 s

• หมายความว่า + 1 s ครอบคลุมพื้ นที่ 68.26 + 2 s ครอบคลุมพื้ นที่ 95.46 • + 3 s ครอบคลุมพื้ นที่ 99.72 • • ระยะห่างจาก Mean แต่ละหน่วยของ S หรือ S.D. นี้ เราเรียกว่า คะแนนมาตรฐาน (Standard Score หรือ Z-Score) •

การหาพื้ นที่ภายใต้โค้งปกติในแต่ละช่วงคะแนน มาตรฐาน สมมุติว่าในการสำารวจ I.Q. ของเด็กในชุมชน หนึ่ ง พบว่ามีค่าเฉลี่ยของ I.Q. = 100 และมี S.D. = 10 ถ้าการแจกแจงของ I.Q. เป็ นแบบปกติ เราจะสรุปด้วยความมัน ่ ใจได้ว่า • 68.26% ของเด็กในชุมชนจะมี I.Q. • ระหว่าง 90 - 110 95.46 % ของเด็กในชุมชนจะมี I.Q. • ระหว่าง 80 - 120 และ 99.72% ของเด็กใน ชุมชนจะมี I.Q. ระหว่าง 70 - 130 •

การคำานนวณหาคะแนนมาตรฐาน

• • • • • •

Z

score)

=

Xi - X

Xi X s Z

= = = =

s คะแนนแต่ละตัว มัชฌิมเลขคณิ ต ส่วนเบี่ยงเบนมาตรฐาน คะแนนมาตรฐาน (standard

• ต.ย. ชุมชนแห่งหนึ่ งประชากรมีรายได้เฉลี่ยเดือนละ 10,000 บาท มีค่าส่วนเบี่ยงเบนมาตรฐานเท่ากับ 2,000 บาท อยากทราบว่าถ้าการกระจายรายได้ของ คนในชุมชนนี้ เป็ นแบบปกติ (ก) จะมีประชากรร้อยละเท่าใดที่มีรายได้ • ระหว่าง 6,000 – 10,000บาท และ (ข) จะมีประชากรร้อยละเท่าใดที่มีราย • ได้ระหว่าง 11,000 – 15,000 บาท

ข้อ (ก)

47.73%

Xi 6.000

X 10.000

• หาประชากรที่มีรายได้ระหว่าง 6,000 10,000 โดยการหา พ.ท. ภายใต้โค้งปกติ (โดยการหาคะแนนมาตรฐาน) • Z = 6,000 - 10,000 • 2,000 • = -2 • พ.ท. = 47.73 % ของพื้ นที่ท้ ังหมด

47.73% 47.73%

Xi 6.000

X 10.000

ข้อ (ข)

X 10.000 11.000

15.000

• หาประชากรที่มีรายได้ระหว่าง 11,000 - 15,000 โดย การหา พ.ท. ภายใต้โค้งปกติระหว่างคะแนน 10,000 - 1 5,000 ก่อน (โดยการหาคะแนนมาตรฐาน) • Z1 = 15,000 - 10,000 2,000 • = 2.5 • • พ.ท. = 49.38 % ของพื้ นที่ท้ งั หมด •

49.38 % X 10.000

15.000

• จากนั้ นจึงหาประชากรที่มรี ายได้ระหว่าง 10,000 - 11,000 โดยการหา พ.ท. ภายใต้ โค้งปกติ (โดยการหาคะแนนมาตรฐาน) • Z2 = 11,000 - 10,000 • 2,000 • = 0.5 • พ.ท. = 19.15 % ของพิ้นที่ท้ ังหมด

X 10.000 11,000

• จากนั้ นจึงนำาพื้ นที่ ภายใต้โค้งปกติระหว่างรายได้ 10,000-11,000 (19.15%) ลบออกจากพื้ นที่ภายใต้โค้งปกติ ระหว่างรายได้ 10,000-15,000 (49.38%) จะทำาให้ได้พนที ื้ ่ ภายใต้โค้งที่เราต้องการ พื้ นที่ภายใต้โค้งระหว่าง 11,000 - 15,000 บาท • = 49.38 - 19.15 • = 30.23% ของพื้ นที่ท้ ังหมด • •

19.15 X 10.000 11,000

19.15 X 10.000 11.000

15.000

30.23%

X 10.000 11.000

15.000

• แบบฝึ กหัด จากโจทก์เดิม จงหา • (ก) ประชากรทีม ่ ีรายได้ระหว่าง 7,000-9,000 บาท และ (ข) ประชากรที่มีรายได้ระหว่าง 12,000-16,000 บาท

การทดสอบสมมุติฐาน Hypothesis Testing

สมมุติฐาน คือข้อสมมุติที่นก ั วิจย ั ตั้งขึ้นมา เป็ นความเชื่อของนักวิจย ั เกี่ยวกับเรื่องใดเรื่องหนึ่ ง ความ เชื่อนี้ จะเป็ นจริงหรือไม่เป็ นจริงก็ได้ เราจึงต้องมีการ ทดสอบ สมมุติฐานที่เราตั้งขึ้นมาเพื่อทำาการทดสอบนี้ เรา เรียกว่า สมมุติฐานทางสถิติ (Statistical Hypothesis) หรือบางทีเรียกว่าสมมุติฐานว่าง (Null Hypothesis) ซึง่ จะไม่แสดงความแตกต่าง หรือไม่แสดงความสัมพันธ์ ระหว่างตัวแปร ใช้สญ ั ลักษณ์ ว่า Ho:



• • • •

สมมุตฐิ านวิจัย (Research Hypothesis) เป็ น สมมุติฐานที่นักวิจัยตั้งขึ้นซึง่ คาดคะเนความแตก ต่าง(มากกว่า น้อยกว่า หรือไม่เท่ากับ) หรือ คาด คะเนความสัมพันธ์ระหว่างตัวแปรว่ามีความสัมพันธ์กัน ในลักษณะใด ใช้สัญลักษณ์ H1: เนื่ องจาก Ho : และ H1: มีลักษณะตรงข้ามกัน การปฏิเสธ Ho : จึงเทูากับเป็ นการ ยอมรับ H1: การยอมรับ Ho : จึงเทูากับเป็ นการ ปฏิเสธ H1: (การทดสอบ เราจะทดสอบ Ho เสมอ)

• ต.ย. • สมมุติฐานวิจัย (H1:) • “นำ้าหนักเฉลี่ยของเด็กแรกเกิดในเมืองกับเด็กในชนบทแตกต่างกัน” หรือ • “นำ้าหนักเฉลี่ยของเด็กแรกเกิดในเมืองมากกว่ายองเด็กในชนบท” หรือ ่ ีความสัมพันธ์กับการเป็ นมะเร็งในปอด” • “การสูบบุหรีม

• สมมุติฐานสถิติ (Ho:) • “นำ้าหนักเฉลี่ยของเด็กในเมืองและของเด็ก ในชนบทไม่แตกต่างกัน” • “การสูบบุหรีไ่ ม่มีมีความสัมพันธ์กับการเป็ น มะเร็งในปอด”

• สุ่มตัวอย่างเด็กแรกเกิดในเมือง และใน ชนบทมาจำานวนหนึ่ งแล้วหานำ้าหนักเฉลี่ย หรือ • ติดตามคนที่สูบบุหรี่ และคนที่ไม่สบ ู บุหรี่ (ประชากร 2 กลุ่ม) แล้วดูว่ามีอัตราเป็ นโรค มะเร็งต่างกันหรือไม่ หรือ • การจะทดสอบสมมุตฐ ิ าน จำาเป็ นต้องไปเก็บ รวบรวมข้อมูลที่เกี่ยวข้องมา เช่น • ดูประวัติผป ู้ ่ วยมะเร็งปอดว่า มีพวกสูบบุหรี่ และพวกที่ไม่สูบบุหรีจ ่ ำานวนแตกต่างกันหรือ ไม่

• ความผิดพลาดในการทดสอบสมมุติฐาน 1. ความผิดพลาดชนิ ดที่ 1 (Type-I error) เป็ นความผิดพลาดเนื่ องจาก การปฏิเสธสมมุติฐาน เมื่อ สมมุตฐ ิ านนั้นเป็ น ความจริง บางทีเราเรียกว่า alpha-error 2. ความผิดพลาดชนิ ดที่ 2 (TypeII error) เป็ นความผิดพลาดเนื่ องจากการ ยอมรับสมมุติฐาน เมื่อ สมมุตฐ ิ านนั้นไม่เป็ น ความจริง • บางทีเราเรียกว่า beta-error

ในการวิจย ั เราพยายามลด Type-I error ลงให้ได้ มากที่สุดเท่าที่จะทำาได้ ในทางปฏิบต ั ิถ้าลดลงเหลือ 5% ได้ ก็ถือว่าอยู่ในระดับที่ยอมรับได้ แต่ถา้ เป็ นการวิจย ั ที่ เคร่งครัดมาก ๆ ก็อาจจะใช้ 1% หรือ .01% เราเรียก Type-I error ที่ยอมให้เกิดได้ในการ ทดสอบสมมุติฐานนี้ ว่าระดับนัยสำาคัญทางสถิติ (Significance Level) เช่นที่ .05 (เรายอมให้ผิดพลาดได้ • 5 ครั้งใน 100 ครั้ง) .01 (เรายอมให้ผิด • พลาดได้ 1 ครั้งใน 100 ครั้ง) .001 (เรายอมให้ผิด • พลาดได้ 1 ครั้งใน 1000 ครั้ง) •

• ส่วน ระดับความเชื่อมัน ่ ในการทดสอบ สมมุติฐานนั้นจะเท่ากับ (1 - alpha) x 100 • เช่น ระดับนัยสำาคัญ = .05 ระดับความเชื่อมัน ่ จะเท่ากับ ( 1 - .05) x 100 = 95 %

ขั้นตอนในการทดสอบสมมุตฐ ิ าน • • • • •

1. ตั้งสมมุติฐานทางสถิติ (Ho:)เพื่อใช้ใน การทดสอบ 2. เลือกตัวสถิติที่จะใช้ในการทดสอบ เช่น 2 “t” “F” “X ”

• 3. กำาหนดระดับนัยสำาคัญทางสถิติ หรือระดับ ความเชื่อมัน ่ ในการทดสอบ • 4. แทนค่าข้อมูลที่เก็บรวบรวมได้จากตัวอย่าง ลงในสูตรคำานวณ • 5. หาค่าวิกฤต (critical value) จากตาราง แจกแจงแบบต่าง ๆ ที่ ตรงกับตัวสถิติที่ใช้ใน การทดสอบ •

ั ค่าวิกฤต ถ้าค่าที่คำานวณ • 6. เปรียบเทียบค่าที่คำานวณได้กบ ได้ตกอย่ใู นเขตวิกฤต (critical region) คือมีคา่ มากกว่า critical value เราก็ปฏิเสธ Ho: (ที่ระดับนัยสำาคัญ นั้น ๆ) ถ้าค่าที่คำานวณได้นอ ้ ยกว่าค่าวิกฤต เราก็ยอมรับ Ho: เชูนเราปฏิเสธ สมมุติฐาน (Ho:) ที่ระดับนัย • สำาคัญ .05 หมายความวูาเรามีโอกาสจะผิดพลาด 5% (หรือ 5 ครั้ง ใน 100 ครั้ง)



การทดสอบด้านเดียว หรือสอง ด้าน (One-sided test or Two-sided Test) • บางทีเราเรียก ว่าการทดสอบ แบบ หางเดียว (One-tailed test) หรือ สอง หาง (Two-tailed test)

One-tailed test

1 -

Critical region or region of rejection Critical Value

หางเดียว กรณีมากกว่า

One-tailed test

1 -

Region of rejection

Region of Acceptance

หางเดียว กรณีน้อย กว่า

Two-tailed test

2

1 สองหาง กรณีแตกต่าง อาจจะมากกว่า หรือน้อย กว่าก็ได้

2

Chi-square distribution

Critical region or region of rej Region of Acceptance Critical value

• ต.ย. (1) ในการวิจัยเรื่องหนึ่ งผู้วิจัยเชื่อว่าจะมีความแตกต่างกัน ระหว่างเพศหญิงกับเพศชายในเรื่องรูปแบบการลงคะแนนเสียงเลือก ตั้ง กล่าวคือ ผู้ชายจะเลือกพรรค และผู้หญิงจะเลือกตัวบุคคล จึงไป สุ่มตัวอย่างประชากรมากจำานวน 100 ราย เป็ น ชาย 50 ราย และ เป็ นหญิง 50 ราย ผลการลงคะกนนในการเลือกตั้งครั้งที่แล้วเป็ น ดังนี้ ผู้ชายเลือกพรรค 40 ราย เลือก บุคคล 10 ราย ผู้หญิงเลือก พรรค 20 ราย และเลือกตัวบุคคล 30 ราย •



จงทำาการทดสอบดูว่ามีความแตก ต่างกันระหว่างเพศหญิง และเพศชายในเรื่อง วิธีการลงคะแนนเสียงเลือกตั้งหรือไม่ ที่ระดับ นัยสำาคัญ .05

• H1: มีความแตกต่างกันในรูปแบบการลง คะแนนเลือกตั้งระหว่างผู้หญิงกับผ้ช ู าย • Ho: ไม่มค ี วามแตกต่างกันในรูปแบบการลง คะแนนเลือกตั้งระหว่างผู้หญิงกับผ้ช ู าย

2

Chi-square (X ) •





2

Chi-square (X ) เป็ นสถิติที่ใช้บ่อยมากเมื่ อตัวแปรอยู่ในระดับ nominal scale, Chi-square จึงเป็ นสถิติที่สามารถใช้ทำาการทดสอบ สมมุติฐานได้

X2 = Σ

( O- E ) ²

E

• • • •

X

2

= Chi-square O = Observed frequencies E = Expected frequencies d.f. = degree of freedom

• E total) • total • d.f.

=

(row total) x (column Grand

=

(r - 1)(c - 1)

Observed

Expected • • • •

พรรค บุคคล

ชาย

หญิง

N = 100

E • • • • • •

= (row total) x (column total) Grand total a = 60 x 50 b = 60 x 50 100 100 c = 40 x 50 d = 40 x 50 100 100

Expected • • • • • • ••

พรรค บุคคล

X

ชาย

30 20

หญิง

50

30

20

60 50

40 N = 100

= (40 - 30) + (20 - 30) + (10 - 20) + (30 - 20) 30 30 20

2

20

2

2

2

2

• • • • • •

2

X

(ค่า Chi-square ที่คำานวณได้) d.f. = (2 - 1)(2 - 1) = 1 X = 3.841 (ค่าวิกฤตที่เปิ ดจากตาราง) เพราะฉะนั้น เราจึงปฏิเสธสมมุติฐาน Ho: หรือ ยอมรับ H1: ว่า มีความแตกต่างกันในวิธก ี ารลงคะแนนระหว่างเพศหญิง และเพศชาย อย่างมี นัยะสำาคัญทางสถิติ ที่ระดับนัยสำาคัญที่ .05

2

= 16.6

(. 05, d.f. = 1)



• แบบฝึ กหัด มหาวิทยาลัยแห่งหนึ่ งต้องการทราบความคิดเห็นของบุคลากรเกี่ยวกับการ • ที่มหาวิทยาลัยจะออกจากระบบราชการ โดย ผู้บริหารมหาวิทยาลัยมีความเชื่อว่า ข้าราชการที่อยู่ในสายต่างกันจะมีความคิดเห็นเกี่ยวกับเรื่องนี้ แตกต่างกันจึงไป ทำาการสุ่มตัวอย่างบุคลากรมาจำานวน 300 ราย แยกเป็ นสาย ก. 100 ราย สาย ข.50 ราย และสาย ค. 150 ราย ผลปรากฏว่า ข้าราชการสาย ก.เห็นด้วย 75 ราย ไม่เห็นด้วย 20 ราย และเฉย ๆ 5 ราย สาย ข. เห็นด้วย 20 ราย ไม่ เห็นด้วย 20 ราย เฉย ๆ 10 ราย สาย ค.เห็นด้วย 40 ราย ไม่เห็น ด้วย 100 และ เฉย ๆ 10 ราย จงทำาการทดสอบว่าความเชื่อของผู้บริหาร เกี่ยวกับเรื่องนี้ เป็ นจริงหรือไม่ที่ระดับความเชื่อมัน ่ 95 %

• (2) กรมสรรพาวุธได้ผลิตกระสุนปื นชนิ ดใหม่ และเชื่อว่า ความเร็ว เฉลี่ยของกระสุนปื นเมื่ออกจากปากกระบอกปื นจะสูงกว่า 3,000ฟุต ต่อวินาที จึงไปทำาการทดลองสุ่มยิงมา 8 นัด พบว่าได้ความเร็วของ กระสุนต่างๆ กันดังนี้ 3005, 2925, 2935, 2965, 2995, 3005, 2935, และ 2905ฟุตต่อวินาทีตามลำาดับ จงทดสอบว่าสมมุติฐานของกรมสรรพาวุธที่ว่ากระสุนชนิ ด • ใหม่จะมีความเร็วสูงกว่า 3000 ฟุตต่อวินาทีจริงหรือไม่ (ที่ระดับนัย สำาคัญ .05)

• Ho : • H1 :

M 3,000 ft / sec M 3,000 ft / sec

t-test

t =

8

=

n

X - M s)

( •

= 3000 = Σ ( xi - x ) • S 2 2 n • = (3005 - 2959) + (2925 - 2959)…………. + (2905 • - 2959) 2 2 2 8 8 • 8 = 1552.36 • = 1552.36 = 39.4 • S •

M



t

=

8

(2959 - 3000) 39.94 -2.94

• = • • d.f. = (n-1) • ค่า t ที่เปิ ดจากตาราง (ค่าวิกฤต) • ทีร่ ะดับนัยะสำาคัญ .05 d.f. = 7 มีค่าเท่ากับ 1.895

• เมื่อเปรียบเทียบค่า t ที่คำานวณได้ กับค่าวิกฤตที่เปิ ด จากตารางพบว่า • ค่า t ที่คำานวณได้มีค่าน้อยกว่า ค่าวิกฤติจากตาราง • เราจึงยอมรับ Ho: และปฏิเสธ H1: ที่ระดับนัยสำาคัญ .05 • กล่าวคือ ความเชื่อของกรมสรรพาวุธเกี่ยวกับ ความเร็วของกระสุนปื นที่ผลิตขึ้นใหม่วา่ จะสูงกว่า 3000 ft / sec นั้นไม่เป็ นความจริง

Greek Letters •Σ µ λ σ μ γ χ



การวัดความสัมพันธ์ระหว่าง ตัวแปร (Measures of Association) การใช้ Chi-square ทดสอบความสัมพันธ์ระหว่างตัวแปร 2 ตัว

เช่น เพศกับร่ปแบบการลงคะแนนเสียงเลือกตั้ง แล้วเราสรุปว่ามีความแตก ต่างกันระหว่างรูปแบบของการลงคะแนนระหว่างผู้มีสิทธิออกเสียงเลือกตั้ง ์ อกเสียงเลือกตั้งที่เป็ นผู้หญิงอย่างมีนย ที่เป็ นผู้ชาย และผู้มส ี ิทธิอ ั สำาคัญ ทางสถิติน้ น ั เพียงแต่ทำาให้เราทราบว่า เพศ คงจะมีความสัมพันธ์กบ ั รูป แบบการลงคะแนนเสียงเลือกตั้งเท่านั้น ไม่สามารถบอกขนาดของความ สัมพันธ์ ระหว่างตัวแปรทั้งสองได้ เราต้องใช้สถิติอีกกลุ่มหนึ่ งที่ใช้วัด ความสัมพันธ์ระหว่างตัวแปร

Nominal-Scale 1. สถิติที่ใช้ค่า Chi-square เป็ นพื้ นฐาน (Chi-squareBased Measures of Association) ์ วามมีเงื่อนไขของเพียร์สัน(Pearson’s 1.1 สัมประสิทธิค Contingency) Pearson’s C C

=

2 2

X X + N

• • •

เลือกพรรค เลือกบุคคล

ชาย 40 10







X

2

.05, d.f. 1

หญิง

50

20 30

= 16.6

60 40 50

N =100

16.6

C

=

16.6 + 100 =

0.38

• (2) Tschuprow’s T • • •

N

T

X

(r-1)(c-1) 2

=

• • •



16.6

T

= 100

(2-1)(2-1)

=

0.40

• • • •





(3) Cramer’s V V

=

2

m = (r-1) or (c-1), whichever is smaller

X mN



• •





V

=

16.6 1x100

=

0.40

• 2. Yule’s Q • กรณีตาราง 2 x 2 Yule’s Q เป็ นสถิตท ิ ี่นิยมใช้มากที่สุด เพราะใช้ได้ สะดวก • Q = ad - bc • ad + bc

• • • • • • • •

ชาย 40 10

เลือกพรรค เลือกบุคคล N =100

Q

หญิง

50

20 30

= (40 x 30) - (20 x 10) (40 x 30) + (20 x 10) = 0.71

60 40 50

์ ารคาดคะเนของกัทแมน (Guttman’s Coefficient • 3. สัมประสิทธิก • of Predictability) , Lambda ( λ ) • Lambda ( λ ) วางอยู่บนหลักการ ของโอกาสในการลดความผิด พลาดในการทำานาย หรือ PRE (Probable Reduction of Error)เมื่อเรารู้การแจกแจงของตัวแปรอีกตัวหนึ่ ง ต.ย. นักศึกษากลุ่มหนึ่ งสอบ Mid-term วิชาระเบียบวิธี • วิจัย ปรากฏว่ามีผู้สอบได้ 30 คน และ สอบตก 20 คน เราจะมี วิธีการทำานายอย่างไรว่าใครสอบได้ และใครสอบตก

ถ้าเราไม่รู้อะไรเลย วิธีทำานายที่ดีที่สุด คือทำานายว่า ทุกคนสอบได้หมด ซึ่งในการทำานายอย่างนี้ จะทำาให้ทำานายถูก ต้อง 30 และผิดพลาด 20 (ความผิดพลาดเดิม) ทีน้ ี สมมุตวิ ่าเราร้ข ู ้อมูลเกีย ่ วกับการแจกแจงของ • ตัวแปรอึกตัวหนึ่ งเพิ่มเติมคือในบรรดาคนที่สอบได้น้ น ั เป็ นคนที่ เคยเรียนวิชาสถิตม ิ าก่อน 22 คน และไม่เคยเรียนมาก่อน 8 คน ส่วนพวกที่สอบตก มีพวกที่เคยเรียนสถิติมาก่อน 3 คน อึก 17 คน ไม่เคยเรียนสถิติมาก่อน •

• • • •

เคยเรียน 3 ไม่เคยเรียน 17

สอบได้ 22 25 8 25 20 N =50

สอบตก

30

ทีน้ ี ถ้าเราร้วู ่าใครบ้างเคยเรียนสถิตม ิ าก่อน เราก็จะทำานายว่า สอบได้ • ทั้งหมด ซึ่งเราจะผิดพลาด 3 ราย ส่วนพวกที่ไม่เคยเรียนสถิตม ิ าก่อนเราก็จะทำานาย ว่าสอบตกทั้งหมด ซึ่งเราจะผิดพลาด 8 ราย (รวมเป็ นความผิดพลาดใหม่เพียง 11 ราย ลดลงจากเดิม 9 ราย) Lambda ( λ ) = ปริมาณความผิดที่ลดลง • ปริมาณความผิดพลาดเดิม • = 20 - 11 = 9 • = 0.45 20 • 20 •

• แปลว่า ถ้าเรารู้ประสบการณ์การเคยหรือไม่ เคยเรียนสถิติมาก่อน (ตัวแปรอิสระ) เราจะ สามารถลดความผิดพลาดในการทำานายลงได้ 45% หรือตัวแปรอิสระอธิบายการเกิดของ ตัวแปรตามได้ 45% • หรือการเรียนสถิติมาก่อนมีความ สัมพันธ์กับผลการสอบ Mid-term เท่ากับ 0.45

เราสามารถทำานายในทางกลับกันได้ด้วย คือ ทำานายว่าใครเคยเรียนสถิตม ิ าก่อนบ้าง ถ้าเรารู้แต่เพียงว่าในจำานวนนักศึกษา 50 คน • เคยเรียน สถิตม ิ าก่อน 25 คน ไม่เคยเรียน 25 คน เราจะ ทำานายว่าเคยเรียนมาก่อนทั้งหมด หรือไม่เคยเรียนมา ก่อนทั้งหมดก็ได้ เราก็จะผิดพลาด 25 ราย (ปริมาณความผิด • พลาดเดิม) •



• •

ทีน้ ี ถ้าเรารู้ผลสอบว่าใครบ้างสอบได้ และใคร บ้างที่สอบตกเราก็จะทำานายเปลีย ่ นไป คือคนทีส ่ อบได้ เราก็จะ ทำานายว่า เคยเรียนมาทั้งหมด ซึ่งเราจะผิดพลาด 8 ราย ส่วน พวกที่สอบตกเราก็จะทำานายว่าไม่เคยเรียนมาทั้งหมด ซึ่งเราจะ ผิดพลาด 3 ราย (รวมเป็ นความผิดพลาดใหม่เพียง 11 ราย ลดลงจากเดิม 14 ราย)

• • • •

ทีล ่ ดลง

Lambda ( λ ) =

ปริมาณความผิดพลาดเดิม 25 - 11 25

=

14 25

ปริมาณความผิด

= = 0.56

• Lambda ( λ ) •

• • •

fi Fd

=

= =

(

Σ

fi ) - Fd

N - Fd

ความถี่สูงสุดในชั้นย่อยของตัวแปรคัวที่ 1 ความถี่สูงสุดในยอดรวมของตัวแปรตัวที่ 2

• •

เคยเรียน

25 ไม่เคยเรียน • 25 •

สอบได้ 22

สอบตก

8

3 17

30

20 N =50 fi = ความถี่สูงสุดในชั้นย่อยของตัวแปรตัวที่ 1 = 22 • และ 17 Fd = ความถี่สงู สุดในยอดรวมของตัวแปรตัวที่ 2= 30 •

กรณีท่ี 1 • Lambda ( λ ) • • • • •

• •

=

(22 + 17 ) - 30

50 - 30 = 39 - 30 20 = 0.45

กรณีท่ี 2 • Lambda ( λ ) • • • • •

• •

=

(22 + 17 ) - 25

50 - 25 = 39 - 25 25 = 0.56

ในกรณีทต ี่ อ ้ งการจะทำานายตัวแปรตาม เมื่อรู้ตวั แปร อิสระ และขณะเดียวกัน ก็ตอ ้ งการทำานายตัวแปรอิสระเมื่อ รู้ตวั แปรตามด้วย เราเรียกว่า Lambda ( λ ) ไม่กำาหนด ทิศทาง คือต้องการความสัมพันธ์ระหว่างตัวแปรทั้งสองว่า มีขนาดของความสัมพันธ์ระหว่างกันเป็ นเท่าใด ในกรณี อย่างนี้ ่ ดลงของทั้ง • Lambda ( λ) = ปริมาณความผิดพลาดทีล สองตัวแปร ปริมาณความผิดพลาด • เดิมของทั้งสองตัวแปร •

• Lambda ( λ) = ปริมาณความผิดพลาดที่ลดลงของทั้งสองตัวแปร • ปริมาณความผิดพลาดเดิมของทั้งสอง • ตัวแปร = (20 - 11) + (25 - 11 ) • 20 + 25 • = 23 = 0.51 • 45 •

= Σfr + Σfc - (Fr + Fc) • Lambda ( λ ) 2N - (Fr • + Fc) • Σfr = ผลรวมของความถี่สูงสุดที่พบในแถว • Σfc = ผลรวมของความถี่สูงสุดที่พบในคอลัมน์ • Fr = ความถี่สูงสุดที่พบในยอดรวมของแถว • Fc = ความถี่สูงสุดที่พบในยอดรวมของคอลัมน์ = จำานวน รวม • N •

• •

เคยเรียน

3 25 ไม่เคยเรียน • 17 25 • •

สอบได้ 22

สอบตก

8

20 N =50

30

= Σfr + Σfc - (Fr + Fc) • Lambda ( λ ) 2N - (Fr • + Fc) • Σfr = (22 + 17) • Σfc = (22 + 17) Fr = 25 • Fc = 30 • N = 50 • •

• • • • • • • • •





Lambda ( λ )

=

(22 + 17) + (22 + 17) - (25 + 30) 2(50) - (25 + 30) = 78 + 55 100 - 55 = 23 45 = 0.51

จงหาความสัมพันธ์ระหว่างตัวแปรในตาราง ชาย หญิง เลือกพรรค 40 5 45 เลือกบุคคล 10 25 35 50 30 • N =80 โดยใช้ (1) สถิติทใี่ ช้ Chi-square เป็ นพื้ นฐาน (2) Yule’s Q และ • (3) Lambda แบบไม่กำาหนดทิศทาง • • • • •

แบบฝี กหัด

Ordinal Scale ์ วามสัมพันธ์เชิงอันดับของ กููดแมนและ ครัสคัล • 1. สัมประสิทธิค (Goodman and Kruskal’s Gamma, ) • = P - Q • P + Q • • P = Σ (ความถี่ของแต่ละ cell ในตารางคูณด้วยผลรวมของทุก cell ที่อย่ใู นบรรทัดที่ตาำ่ กว่าลากไปทางขวามือ) • Q = Σ (ความถี่ของแต่ละ cell ในตารางคูณด้วยผลรวมของทุก cell ที่อย่ใู นบรรทัดที่ตาำ่ กว่าลากไปทางซ้ายมือ)

• ต.ย. • • สูง 180 • กลาง 180 • ตำา่ •

ฟ.ฟมาก 40

ฟ.ฟ.ปานกลาง

50 80 180

ฟ.ฟ.น้อย 60

80

70

60

40 170

60 170

200 N = 540 P = 40(70+60+40+60)+ 60(60+60)+50(40+60)+70(60) =25,600 • Q= 80(70+50+40+80)+ 60(50+80)+60(40+80)+70(80) =39,800 • •

= 25,600 • P = 39,800 • Q = 25,600 - 39,800 • 25,600 + 39800 • = -14,200 • 65,400 • = -0.22 (มีความสัมพันธ์เชิงผกผันใน • ระดับตำา่ )

์ วามสัมพันธ์เชิงอันดับของสเปึ ยร์แมน • 2. สัมประสิทธิค • (Spearman’s Rho, γ)

• • • •

Rho (γ) - 1) สองครั้ง

=

1 -2

2

6 Σ di

n(n

di = ผลต่างของการจัดอันดับทั้ง n = จำานวน case ทั้งหมด

• • • • • • •

นักศึกษา ก. ข. ค. ง. จ.

9

อันดับ การสอบเข้า 5

16 1 1 9

N = 5 Σ = 36

อันดับ การสอบปลายปี

2

di

di

2

3

1

5

-4

3

4

-1

2

3

-1

4

1

3

• • • • • • •

Rho (γ)

=

2

1 - 6 Σ di

2

= =

เชิงผกผันในระดับสูง)

=

n(n - 1) 1 6(36) 5(25 - 1) 1 216 120 - 0.8 (มีความสัมพันธ์

Interval Scale ์ หสัมพันธ์ของเพียร์สัน (Pearson’s Product Moment 1. สัมประสิทธิส Coefficient, r

=

Pearson’s r)

N ΣXY -

Correlation

(ΣX) (ΣY)

{ N ΣX - ( Σ X ) }{ N Σ Y - ( Σ Y ) • •

X Y

= ตัวแปรอิสระ = ตัวแปรตาม

2

2

2 2

Country

Percent of Per Capita XY Urban (X) GNP (Y)

Nepal

4.4

45

Afghanistan

7.5

50

Laos

4.0

50

Burma

10.0

57

Libya

18.4

60

Pakistan

11.8

70

Bolivia

21.0

99

Iran

21.0

108

Jordan

25.5

129

Egypt

29.1

142

Iraq

23.6

156

Syria

38.8

173

Turkey

18.2

220

Spain

39.8

293

Japan

43.1

306

Chile

46.3

379

Total

360.9

2,337

X2

Y2

Country

Percent of Per Capita Urban (X) GNP (Y)

XY X2

Y2

Nepal

4.4

45

198.0

19.36

2,025

Afghanistan

7.5

50

375.0

56.25

2,500

Laos

4.0

50

200.0

16.00

2,500

Burma

10.0

57

570.0

100.00

3,249

Libya

18.4

60

1,104.0

338.56

3,600

Pakistan

11.8

70

826.0

139.24

4,900

Bolivia

21.0

99

1,920.6

376.36

9,801

Iran

21.0

108

2,268.0

441.00

11,664

Jordan

25.5

129

3,289.5

650.25

16,641

Egypt

29.1

142

4,132.2

846.81

20,164

Iraq

23.6

156

3681.6

556.96

34,336

Syria

38.8

173

6,712.4

1,505.44

29,929

Turkey

18.2

220

4,004.0

331.24

48,400

Spain

39.8

293

11.661.4

1,584.24

85,849

Japan

43.1

306

13,188.6

1,857.61

93,636

Chile

46.3

379

17,547.7

2,143.69

143,641

Total

360.9

2,337

71,679.0

10,962.81

502,835

Related Documents