그림 2. 예제 데이터의 분산형 플롯입니다. 검정선은 예측으로 구성되고, 점은 실제 데이터이며, 점과 검정선 사이의 수직선은 예측 오류를 나타냅니다. b 계수는 X의 한 단위 증가와 연관된 Y의 단위 증가 수입니다. 우리의 b 계수 0.64 IQ의 한 단위 증가 는 성능 증가 0.64 단위와 관련 된 것을 의미 합니다. 아래와 같이 산점도에 회귀 선을 추가하여 이를 시각화했습니다. 다음 플롯은 데이터에 중첩된 회귀 선을 보여 주습니다. 그렇다면 왜 우리의 회귀는 다른 숫자 대신 34.26과 0.64를 생각해 내었습니까? 회귀는 r-사각형을 최대화하는 계수를 계산하기 때문입니다. 데이터의 경우 다른 절편 또는 b 계수는 분석에서 달성한 0.40보다 낮은 r-사각형을 생성합니다. 따라서 회귀 방정식은 : ŷ = 26.768 + 0.644x입니다. 이제 모델이 데이터에 얼마나 잘 맞는지에 대한 더 나은 관점을 위해 그래픽 출력을 살펴보겠습니다. 먼저 데이터에 중첩된 회귀 선을 보여 줄 수 있는 선 맞춤 플롯이 있습니다. 이는 설명 데이터 분석에서 산점도에 중첩된 것과 정확히 동일한 선이지만 예측에 대한 95% 신뢰도 대역도 나타낸다는 점을 제외하면 해당됩니다.

나는 이것이 요격과 b 계수가 실제로 무엇을 의미하는지 명확히하기를 바랍니다. 그러나 왜 SPSS는 다른 숫자 대신 = 34.3 및 b = 0.64를 생각해 내나요? 대답에 대한 한 가지 접근 방식은 회귀 잔류에서 시작됩니다. 그것은 당신을 놀라게 할 수 있습니다,하지만이 섹션에 표시된 계산은 가정무료입니다. 물론 X와 Y 의 관계가 선형이 아닌 경우 다른 모양의 함수가 데이터에 더 잘 맞을 수 있습니다. 회귀의 추론 통계는 여러 가정을 기반으로 하며 이러한 가정은 이 장의 이후 섹션에 설명되어 있습니다. 아래 표는 이탈리아 의류 회사 인 Benetton의 초기 의 일부 데이터를 보여줍니다. 표의 각 행에는 1년 동안의 Benetton의 매출과 해당 연도의 광고에 지출된 금액이 표시됩니다. 이 경우, 우리의 관심의 결과는 판매입니다. 그것은 우리가 예측하고자하는 것입니다. 광고를 예측 변수로 사용하는 경우 선형 회귀는 Sales = 168 + 23 광고로 추정합니다. 즉, 광고 지출이 1유로 증가하면 매출은 2,300만 유로 증가할 것으로 예상되며, 광고가 없다면 1억 6,800만 유로의 매출을 기대할 수 있습니다. 지금까지, 우리의 회귀는 우리에게 2 가지 중요한 것들을 말했다 : 여기에서 우리는 모델이 약간 올해 초에 발생 한 중간 판매 스파이크를 과대 예측하고 크게 올해 후반에 발생한 큰 스파이크를 예측 것을 볼 수 있습니다.

이 플롯은 항상 평균적으로 일부 회귀-평균을 표시해야 하지만, 분명히 모델은 매우 체계적인 방식으로 큰 예측에 대한 오류를 만들고 있습니다. 일반적으로 이 플롯은 예측과 실제 값 간의 편차에서 상당한 시간 패턴을 검색하는 데 가장 유용합니다. 여기서 문제는 se. g 당 오류의 시간 패턴이 아닙니다. 분산 분석 테이블에서 흥미로운 숫자는 F-통계및 P 값뿐입니다. F-통계는 모델의 모든 독립 변수가 개별적으로 중요한지 여부에 관계없이 „공동으로” 중요한지 여부를 테스트합니다. 간단한 회귀 모델에는 하나의 독립 변수만 있으므로 F 통계는 그 중요성만 테스트합니다. 실제로 간단한 회귀 모델에서 F-통계는 경사 계수의 t-통계의 제곱이며 P 값은 동일합니다.

이 경우 150.527 = (-12.269)2가 있습니다. F-통계는 논리적으로 단위로 함께 가져와야 하는 변수 그룹이 없는 한 일반적으로 관심이 없습니다(예: 설계된 실험에서와 같이 상호 배타적 조건 집합에 대한 더미 변수) 분산 분석 테이블은 RegressIt에서 기본적으로 최소화(숨김)