691 lines
30 KiB
TeX
691 lines
30 KiB
TeX
\documentclass[a4paper, final]{article}
|
||
%\usepackage{literat} % Нормальные шрифты
|
||
\usepackage[14pt]{extsizes} % для того чтобы задать нестандартный 14-ый размер шрифта
|
||
\usepackage{tabularx}
|
||
\usepackage[T2A]{fontenc}
|
||
\usepackage[utf8]{inputenc}
|
||
\usepackage[russian]{babel}
|
||
\usepackage{amsmath}
|
||
\usepackage{amssymb}
|
||
\usepackage[left=15mm, top=15mm, right=15mm, bottom=15mm, footskip=10mm]{geometry}
|
||
\usepackage{ragged2e} %для растягивания по ширине
|
||
\usepackage{setspace} %для межстрочно го интервала
|
||
\usepackage{moreverb} %для работы с листингами
|
||
\usepackage{indentfirst} % для абзацного отступа
|
||
\usepackage{moreverb} %для печати в листинге исходного кода программ
|
||
\usepackage{pdfpages} %для вставки других pdf файлов
|
||
\usepackage{tikz}
|
||
\usepackage{graphicx}
|
||
\usepackage{afterpage}
|
||
\usepackage{longtable}
|
||
\usepackage{float}
|
||
|
||
|
||
|
||
% \usepackage[paper=A4,DIV=12]{typearea}
|
||
\usepackage{pdflscape}
|
||
% \usepackage{lscape}
|
||
|
||
\usepackage{array}
|
||
\usepackage{multirow}
|
||
|
||
\renewcommand\verbatimtabsize{4\relax}
|
||
\renewcommand\listingoffset{0.2em} %отступ от номеров строк в листинге
|
||
\renewcommand{\arraystretch}{1.4} % изменяю высоту строки в таблице
|
||
\usepackage[font=small, singlelinecheck=false, justification=centering, format=plain, labelsep=period]{caption} %для настройки заголовка таблицы
|
||
\usepackage{listings} %листинги
|
||
\usepackage{xcolor} % цвета
|
||
\usepackage{hyperref}% для гиперссылок
|
||
\usepackage{enumitem} %для перечислений
|
||
|
||
\newcommand{\specialcell}[2][l]{\begin{tabular}[#1]{@{}l@{}}#2\end{tabular}}
|
||
|
||
|
||
\setlist[enumerate,itemize]{leftmargin=1.2cm} %отступ в перечислениях
|
||
|
||
\hypersetup{colorlinks,
|
||
allcolors=[RGB]{010 090 200}} %красивые гиперссылки (не красные)
|
||
|
||
% подгружаемые языки — подробнее в документации listings (это всё для листингов)
|
||
\lstloadlanguages{ SQL}
|
||
% включаем кириллицу и добавляем кое−какие опции
|
||
\lstset{tabsize=2,
|
||
breaklines,
|
||
basicstyle=\footnotesize,
|
||
columns=fullflexible,
|
||
flexiblecolumns,
|
||
numbers=left,
|
||
numberstyle={\footnotesize},
|
||
keywordstyle=\color{blue},
|
||
inputencoding=cp1251,
|
||
extendedchars=true
|
||
}
|
||
\lstdefinelanguage{MyC}{
|
||
language=SQL,
|
||
% ndkeywordstyle=\color{darkgray}\bfseries,
|
||
% identifierstyle=\color{black},
|
||
% morecomment=[n]{/**}{*/},
|
||
% commentstyle=\color{blue}\ttfamily,
|
||
% stringstyle=\color{red}\ttfamily,
|
||
% morestring=[b]",
|
||
% showstringspaces=false,
|
||
% morecomment=[l][\color{gray}]{//},
|
||
keepspaces=true,
|
||
escapechar=\%,
|
||
texcl=true
|
||
}
|
||
|
||
\textheight=24cm % высота текста
|
||
\textwidth=16cm % ширина текста
|
||
\oddsidemargin=0pt % отступ от левого края
|
||
\topmargin=-1.5cm % отступ от верхнего края
|
||
\parindent=24pt % абзацный отступ
|
||
\parskip=5pt % интервал между абзацами
|
||
\tolerance=2000 % терпимость к "жидким" строкам
|
||
\flushbottom % выравнивание высоты страниц
|
||
|
||
|
||
% Настройка листингов
|
||
\lstset{
|
||
language=python,
|
||
extendedchars=\true,
|
||
inputencoding=utf8,
|
||
keepspaces=true,
|
||
% captionpos=b, % подписи листингов снизу
|
||
}
|
||
|
||
\begin{document} % начало документа
|
||
|
||
|
||
|
||
% НАЧАЛО ТИТУЛЬНОГО ЛИСТА
|
||
\begin{center}
|
||
\hfill \break
|
||
\hfill \break
|
||
\normalsize{МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ\\
|
||
федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский политехнический университет Петра Великого»\\[10pt]}
|
||
\normalsize{Институт компьютерных наук и кибербезопасности}\\[10pt]
|
||
\normalsize{Высшая школа технологий искусственного интеллекта}\\[10pt]
|
||
\normalsize{Направление: 02.03.01 <<Математика и компьютерные науки>>}\\
|
||
|
||
\hfill \break
|
||
\hfill \break
|
||
\hfill \break
|
||
\hfill \break
|
||
\large{Индивидуальное домашнее задание №4}\\
|
||
\large{по дисциплине}\\
|
||
\large{<<Математическая статистика>>}\\
|
||
\large{Вариант 27}\\
|
||
|
||
% \hfill \break
|
||
\hfill \break
|
||
\end{center}
|
||
|
||
\small{
|
||
\begin{tabular}{lrrl}
|
||
\!\!\!Студент, & \hspace{2cm} & & \\
|
||
\!\!\!группы 5130201/20102 & \hspace{2cm} & \underline{\hspace{3cm}} &Тищенко А. А. \\\\
|
||
\!\!\!Преподаватель & \hspace{2cm} & \underline{\hspace{3cm}} & Малов С. В. \\\\
|
||
&&\hspace{4cm}
|
||
\end{tabular}
|
||
\begin{flushright}
|
||
<<\underline{\hspace{1cm}}>>\underline{\hspace{2.5cm}} 2025г.
|
||
\end{flushright}
|
||
}
|
||
|
||
\hfill \break
|
||
% \hfill \break
|
||
\begin{center} \small{Санкт-Петербург, 2025} \end{center}
|
||
\thispagestyle{empty} % выключаем отображение номера для этой страницы
|
||
|
||
% КОНЕЦ ТИТУЛЬНОГО ЛИСТА
|
||
\newpage
|
||
\section {Задание №1}
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=1\linewidth]{img/task1.png}
|
||
\end{figure}
|
||
|
||
\subsection{Пункт a}
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=0.75\linewidth]{img/task1_1.png}
|
||
\end{figure}
|
||
|
||
|
||
\textbf{Формулировка линейной регрессионной модели}
|
||
Линейная регрессионная модель зависимости $Y$ от $X$ имеет вид:
|
||
$$
|
||
Y = \beta_1 + \beta_2 X + \epsilon,
|
||
$$
|
||
где:
|
||
- $\beta_1$ — параметр сдвига,
|
||
- $\beta_2$ — параметр масштаба,
|
||
- $\epsilon$ — случайная ошибка.
|
||
|
||
\textbf{Построение МНК-оценок параметров}
|
||
Метод наименьших квадратов (МНК) используется для нахождения оценок $\hat{\beta_1}$ и $\hat{\beta_2}$, которые минимизируют сумму квадратов остатков.
|
||
|
||
$\beta_1 = 15.5869$
|
||
|
||
$\beta_2 = -0.2522$
|
||
|
||
$R^2$ линейной модели: 0.0144
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=1\linewidth]{img/task1_2.png}
|
||
\end{figure}
|
||
|
||
\textbf{Распределение точек относительно линии}
|
||
Точки разбросаны, линия не отражает тренд, что говорит о плохом соответствии.
|
||
|
||
\textbf{Наклон линии}: Линия близка к горизонтальной, зависимость слабая.
|
||
|
||
Таким образом, Между $X$ и $Y$ нет линейной зависимости. Линейная модель не подходит для описания данных.
|
||
|
||
\newpage
|
||
\subsection{Пункт b}
|
||
|
||
\textbf{Формулировка полиномиальной регрессионной модели}
|
||
Полиномиальная регрессионная модель зависимости $Y$ от $X$ имеет вид:
|
||
$$
|
||
Y = \beta_1 + \beta_2 X + \beta_3 X^2 + \epsilon,
|
||
$$
|
||
где:
|
||
\begin{itemize}
|
||
\item $\beta_1$ — параметр сдвига,
|
||
\item $\beta_2$ — линейный коэффициент при $X$,
|
||
\item $\beta_3$ — квадратичный коэффициент при $X^2$,
|
||
\item $\epsilon$ — случайная ошибка
|
||
\end{itemize}
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=1\linewidth]{img/task1_3.png}
|
||
\end{figure}
|
||
|
||
Полиномиальная модель:
|
||
$\beta_1 = 16.8727$
|
||
$\beta_2 = -1.1208$
|
||
$\beta_3 = 0.1296$
|
||
|
||
$R^2$ полиномиальной модели: 0.0240
|
||
|
||
|
||
\textbf{Распределение точек относительно линии}: Точки разбросаны, линия не отражает тренд, что говорит о плохом соответствии.
|
||
|
||
\textbf{Низкий R²} означает, что квадратичная модель плохо описывает связь между $X$ и $Y$.
|
||
|
||
\textbf{Результаты указывают на то, что квадратичная модель не подходит для описания данных.}
|
||
|
||
\newpage
|
||
\subsection{Пункт c}
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=0.95\linewidth]{img/task1_4.png}
|
||
\end{figure}
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=0.9\linewidth]{img/task1_5.png}
|
||
\end{figure}
|
||
|
||
\newpage
|
||
\textbf{Проверка нормальности с помощью критерия $\chi^2$}
|
||
|
||
Этапы:
|
||
\begin{enumerate}
|
||
\item Гипотезы:
|
||
\begin{itemize}
|
||
\item $H_0$: Остатки имеют нормальное распределение.
|
||
\item $H_1$: Остатки не имеют нормального распределения.
|
||
\end{itemize}
|
||
\item Разделить данные на интервалы (бины): Используем те же интервалы, что и в гистограмме.
|
||
\item Рассчитать наблюдаемые ($O_i$) и ожидаемые ($E_i$) частоты:
|
||
\begin{itemize}
|
||
\item $E_i = N \cdot P$ (для $i$-го интервала), где $P$ — вероятность из нормального распределения $N(\mu, \sigma^2)$.
|
||
\end{itemize}
|
||
\item Вычислить статистику $\chi^2$:
|
||
$$
|
||
\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}.
|
||
$$
|
||
\item Сравнить с критическим значением $\chi^2$: Если $\chi^2 > \chi^2_{\text{крит}}$, отвергаем $H_0$.
|
||
\end{enumerate}
|
||
|
||
Хи-квадрат статистика: 2.7737
|
||
|
||
Критическое значение: 13.3882
|
||
|
||
p-value: 0.7348
|
||
|
||
Не отвергаем $H_0$: распределение нормальное
|
||
|
||
\textbf{Визуально:} Остатки близки к нормальному распределению.
|
||
|
||
\textbf{Статистически:} Критерий $\chi^2$ не выявил значимых отклонений от нормальности на уровне $\alpha=0.02$.
|
||
|
||
Предположение о нормальности ошибок выполняется.
|
||
|
||
\subsection{Пункт d}
|
||
|
||
Частные интервалы строятся для каждого параметра отдельно, используя t-распределение.
|
||
|
||
\textbf{Формула:}
|
||
$$
|
||
\hat{\beta_j} \pm t_{1-\alpha/2, n-p} \cdot SE(\hat{\beta_j}),
|
||
$$
|
||
где:
|
||
\begin{itemize}
|
||
\item $\hat{\beta_j}$ - оценка параметра,
|
||
\item $SE(\hat{\beta_j})$ - стандартная ошибка параметра,
|
||
\item $t_{1-\alpha/2}$ - критическое значение t-распределения,
|
||
\item $n$ - число наблюдений,
|
||
\item $p$ - число параметров модели (для квадратичной модели $p = 3$).
|
||
\end{itemize}
|
||
|
||
Доверительные интервалы (уровень 0.98):
|
||
\begin{itemize}
|
||
\item Доверительный интервал для $\beta_2$ (98.0\%): [-4.2930, 2.0514]
|
||
\item Доверительный интервал для $\beta_3$ (98.0\%): [-0.3310, 0.5902]
|
||
\end{itemize}
|
||
|
||
\textbf{Совместные доверительные интервалы}
|
||
Совместные интервалы учитывают корреляцию между оценками параметров. Используем метод Бонферрони или F-распределение.
|
||
|
||
\textbf{Метод Бонферрони}
|
||
|
||
Формула:
|
||
$$
|
||
\hat{\beta_j} \pm t_{1-\alpha/(2k),n-p} \cdot SE(\hat{\beta_j}),
|
||
$$
|
||
где $k=2$ (число параметров $\beta_2$ и $\beta_3$).
|
||
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=1\linewidth]{img/task1_6.png}
|
||
\end{figure}
|
||
|
||
Ковариационная матрица для $\beta_2$ и $\beta_3$:
|
||
|
||
\begin{verbatim}
|
||
X X2
|
||
X 1.734960 -0.245172
|
||
X2 -0.245172 0.036575
|
||
\end{verbatim}
|
||
|
||
Совместные интервалы (Бонферрони):
|
||
\begin{itemize}
|
||
\item $\beta_2$: [-4.657, 2.415]
|
||
\item $\beta_3$: [-0.384, 0.643]
|
||
\end{itemize}
|
||
|
||
\textbf{Метод F-распределения}
|
||
|
||
Формула:
|
||
$$
|
||
(\hat{\beta} - \beta)^T \cdot Cov(\hat{\beta})^{-1} \cdot (\hat{\beta} - \beta) \leq F_{1-\alpha, 2, n-p},
|
||
$$
|
||
где $F_{1-\alpha, 2, n-p}$ - критическое значение F-распределения.
|
||
|
||
Полная ковариационная матрица:
|
||
\begin{verbatim}
|
||
const X X2
|
||
const 4.7543 -2.7403 0.3629
|
||
X -2.7403 1.7350 -0.2452
|
||
X2 0.3629 -0.2452 0.0366
|
||
\end{verbatim}
|
||
|
||
Вектор оценок параметров [$\beta_2$, $\beta_3$]:
|
||
[-1.120772, 0.129577]
|
||
|
||
\subsection{Пункт e}
|
||
\textbf{Гипотеза линейности}
|
||
\begin{itemize}
|
||
\item $H_0$: Зависимость $Y$ от $X$ линейна ($\beta_3 = 0$).
|
||
\item $H_1$: Зависимость нелинейна ($\beta_3 \neq 0$).
|
||
\end{itemize}
|
||
|
||
\textbf{Гипотеза независимости}
|
||
\begin{itemize}
|
||
\item $H_0$: $Y$ не зависит от $X$ линейна ($\beta_2 = \beta_3 = 0$).
|
||
\item $H_1$: $Y$ зависит от $X$ линейна (хотя бы один из $\beta_2, \beta_3 \neq 0$).
|
||
\end{itemize}
|
||
|
||
\textbf{Проверка гипотезы линейности ($H_0: \beta_3 = 0$):}
|
||
\begin{itemize}
|
||
\item t-статистика: 0.6775
|
||
\item p-значение: 0.5014
|
||
\item Нет оснований отвергать гипотезу о линейности (p > 0.02).
|
||
\end{itemize}
|
||
|
||
\textbf{Проверка гипотезы независимости ($H_0: \beta_2 = 0$):}
|
||
\begin{itemize}
|
||
\item t-статистика: -0.8509
|
||
\item p-значение: 0.3991
|
||
\item Нет оснований отвергать гипотезу о независимости (p > 0.02).
|
||
\end{itemize}
|
||
|
||
|
||
\newpage
|
||
\subsection{Пункт f}
|
||
Сравнение моделей по AIC и BIC:
|
||
\begin{verbatim}
|
||
Модель AIC BIC
|
||
Линейная 232.83 236.66
|
||
Квадратичная 234.35 240.08
|
||
\end{verbatim}
|
||
|
||
\textbf{AIC/BIC} линейной модели меньше, она лучше описывает данные.
|
||
|
||
\subsection{Пункт g}
|
||
\textbf{Характер зависимости $Y$ от $X$}
|
||
\begin{itemize}
|
||
\item \textbf{Линейная модель:}
|
||
$$
|
||
Y = 15.59 - 0.25X,\ R^2 = 0.014.
|
||
$$
|
||
\begin{itemize}
|
||
\item Крайне низкий $R^2$ (1.4\%) указывает на отсутствие линейной зависимости.
|
||
\item Коэффициент $\beta_2 = -0.25$ статистически незначим (доверительный интервал [-4.29, 2.05] включает ноль).
|
||
\end{itemize}
|
||
|
||
\item \textbf{Квадратичная модель:}
|
||
$$
|
||
Y = 16.87 - 1.12X + 0.13X^2,\ R^2 = 0.024.
|
||
$$
|
||
\begin{itemize}
|
||
\item $R^2 = 2.4\%$ показывает, что модель объясняет лишь незначительную часть вариации.
|
||
\item Коэффициенты:
|
||
\begin{itemize}
|
||
\item $\beta_2 = -1.12$ (линейный член): интервал [-4.29, 2.05] включает ноль.
|
||
\item $\beta_3 = 0.13$ (квадратичный член): интервал [-0.33, 0.59] включает ноль.
|
||
\end{itemize}
|
||
\end{itemize}
|
||
\end{itemize}
|
||
|
||
\textbf{Проверка гипотез}\\
|
||
Остатки близки к нормальному распределению. Критерий $\chi^2$ не выявил значимых отклонений от нормальности на уровне $\alpha=0.02$.
|
||
|
||
\textit{Предположение о нормальности ошибок выполняется.}
|
||
|
||
\textbf{AIC/BIC}
|
||
\begin{center}
|
||
\begin{tabular}{|l|c|c|}
|
||
\hline
|
||
Модель & AIC & BIC \\
|
||
\hline
|
||
Линейная & 232.83 & 236.66 \\
|
||
\hline
|
||
Квадратичная & 234.35 & 240.08 \\
|
||
\hline
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\begin{itemize}
|
||
\item \textbf{Линейная модель} имеет более низкие AIC/BIC, чем квадратичная.
|
||
\end{itemize}
|
||
|
||
\textbf{Аномалии в результатах}
|
||
\begin{itemize}
|
||
\item \textbf{Парадокс низкого $R^2$:}
|
||
\begin{itemize}
|
||
\item Обе модели объясняют менее 3\% вариации, что ставит под сомнение их практическую применимость.
|
||
\end{itemize}
|
||
\end{itemize}
|
||
|
||
\textbf{Итоговый вывод}
|
||
\begin{itemize}
|
||
\item \textbf{Отсутствие значимой связи:} Ни линейная, ни квадратичная модели не демонстрируют статистически значимой зависимости $Y$ от $X$ на уровне $\alpha=0.02$.
|
||
\item \textbf{Рекомендации:}
|
||
\begin{itemize}
|
||
\item Проверить данные на наличие выбросов или ошибок.
|
||
\item Рассмотреть другие предикторы или преобразования.
|
||
\item Увеличить объем данных для повышения надежности тестов.
|
||
\end{itemize}
|
||
\end{itemize}
|
||
|
||
\newpage
|
||
\section{Задание 2}
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=1\linewidth]{img/task2.png}
|
||
\end{figure}
|
||
|
||
\subsection{Пункт a}
|
||
\textbf{1. Формулировка модели двухфакторного дисперсионного анализа}
|
||
|
||
Модель с взаимодействием факторов:
|
||
$$
|
||
Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_{ij} + \epsilon_{ijk},
|
||
$$
|
||
где:
|
||
\begin{itemize}
|
||
\item $Y_{ijk}$ — наблюдаемое значение переменной $Y$ для $i$-го уровня фактора $A$, $j$-го уровня фактора $B$, $k$-го повторения,
|
||
\item $\mu$ — общее среднее,
|
||
\item $\alpha_i$ — эффект $i$-го уровня фактора $A$,
|
||
\item $\beta_j$ — эффект $j$-го уровня фактора $B$,
|
||
\item $(\alpha \beta)_{ij}$ — эффект взаимодействия факторов $A$ и $B$,
|
||
\item $\epsilon_{ijk} \sim N(0, \sigma^2)$ — случайная ошибка.
|
||
\end{itemize}
|
||
|
||
\newpage
|
||
\textbf{2. Построение МНК-оценок параметров}
|
||
|
||
Оценки параметров полной модели:
|
||
\begin{verbatim}
|
||
Intercept 11.998333
|
||
C(A)[T.2] 2.440000
|
||
C(B)[T.2] -2.586667
|
||
C(B)[T.3] 4.146667
|
||
C(B)[T.4] -0.345000
|
||
C(A)[T.2]:C(B)[T.2] 10.131667
|
||
C(A)[T.2]:C(B)[T.3] 1.561667
|
||
C(A)[T.2]:C(B)[T.4] 3.795000
|
||
\end{verbatim}
|
||
|
||
\textbf{3. Несмещенная оценка дисперсии}
|
||
|
||
Несмещенная оценка дисперсии ошибок:
|
||
$$
|
||
\hat{\sigma}^2 = \frac{SS_{\text{res}}}{df_{\text{res}}} = 0.757,
|
||
$$
|
||
где:
|
||
\begin{itemize}
|
||
\item $SS_{\text{res}}$ — сумма квадратов остатков,
|
||
\item $df_{\text{res}} = n - p$ — степени свободы ($n$ — число наблюдений, $p$ — число параметров).
|
||
\end{itemize}
|
||
|
||
\subsection{Пункт b}
|
||
|
||
Сводная таблица средних значений Y:
|
||
|
||
\begin{verbatim}
|
||
B 1 2 3 4
|
||
A
|
||
1 11.998333 9.411667 16.145000 11.653333
|
||
2 14.438333 21.983333 20.146667 17.888333
|
||
\end{verbatim}
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=1\linewidth]{img/task2_1.png}
|
||
\end{figure}
|
||
|
||
\textbf{Визуальная проверка аддитивности:}
|
||
|
||
\begin{itemize}
|
||
\item Пересечение линий: График зависимости $Y$ от $A$ при фиксированных $B$ показывает, что линии для разных уровней $B$ пересекаются, особенно при $B=4$. Это указывает на наличие взаимодействия между факторами.
|
||
\item Следствия: Взаимодействие факторов может означать, что влияние одного фактора на зависимую переменную $Y$ зависит от другого фактора.
|
||
\end{itemize}
|
||
|
||
|
||
\newpage
|
||
\subsection{Пункт c}
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=1\linewidth]{img/task2_2.png}
|
||
\end{figure}
|
||
|
||
\begin{figure}[h!]
|
||
\centering
|
||
\includegraphics[width=0.8\linewidth]{img/task2_3.png}
|
||
\end{figure}
|
||
|
||
\textbf{Тест Шапиро-Уилка:} p-value = 0.949
|
||
|
||
\textbf{Не отвергаем $H_0$: остатки нормальны.}
|
||
|
||
\textbf{Результаты:}
|
||
\begin{itemize}
|
||
\item Гистограмма: Распределение остатков близко к нормальному, совпадает с наложенной кривой $N(0, \sigma^2)$.
|
||
\item Q-Q график: Точки лежат вдоль линии $y=x$, что подтверждает нормальность.
|
||
\item Тест Шапиро-Уилка: гипотеза о нормальности не отвергается.
|
||
\end{itemize}
|
||
|
||
\subsection{Пункт d}
|
||
Таблица ANOVA:
|
||
|
||
\begin{verbatim}
|
||
df sum_sq mean_sq F PR(>F)
|
||
C(A) 1.0 478.108752 478.108752 631.694471 4.061068e-26
|
||
C(B) 3.0 153.241356 51.080452 67.489330 1.051893e-15
|
||
C(A):C(B) 3.0 178.558140 59.519380 78.639144 8.022881e-17
|
||
Residual 40.0 30.274683 0.756867 NaN NaN
|
||
\end{verbatim}
|
||
|
||
\textbf{Результаты ANOVA}
|
||
\begin{itemize}
|
||
\item Фактор A:
|
||
$$
|
||
F = 631.69,\ p\text{-value} < 0.001 \ \rightarrow \ \text{значимо влияет на } Y.
|
||
$$
|
||
|
||
\item Фактор B:
|
||
$$
|
||
F = 67.49,\ p\text{-value} < 0.001 \ \rightarrow \ \text{значимо влияет на } Y.
|
||
$$
|
||
|
||
\item Взаимодействие $A \times B$:
|
||
$$
|
||
F = 78.64,\ p\text{-value} < 0.001 \ \rightarrow \ \text{значимо влияет на } Y.
|
||
$$
|
||
|
||
\item Вывод:
|
||
На уровне значимости $\alpha=0.02$ все факторы (A, B) и их взаимодействие \textbf{значимо} ($p < 0.02$). Это означает, что влияние фактора A на Y зависит от уровня фактора B, и наоборот.
|
||
\end{itemize}
|
||
|
||
\subsection{Пункт e}
|
||
|
||
Для выбора оптимальной модели используются критерии:
|
||
\begin{itemize}
|
||
\item AIC оценивает баланс между качеством подгонки модели и её сложностью, накладывая штраф за избыточное количество параметров.
|
||
\item BIC работает аналогично AIC, но применяет более строгий штраф за сложность, особенно при больших объемах данных.
|
||
\end{itemize}
|
||
|
||
Сравниваем две модели:
|
||
\begin{enumerate}
|
||
\item Полная модель (с взаимодействием):
|
||
$$
|
||
Y \sim A + b + A : B.
|
||
$$
|
||
\item Аддитивная модель (без взаимодействия):
|
||
$$
|
||
Y \sim A + B.
|
||
$$
|
||
\end{enumerate}
|
||
|
||
\begin{verbatim}
|
||
Модель AIC BIC
|
||
Полная 130.10 145.07
|
||
Аддитивная 216.79 226.15
|
||
\end{verbatim}
|
||
|
||
\textbf{Вывод о сравнении моделей}
|
||
|
||
\begin{itemize}
|
||
\item \textbf{Результаты AIC и BIC:}
|
||
\begin{itemize}
|
||
\item Полная модель имеет AIC = 130.10, в то время как аддитивная модель имеет AIC = 216.79. Это указывает на значительное преимущество полной модели.
|
||
\item Полная модель также имеет BIC = 145.07, а аддитивная модель — BIC = 226.15. Разница подтверждает выбор полной модели.
|
||
\end{itemize}
|
||
|
||
\item \textbf{Заключение:}
|
||
\begin{itemize}
|
||
\item Полная модель \textbf{предпочтительнее}, так как она лучше соответствует данным, что подтверждается меньшими значениями AIC и BIC.
|
||
\item Аддитивная модель не учитывает взаимодействие факторов.
|
||
\end{itemize}
|
||
\end{itemize}
|
||
|
||
\subsection{Пункт f}
|
||
|
||
\textbf{1. Основные эффекты факторов A и B}
|
||
\begin{itemize}
|
||
\item \textbf{Фактор A:}
|
||
Оказал сильное статистически значимое влияние на $Y$ ($F=631.69, p<0.001$).
|
||
|
||
|
||
\item \textbf{Фактор B:}
|
||
Также значимо влияет на $Y$ ($F=67.49, p<0.001$).
|
||
\end{itemize}
|
||
|
||
\textbf{2. Взаимодействие факторов $A \times B$}
|
||
\begin{itemize}
|
||
\item \textbf{Статистическая значимость:}
|
||
Взаимодействие значимо ($F=78.64, p<0.001$).
|
||
|
||
\item \textbf{Визуальное подтверждение:}
|
||
График зависимости $Y$ от $A$ при фиксированных $B$ показывает пересечение линий (особенно для $B=4$), что указывает на неаддитивность эффектов.
|
||
\end{itemize}
|
||
|
||
|
||
\textbf{3. Выбор оптимальной модели}
|
||
|
||
AIC/BIC:
|
||
|
||
\begin{tabularx}{\textwidth}{|c|X|X|}
|
||
\hline
|
||
Модель & AIC & BIC \\
|
||
\hline
|
||
Полная (с взаимодействием) & 130.10 & 145.07 \\
|
||
\hline
|
||
Аддитивная & 216.79 & 226.15 \\
|
||
\hline
|
||
\end{tabularx}
|
||
|
||
Разница $\Delta AIC = 86.69$ и $\Delta BIC = 81.08$ явно указывает на преимущество полной модели.
|
||
|
||
Аддитивная модель не учитывает взаимодействие, что приводит к потере информации.
|
||
|
||
|
||
\textbf{4. Нормальность остатков}
|
||
|
||
\begin{itemize}
|
||
\item Тест Шапиро-Уилка:
|
||
$$p\text{-value} = 0.949 \implies \text{гипотеза о нормальности остатков не отвергается}.$$
|
||
\item Графическая проверка:
|
||
Гистограмма остатков близка к нормальной форме.
|
||
\item Q-Q график показывает совпадение точек с линией $y = x$.
|
||
\end{itemize}
|
||
|
||
\textbf{Рекомендации:}
|
||
Для прогнозирования $Y$ необходимо учитывать взаимодействие $A \times B$, так как его игнорирование приведет к систематической ошибке.
|
||
|
||
|
||
\textbf{Итоговый вывод}
|
||
\begin{enumerate}
|
||
\item Полная модель с взаимодействием предпочтительна по критериям AIC/BIC и объясняет данные лучше аддитивной.
|
||
\item Нормальность остатков подтверждена тестами и графиками.
|
||
\end{enumerate}
|
||
|
||
\textbf{Рекомендации:}
|
||
\begin{itemize}
|
||
\item Проверить данные на наличие выбросов для уровня $B=4$.
|
||
\item Использовать полную модель для прогнозирования и анализа эффектов.
|
||
\end{itemize}
|
||
\end{document} |