commit e0a5b2a8f65cdc6765519168acf397f889318864 Author: Arity-T Date: Thu May 15 21:39:49 2025 +0300 ИДЗ 3 diff --git a/idz3/.gitignore b/idz3/.gitignore new file mode 100644 index 0000000..6d3c5f8 --- /dev/null +++ b/idz3/.gitignore @@ -0,0 +1,6 @@ +**/* +!.gitignore +!report.tex +!img +!img/** +!*.ipynb \ No newline at end of file diff --git a/idz3/img/table1.png b/idz3/img/table1.png new file mode 100644 index 0000000..80428ee Binary files /dev/null and b/idz3/img/table1.png differ diff --git a/idz3/img/table2.png b/idz3/img/table2.png new file mode 100644 index 0000000..678eee2 Binary files /dev/null and b/idz3/img/table2.png differ diff --git a/idz3/img/table3.png b/idz3/img/table3.png new file mode 100644 index 0000000..a7715b4 Binary files /dev/null and b/idz3/img/table3.png differ diff --git a/idz3/img/table4.png b/idz3/img/table4.png new file mode 100644 index 0000000..96180e4 Binary files /dev/null and b/idz3/img/table4.png differ diff --git a/idz3/img/table5.png b/idz3/img/table5.png new file mode 100644 index 0000000..ed37c6d Binary files /dev/null and b/idz3/img/table5.png differ diff --git a/idz3/img/table6.png b/idz3/img/table6.png new file mode 100644 index 0000000..16dcf59 Binary files /dev/null and b/idz3/img/table6.png differ diff --git a/idz3/img/task1.png b/idz3/img/task1.png new file mode 100644 index 0000000..cc924a0 Binary files /dev/null and b/idz3/img/task1.png differ diff --git a/idz3/img/task1_1.png b/idz3/img/task1_1.png new file mode 100644 index 0000000..57f66b7 Binary files /dev/null and b/idz3/img/task1_1.png differ diff --git a/idz3/img/task1_2.png b/idz3/img/task1_2.png new file mode 100644 index 0000000..eee72e1 Binary files /dev/null and b/idz3/img/task1_2.png differ diff --git a/idz3/img/task2.png b/idz3/img/task2.png new file mode 100644 index 0000000..58e6ead Binary files /dev/null and b/idz3/img/task2.png differ diff --git a/idz3/img/task2_1.png b/idz3/img/task2_1.png new file mode 100644 index 0000000..a06ea8b Binary files /dev/null and b/idz3/img/task2_1.png differ diff --git a/idz3/img/task2_2.png b/idz3/img/task2_2.png new file mode 100644 index 0000000..a78ee0e Binary files /dev/null and b/idz3/img/task2_2.png differ diff --git a/idz3/report.tex b/idz3/report.tex new file mode 100644 index 0000000..12d9dc7 --- /dev/null +++ b/idz3/report.tex @@ -0,0 +1,755 @@ +\documentclass[a4paper, final]{article} +%\usepackage{literat} % Нормальные шрифты +\usepackage[14pt]{extsizes} % для того чтобы задать нестандартный 14-ый размер шрифта +\usepackage{tabularx} +\usepackage[T2A]{fontenc} +\usepackage[utf8]{inputenc} +\usepackage[russian]{babel} +\usepackage{amsmath} +\usepackage{amssymb} +\usepackage[left=15mm, top=15mm, right=15mm, bottom=15mm, footskip=10mm]{geometry} +\usepackage{ragged2e} %для растягивания по ширине +\usepackage{setspace} %для межстрочно го интервала +\usepackage{moreverb} %для работы с листингами +\usepackage{indentfirst} % для абзацного отступа +\usepackage{moreverb} %для печати в листинге исходного кода программ +\usepackage{pdfpages} %для вставки других pdf файлов +\usepackage{tikz} +\usepackage{graphicx} +\usepackage{afterpage} +\usepackage{longtable} +\usepackage{float} + + + +% \usepackage[paper=A4,DIV=12]{typearea} +\usepackage{pdflscape} +% \usepackage{lscape} + +\usepackage{array} +\usepackage{multirow} + +\renewcommand\verbatimtabsize{4\relax} +\renewcommand\listingoffset{0.2em} %отступ от номеров строк в листинге +\renewcommand{\arraystretch}{1.4} % изменяю высоту строки в таблице +\usepackage[font=small, singlelinecheck=false, justification=centering, format=plain, labelsep=period]{caption} %для настройки заголовка таблицы +\usepackage{listings} %листинги +\usepackage{xcolor} % цвета +\usepackage{hyperref}% для гиперссылок +\usepackage{enumitem} %для перечислений + +\newcommand{\specialcell}[2][l]{\begin{tabular}[#1]{@{}l@{}}#2\end{tabular}} + + +\setlist[enumerate,itemize]{leftmargin=1.2cm} %отступ в перечислениях + +\hypersetup{colorlinks, + allcolors=[RGB]{010 090 200}} %красивые гиперссылки (не красные) + +% подгружаемые языки — подробнее в документации listings (это всё для листингов) +\lstloadlanguages{ SQL} +% включаем кириллицу и добавляем кое−какие опции +\lstset{tabsize=2, + breaklines, + basicstyle=\footnotesize, + columns=fullflexible, + flexiblecolumns, + numbers=left, + numberstyle={\footnotesize}, + keywordstyle=\color{blue}, + inputencoding=cp1251, + extendedchars=true +} +\lstdefinelanguage{MyC}{ + language=SQL, +% ndkeywordstyle=\color{darkgray}\bfseries, +% identifierstyle=\color{black}, +% morecomment=[n]{/**}{*/}, +% commentstyle=\color{blue}\ttfamily, +% stringstyle=\color{red}\ttfamily, +% morestring=[b]", +% showstringspaces=false, +% morecomment=[l][\color{gray}]{//}, + keepspaces=true, + escapechar=\%, + texcl=true +} + +\textheight=24cm % высота текста +\textwidth=16cm % ширина текста +\oddsidemargin=0pt % отступ от левого края +\topmargin=-1.5cm % отступ от верхнего края +\parindent=24pt % абзацный отступ +\parskip=5pt % интервал между абзацами +\tolerance=2000 % терпимость к "жидким" строкам +\flushbottom % выравнивание высоты страниц + + +% Настройка листингов +\lstset{ + language=python, + extendedchars=\true, + inputencoding=utf8, + keepspaces=true, + % captionpos=b, % подписи листингов снизу +} + +\begin{document} % начало документа + + + + % НАЧАЛО ТИТУЛЬНОГО ЛИСТА + \begin{center} + \hfill \break + \hfill \break + \normalsize{МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ\\ + федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский политехнический университет Петра Великого»\\[10pt]} + \normalsize{Институт компьютерных наук и кибербезопасности}\\[10pt] + \normalsize{Высшая школа технологий искусственного интеллекта}\\[10pt] + \normalsize{Направление: 02.03.01 <<Математика и компьютерные науки>>}\\ + + \hfill \break + \hfill \break + \hfill \break + \hfill \break + \large{Индивидуальное домашнее задание №3}\\ + \large{по дисциплине}\\ + \large{<<Математическая статистика>>}\\ + \large{Вариант 27}\\ + + % \hfill \break + \hfill \break + \end{center} + + \small{ + \begin{tabular}{lrrl} + \!\!\!Студент, & \hspace{2cm} & & \\ + \!\!\!группы 5130201/20102 & \hspace{2cm} & \underline{\hspace{3cm}} &Тищенко А. А. \\\\ + \!\!\!Преподаватель & \hspace{2cm} & \underline{\hspace{3cm}} & Малов С. В. \\\\ + &&\hspace{4cm} + \end{tabular} + \begin{flushright} + <<\underline{\hspace{1cm}}>>\underline{\hspace{2.5cm}} 2025г. + \end{flushright} + } + + \hfill \break + % \hfill \break + \begin{center} \small{Санкт-Петербург, 2025} \end{center} + \thispagestyle{empty} % выключаем отображение номера для этой страницы + + % КОНЕЦ ТИТУЛЬНОГО ЛИСТА + \newpage + \section {Задание №1} + + \begin{figure}[h!] + \centering + \includegraphics[width=1\linewidth]{img/task1.png} + \label{fig:task1} + \end{figure} + + + \subsection{Пункт a} + Вариационный ряд: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 6, 6, 7, 8, 8, 14. + + Эмпирическая функция распределения (ЭФР) + $$ + \hat{F}_n(x) = \frac{1}{n} \sum_{i=1}^{n} \text{\textbf{1}}_{\{X_i \leq x\}}, + $$ + где $n$ — объем выборки. + + \begin{figure}[h!] + \centering + \includegraphics[width=0.55\linewidth]{img/task1_1.png} + \label{fig:task1_1} + \end{figure} + + \begin{figure}[h!] + \centering + \includegraphics[width=0.55\linewidth]{img/task1_2.png} + \label{fig:task1_2} + \end{figure} + + \subsection{Пункт b} + + \textbf{(i) Выборочное среднее (математическое ожидание)} + Выборочное среднее — оценка теоретического математического ожидания. + $$ + \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i = 1.96 + $$ + + + \textbf{(ii) Выборочная дисперсия} + + Несмещённая оценка дисперсии: + $$ + s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(X_i-\bar{X})^2 = 7.67 + $$ + + Смещенная оценка дисперсии: + $$ + s^2_{\text{смещенная}} = \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X})^2 = 7.52 + $$ + + где: + \begin{itemize} + \item $ n $ — общее количество наблюдений, + \item $X_i$ — каждое отдельное наблюдение, + \item $\bar{X}$ — среднее значение выборки. + \end{itemize} + + + \textbf{(iii) Медиана} + + $$ + \text{Медиана} = + \begin{cases} + X_{\left(\frac{n}{2}\right)} & \text{если } n \text{ чётно} \\ + \frac{X_{\left(\frac{n-1}{2}\right)} + X_{\left(\frac{n+1}{2}\right)}}{2} & \text{если } n \text{ нечётно} + \end{cases} + $$ + + Для данных из варианта: + $$ + \text{Медиана} = 1 + $$ + + \textbf{(iv) Ассиметрия} + $$ + Skewness = \frac{\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^3}{s^3} = 2.25 + $$ + + \textbf{(v) Эксцесс} + $$ + Kurtosis = \frac{\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^4}{s^4} - 3 = 5.92 + $$ + + \textbf{(vi) Вероятность $P(X \in [0.00, 2.49])$} + $$ + P(X \in [a, b]) = \frac{\text{число элементов выборки} \in [a, b]}{n}. + $$ + + Для данных из варианта: + $$ + P(X \in [0.0, 2.49]): 0.74 + $$ + + \subsection{Пункт c} + \textbf{1. Оценка максимального правдоподобия (ОМП)} + Функция правдоподобия для Пуассона: + $$ + L(\lambda) = \prod_{i=1}^{n}\frac{\lambda^{X_i}e^{-\lambda}}{X_i!}. + $$ + + Логарифмируя, получаем: + + $$ + \ln L(\lambda) = \sum_{i=1}^{n} \left( X_i \ln \lambda - \lambda - \ln X_i! \right). + $$ + + Дифференцируя по $\lambda$, приравнивая к нулю: + + $$ + \frac{d}{d\lambda} \ln L(\lambda) = \frac{1}{\lambda} \sum_{i=1}^{n} X_i - n = 0 + \Longrightarrow \hat{\lambda}_{\text{ОМП}} = \frac{1}{n} \sum_{i=1}^{n} X_i = \bar{X}. + $$ + + ОМП для $\lambda$: 1.96 + + + \textbf{Смещение ОМП:} + В случае распределения Пуассона оценка максимального правдоподобия (ОМП) параметра $\lambda$ совпадает с выборочным средним: + + $$ + \hat{\lambda}_{\text{ОМП}} = \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i. + $$ + + Найдём математическое ожидание этой оценки: + + $$ + \mathbb{E}[\hat{\lambda}_{\text{ОМП}}] = \mathbb{E} \left[ \frac{1}{n} \sum_{i=1}^{n} x_i \right] = \frac{1}{n} \sum_{i=1}^{n} \mathbb{E}[x_i]. + $$ + + Так как для распределения Пуассона $\mathbb{E}[x_i] = \lambda$, то: + + $$ + \mathbb{E}[\hat{\lambda}_{\text{ОМП}}] = \frac{1}{n} \cdot n \lambda = \lambda. + $$ + + Отсюда следует: + + $$ + \text{Смещение}(\hat{\lambda}_{\text{ОМП}}) = \lambda - \lambda = 0. + $$ + + \textbf{2. Оценка по методу моментов (ОММ)} + Приравниваем теоретическое математическое ожидание к выборочному: + $$ + E[X]=\lambda \Longrightarrow \hat{\lambda}_{\text{MM}} = \bar{X}. \ + $$ + + ОММ для $\lambda$: 1.96 + + + \textbf{Смещение ОММ:} + Метод моментов приводит к той же оценке: + + $$ + \hat{\lambda}_{\text{ММ}} = \bar{x}. + $$ + + Математическое ожидание: + + $$ + \mathbb{E}[\hat{\lambda}_{\text{ММ}}] = \lambda \ + $$ + + Смещение этой оценки: + + $$ + \text{Смещение}(\hat{\lambda}_{\text{ММ}}) = \lambda - \lambda = 0. + $$ + + Таким образом, обе оценки ($\hat{\lambda}_{\text{ОМП}}$ и $\hat{\lambda}_{\text{ММ}}$) являются несмещёнными. + + + \subsection{Пункт d} + Aсимптотический доверительный интервал уровня значимости $\alpha_{1}=0.02$ для параметра $\lambda$ на базе оценки максимального правдоподобия + + \textbf{Шаги построения} + + \begin{enumerate} + \item Оценка $\hat{\lambda}$ + ОМП параметра $\lambda$ равна выборочному среднему: + $$ \hat{\lambda} = \bar{x} = 1.96 $$ + + \item Стандартная ошибка + Для распределения Пуассона дисперсия равна $\lambda$: + $$ SE = \sqrt{\frac{\hat{\lambda}}{n}} = 0.198$$ + + \item Квантиль нормального распределения + Для уровня значимости $\alpha_{1} = 0.02$: + $$ z_{1-\alpha/2} = z_{0.99} $$ + + \item Границы интервала + $$ \hat{\lambda} \pm z_{0.99} \cdot SE $$ + + Доверительный интервал (98\%): $\lambda \in (1.499, 2.421)$ + \end{enumerate} + + + \subsection{Пункт e} + Критерий $\chi^2$ для проверки гипотезы согласия с распределением Пуассона ($\lambda_0 = 2.00$) + Критерий $\chi^2$ проверяет, насколько эмпирические частоты $O_i$ соответствуют теоретическим частотам $E_i$ при заданном распределении. + + \begin{enumerate} + \item Расчёт наблюдаемых и теоретических частот: + $O_i$ - наблюдаемые частоты для каждого интервала, + + $$ + E_i = n \cdot P(X = k\ |\ \lambda = \lambda_0), + $$ + где $P(X=k)$ — вероятность по распределению Пуассона. + + \item Группировка данных: Объединить значения так, чтобы $E_i \geq 5$. + + \item Статистика $\chi^2$: + $$ + \chi^2 = \sum_{i=1}^{k}\frac{(O_i - E_i)^2}{E_i}. + $$ + + \item Степени свободы: + $$ + df = k - 1 - m, + $$ + где $k$ — число категорий, $m=0$. + \end{enumerate} + + \textbf{Критическое значение:} Сравнение с $\chi_{\text{крит}}^2(df, \alpha)$. + + \textbf{p-значение:} Вероятность $P(\chi^2 \geq \chi_{\text{набл}}^2)$. + + \begin{figure}[h!] + \centering + \includegraphics[width=1\linewidth]{img/table1.png} + \end{figure} + + \begin{figure}[h!] + \centering + \includegraphics[width=0.5\linewidth]{img/table2.png} + \end{figure} + + \newpage + \textbf{Интерпретация} + \begin{itemize} + \item Наблюдаемые частоты $O_i$ — количество раз, когда значение $k$ встречается в выборке. + \item Теоретическая вероятность $P(X=k)$ — вероятность по распределению Пуассона с $\lambda=2.0$. + \item Теоретическая частота $E_i$ — ожидаемое количество значений $k$ при условии, что данные следуют распределению Пуассона ($E_i = n \cdot P(X = k)$). + \end{itemize} + + После группировки категорий (чтобы $E_i \geq 5$) таблица принимает вид: + + \begin{figure}[h!] + \centering + \includegraphics[width=1\linewidth]{img/table3.png} + \end{figure} + + $\chi^2$ наблюдаемое: 29.022 + + Критическое значение ($\alpha=0.02$): 11.668 + + p-значение: 0.0000077 + + Отвергаем гипотезу на уровне $\alpha=0.02$ + + Наибольший уровень значимости, на котором ещё нет оснований отвергнуть гипотезу: 0.0000077 + + Это означает, что гипотеза отвергается на любом уровне значимости $\alpha \geq 0.0000077$ + + + \subsection{Пункт f} + Критерий $\chi^2$ для проверки сложной гипотезы согласия с распределением Пуассона + + \textbf{Оценка параметра $\lambda$} + Если параметр $\lambda$ неизвестен, его оценивают по выборке (например, через выборочное среднее): + + $$ + \hat{\lambda} = \frac{1}{n} \sum_{i=1}^n x_i, + $$ + + где $x_i$ — значения выборки, $n$ — объем выборки. + + \textbf{Степени свободы} + Число степеней свободы для критерия $\chi^2$: + + $$ + df = k - 1 - m, + $$ + + где: + - \( k \) — количество интервалов, + - \( m \) — количество оцененных параметров (в данном случае \( m = 1 \), так как оценивается $\lambda$). + + \textbf{Критическое значение:} Сравнение с $\chi_{\text{крит}}^2(df, \alpha)$. + \textbf{p-значение:} Вероятность $P(\chi^2 \geq \chi_{\text{набл}}^2)$. + + \begin{figure}[h!] + \centering + \includegraphics[width=0.8\linewidth]{img/table4.png} + \end{figure} + + \begin{figure}[h!] + \centering + \includegraphics[width=1\linewidth]{img/table5.png} + \end{figure} + + \begin{figure}[h!] + \centering + \includegraphics[width=1\linewidth]{img/table6.png} + \end{figure} + + Хи-квадрат статистика: 27.3903 + + Критическое значение ($\alpha=0.02$): 9.8374 + + p-value: 0.000005 + + Вывод: Отвергаем нулевую гипотезу + + + \subsection{Пункт g} + + Наиболее мощный критерий проверки гипотезы $H_0 : \lambda = \lambda_0 = 2.0$ против $H_1 : \lambda = \lambda_1 = 4.0$ + + \textbf{Логарифм отношения правдоподобия} + + Функция правдоподобия для распределения Пуассона: + + $$ + L(\lambda) = \prod_{i=1}^n \frac{\lambda^{X_i} e^{-\lambda}}{X_i!} + $$ + + Логарифм отношения правдоподобия: + + $$ + \ln \left( \frac{L(\lambda_1)}{L(\lambda_0)} \right) = \sum_{i=1}^n \left( X_i \ln \left( \frac{\lambda_1}{\lambda_0} \right) - (\lambda_1 - \lambda_0) \right). + $$ + + \textbf{Критерий отношения правдоподобия} + + Для проверки $H_0$ против $H_1$ используется сумма наблюдений $T = \sum_{i=1}^n X_i$. Критерий принимает $H_1$, если: + + $$ + T > k, + $$ + + где $k$ определяется как: + + $$ + k = \text{qpois}(1 - \alpha, n\lambda_0). + $$ + + \textbf{Смена гипотез} + + Если поменять местами гипотезы, новая нулевая гипотеза $H_0 : \lambda = \lambda_1$, а альтернатива $H_1 : \lambda = \lambda_0$. В этом случае критерий принимает $H_0$, если: + + $$ + T < k', + $$ + + где $k'$ определяется как: + + $$ + k' = \text{qpois}(\alpha, n\lambda_1). + $$ + + Сумма наблюдений: $T_{obs} = 98$ + + Порог для $H_0: \lambda = 2.00$: $k = 121$ + + Порог для $H_0: \lambda = 4.00$: $k' = 172$ + + Проверка $H_0: \lambda = 2.00$ vs $H_1: \lambda = 4.00$: + + Не отклоняем $H_0: T_{obs} = 98 \leq 121$ + + Проверка $H_0: \lambda = 4.00$ vs $H_1: \lambda = 2.00$: + + Отклоняем $H_0: T_{obs} = 98 < 172$ + + \newpage + \section{Задание 2} + + \begin{figure}[h!] + \centering + \includegraphics[width=1\linewidth]{img/task2.png} + \end{figure} + + \subsection{Пункт a} + + \textbf{1. Вариационный ряд} + + Вариационный ряд: 0.0, 0.03, 0.06, 0.06, 0.07, 0.1, 0.11, 0.12, 0.12, 0.15, 0.17, 0.18, 0.24, 0.24, 0.29, 0.31, 0.36, 0.49, 0.49, 0.5, 0.53, 0.57, 0.59, 0.67, 0.85, 1.02, 1.11, 1.17, 1.31, 1.31, 2.37, 2.44, 2.58, 2.77, 2.98, 3.03, 3.13, 3.34, 3.57, 3.96, 4.55, 6.5, 6.72, 6.84, 8.33, 9.25, 11.4, 11.83, 14.94, 15.68 + + \textbf{2. Эмпирическая функция распределения (ЭФР)} + $$ + \hat{F}_n(x) = \frac{1}{n} \sum_{i=1}^{n} \text{\textbf{1}}_{\{X_i \leq x\}}, + $$ + где $n$ — объем выборки. + + \begin{figure}[h!] + \centering + \includegraphics[width=1\linewidth]{img/task2_1.png} + \end{figure} + + \newpage + \textbf{3. Гистограмма частот} + + \begin{figure}[h!] + \centering + \includegraphics[width=1\linewidth]{img/task2_2.png} + \end{figure} + + \newpage + \subsection{Пункт b} + + \textbf{1. Выборочное среднее (математическое ожидание)} + Выборочное среднее — оценка теоретического математического ожидания. + + $$ + \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i = 2.79 + $$ + + \textbf{2. Выборочная дисперсия} + Несмещённая оценка дисперсии: + $$ + s^2 = \frac{1}{n-1} \sum_{i=1}^{n}(X_i-\bar{X})^2 = 15.59 + $$ + + Смещенная оценка дисперсии: + $$ + s^2_{\text{смещенная}} = \frac{1}{n} \sum_{i=1}^{n}(X_i - \bar{X})^2 = 15.28 + $$ + + где: + - $ n $ — общее количество наблюдений, + - $X_i$ — каждое отдельное наблюдение, + - $\bar{X}$ — среднее значение выборки. + + \textbf{3. Медиана} + Значение, разделяющее выборку на две равные части. + + $$ + \text{Медиана} = 0.94 + $$ + + \textbf{4. Ассиметрия} + $$ + Skewness = \frac{\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^3}{s^3} = 1.85 + $$ + + \textbf{5. Эксцесс} + $$ + Kurtosis = \frac{\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^4}{s^4} - 3 = 2.66 + $$ + + \textbf{6. Вероятность $P(X \in [0.00, 4.62])$} + Эмпирическая оценка вероятности: + $$ + P(X \in [c, d]) = \frac{\text{число элементов выборки} \in [c, d]}{n}. + $$ + + $$ + P(X \in [0.0, 4.62]): 0.82 + $$ + + \subsection{Пункт c} + \textbf{1. Оценка максимального правдоподобия (ОМП)} + + + Функция правдоподобия для показательного распределения: + $$ + L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i} + $$ + Логарифмируя, получаем: + $$ + \ln L(\lambda) = n \ln \lambda - \lambda \sum_{i=1}^{n} x_i + $$ + Дифференцируя по $\lambda$ и приравнивая к нулю: + $$ + \frac{d}{d\lambda} \ln L(\lambda) = \frac{n}{\lambda} - \sum_{i=1}^{n} x_i = 0 + $$ + Отсюда получаем ОМП: + $$ + \hat{\lambda}{\text{ОМП}} = \frac{n}{\sum{i=1}^{n} x_i} = \frac{1}{\bar{X}} + $$ + + ОМП для $\lambda$: 0.3586 + + + \textbf{2. Оценка по методу моментов (ОММ)} + Для показательного распределения математическое ожидание равно $E[X] = \frac{1}{\lambda}$. Приравнивая теоретическое математическое ожидание к выборочному: + $$ + \frac{1}{\lambda} = \bar{X} \Rightarrow \hat{\lambda}{\text{ММ}} = \frac{1}{\bar{X}} + $$ + ОММ для $\lambda$: 0.3586 + + + \textbf{3. Смещение оценок} + Для показательного распределения ОМП и ОММ совпадают. Найдём смещение: + $$ + \text{Смещение}(\hat{\lambda}) = E[\hat{\lambda}] - \lambda + $$ + Для показательного распределения: + $$ + E[\hat{\lambda}_{\text{ОМП}}] = E\left[\frac{1}{\bar{X}}\right] \neq \frac{1}{E[\bar{X}]} = \lambda + $$ + Оценка $\hat{\lambda}_{\text{ОМП}}$ является смещённой, но асимптотически несмещённой. + + Смещение MLE: 0.0073 + + + \subsection{Пункт d} + + Для построения асимптотического доверительного интервала используем тот факт, что ОМП асимптотически нормальна с дисперсией: + $$ + \text{Var}(\hat{\lambda}) = \frac{\lambda^2}{n} + $$ + Доверительный интервал уровня значимости $\alpha_2$ имеет вид: + $$ + \hat{\lambda} \pm z_{1-\alpha_2/2} \cdot \frac{\hat{\lambda}}{\sqrt{n}} + $$ + где $z_{1-\alpha_2/2}$ — квантиль стандартного нормального распределения. + + Квантиль $z_{1-\alpha_2/2} = 1.6449$ + + Доверительный интервал (90.0\%): (0.2752, 0.4420) + + \subsection{Пункт e} + Критерий Колмогорова основан на статистике: + $$ + D_n = \sup_x |F_n(x) - F(x)| + $$ + где $F_n(x)$ — эмпирическая функция распределения, $F(x)$ — теоретическая функция распределения. + Для показательного распределения с параметром $\lambda_0$: + $$ + F(x) = 1 - e^{-\lambda_0 x}, \quad x \geq 0 + $$ + + Критерий Колмогорова-Смирнова: + + Статистика $D_n$: 0.2831, Критическое значение: 0.1725 + + P-value: 0.0005 + + Гипотеза отвергается + + \subsection{Пункт f} + Критерий $\chi^2$ основан на сравнении наблюдаемых и ожидаемых частот в интервалах: + $$ + \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} + $$ + где $O_i$ — наблюдаемая частота в $i$-м интервале, $E_i$ — ожидаемая частота. + + $\chi^2$ статистика: 14.4669 + + Критическое значение ($\alpha=0.1$): 6.2514 + + p-значение: 0.002334 + + Степени свободы: 3 + + Гипотеза отвергается на уровне 0.1 + + + \subsection{Пункт g} + Критерий $\chi^2$ для проверки сложной гипотезы + + При проверке сложной гипотезы параметр $\lambda$ оценивается по выборке: + Оценка $\lambda$: 0.3586 + + Критерий $\chi^2$ для сложной гипотезы: + + Статистика $\chi^2$: 10.9186 + + Критическое значение ($\alpha=0.1$): 4.6052 + + p-значение: 0.0043 + + Степени свободы: 2 + + Гипотеза отвергается на уровне 0.1 + + Таблица частот: + + [0.00, 1.40): O=30, E=19.74 + + [1.40, 2.80): O=4, E=11.95 + + [2.80, 4.20): O=6, E=7.23 + + [4.20, 16.80): O=10, E=10.97 + + \subsection{Пункт h} + Для проверки простой гипотезы $H_0: \lambda = \lambda_0$ против альтернативы $H_1: \lambda = \lambda_1$ наиболее мощный критерий основан на отношении правдоподобия: + $$ + \Lambda = \frac{L(\lambda_0)}{L(\lambda_1)} = \frac{\lambda_0^n e^{-\lambda_0 \sum_{i=1}^{n} x_i}}{\lambda_1^n e^{-\lambda_1 \sum_{i=1}^{n} x_i}} = \left(\frac{\lambda_0}{\lambda_1}\right)^n e^{-(\lambda_0-\lambda_1) \sum_{i=1}^{n} x_i} + $$ + Логарифмируя: + $$ + \ln \Lambda = n \ln\left(\frac{\lambda_0}{\lambda_1}\right) - (\lambda_0-\lambda_1) \sum_{i=1}^{n} x_i + $$ + Критическая область имеет вид $\ln \Lambda < c$, где $c$ определяется уровнем значимости $\alpha_2$. + + Критическая область: $sum \, data > 179.54$ + + Сумма данных: 139.43 + + Решение: Не отвергаем $H_0$ + + При замене гипотез местами: + + Критическая область: $sum \, data < 294.14$ + + Решение: Отвергаем $H_0$ +\end{document} \ No newline at end of file diff --git a/idz3/ИДЗ 3_1 Артём.ipynb b/idz3/ИДЗ 3_1 Артём.ipynb new file mode 100644 index 0000000..947b650 --- /dev/null +++ b/idz3/ИДЗ 3_1 Артём.ipynb @@ -0,0 +1,1631 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "id": "23f67692", + "metadata": {}, + "source": [ + "Вар. 27 (513020125)\n", + "1. В результате эксперимента получены данные, приведенные в таблице 1. \n", + "a) Построить вариационный ряд, эмпирическую функцию распределения и гистограмму частот. \n", + "b) Вычислить выборочные аналоги следующих числовых характеристик: \n", + "(i) математического ожидания, (ii) дисперсии, (iii) медианы, (iv) асимметрии, (v) эксцесса, \n", + "(vi) вероятности P(X ∈ [a, b]). \n", + "c) В предположении, что исходные наблюдения являются выборкой из распределения Пуассона, построить оценку \n", + "максимального правдоподобия параметра λ, а также оценку λ по методу моментов. Найти смещение оценок. \n", + "d) Построить асимптотический доверительный интервал уровня значимости α1 для параметра λ на базе оценки \n", + "максимального правдоподобия. \n", + "e) Используя гистограмму частот, построить критерий значимости χ2 проверки простой гипотезы согласия \n", + "с распределением Пуассона с параметром λ0. Проверить гипотезу на уровне значимости α1. Вычислить \n", + "наибольшее значение уровня значимости, на котором еще нет оснований отвергнуть данную гипотезу. \n", + "f) Построить критерий значимости χ2 проверки сложной гипотезы согласия с распределением Пуассона. Проверить \n", + "гипотезу на уровне значимости α1. Вычислить наибольшее значение уровня значимости, на котором еще нет \n", + "оснований отвергнуть данную гипотезу. \n", + "g) Построить наиболее мощный критерий проверки простой гипотезы пуассоновости с параметром λ = λ0 при \n", + "альтернативе пуассоновости с параметром λ = λ1. Проверить гипотезу на уровне значимости α1. Что получится, \n", + "если поменять местами основную и альтернативную гипотезы? \n", + "\n", + "Таблица 1 α1 = 0.02; a = 0.00; b = 2.49; λ0 = 2.00; λ1 = 4.00. \n", + "0 1 2 0 0 7 1 0 2 1 0 1 2 2 0 0 1 8 0 0 14 4 3 0 0 3 0 6 2 2 1 0 0 2 0 4 0 0 3 3 1 1 0 0 6 8 1 \n", + "4 1 1" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "id": "57a523dd", + "metadata": {}, + "outputs": [], + "source": [ + "# Данные\n", + "import numpy as np\n", + "data = np.array([0, 1, 2, 0, 0, 7, 1, 0, 2, 1, 0, 1, 2, 2, 0, 0, 1, 8, 0, 0, 14, 4, 3, 0, 0, 3, 0, 6, 2, 2, 1, 0, 0,\n", + " 2, 0, 4, 0, 0, 3, 3, 1, 1, 0, 0, 6, 8, 1, 4, 1, 1])\n", + "n = len(data)\n", + "alpha = 0.02\n", + "a = 0.00\n", + "b = 2.49\n", + "lambda0 = 2.00\n", + "lambda1 = 4.00\n" + ] + }, + { + "cell_type": "markdown", + "id": "8b7561a0", + "metadata": {}, + "source": [ + "## Пункт a)" + ] + }, + { + "cell_type": "markdown", + "id": "b046ad70", + "metadata": {}, + "source": [ + "### 1. Вариационный ряд" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "id": "db7e1a67", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Вариационный ряд: 0^(19), 1^(11), 2^(7), 3^(4), 4^(3), 6^(2), 7^(1), 8^(2), 14^(1)\n", + "[ 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1\n", + " 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 4 4 4 6 6 7 8\n", + " 8 14]\n" + ] + } + ], + "source": [ + "# Получение уникальных значений и их частот\n", + "unique_values, counts = np.unique(data, return_counts=True)\n", + "\n", + "# Форматирование вариационного ряда\n", + "variational_series = [f\"{value}^({count})\" for value, count in zip(unique_values, counts)]\n", + "print(\"Вариационный ряд:\", \", \".join(variational_series))\n", + "sorted_data = np.sort(data)\n", + "print(sorted_data)" + ] + }, + { + "cell_type": "markdown", + "id": "93c7e45f", + "metadata": {}, + "source": [ + "### 2. Эмпирическая функция распределения (ЭФР)\n", + "$$\n", + "\\hat{F}_n(x) = \\frac{1}{n} \\sum_{i=1}^{n} \\text{\\textbf{1}}_{\\{X_i \\leq x\\}},\n", + "$$\n", + "где $n$ — объем выборки." + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "id": "261ad18a", + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "from statsmodels.distributions.empirical_distribution import ECDF\n", + "\n", + "ecdf = ECDF(data)\n", + "x = np.linspace(min(data) - 1, max(data) + 1, 1000)\n", + "y = ecdf(x)\n", + "\n", + "# Находим точки, где F(x) переходит от 0 к основному росту и от роста к 1\n", + "x_left = x[y == 0][-1] # Последняя точка, где F(x)=0\n", + "x_right = x[y == 1][0] # Первая точка, где F(x)=1\n", + "\n", + "# Разделяем данные на 3 части\n", + "mask_left = (x < x_left) # F(x) = 0\n", + "mask_mid = (x >= x_left) & (x <= x_right) # Основной рост\n", + "mask_right = (x > x_right) # F(x) = 1\n", + "\n", + "# Рисуем каждую часть своим стилем\n", + "plt.figure(figsize=(10, 6))\n", + "plt.step(x[mask_left], y[mask_left], '--', color='blue', where='post', label='F(x)=0') # Пунктир слева\n", + "plt.step(x[mask_mid], y[mask_mid], '-', color='blue', where='post', label='ЭФР') # Сплошная основная часть\n", + "plt.step(x[mask_right], y[mask_right], '--', color='blue', where='post', label='F(x)=1') # Пунктир справа\n", + "\n", + "# Настройки графика\n", + "plt.title(\"Эмпирическая функция распределения\")\n", + "plt.xlabel(\"x\")\n", + "plt.ylabel(\"F(x)\")\n", + "# Добавление пунктирных линий для F(x) = 0 и F(x) = 1\n", + "plt.axhline(y=0, color='gray', linestyle='--', linewidth=1, label='F(x) = 0')\n", + "plt.axhline(y=1, color='gray', linestyle='--', linewidth=1, label='F(x) = 1')\n", + "\n", + "plt.grid(True, linestyle=':')\n", + "plt.xticks(np.arange(np.floor(min(data)), np.ceil(max(data)) + 1))\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "id": "639c228f", + "metadata": {}, + "source": [ + "### 3. Гистограмма частот" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "id": "09541433", + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "plt.hist(data, bins=np.arange(min(data)-0.5, max(data)+1.5, 1), edgecolor='black', alpha=0.7)\n", + "plt.title(\"Гистограмма частот\")\n", + "plt.xlabel(\"Значения\")\n", + "plt.ylabel(\"Частота\")\n", + "plt.xticks(np.arange(min(data), max(data)+1))\n", + "plt.grid(axis='y')\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "id": "44f7e836", + "metadata": {}, + "source": [ + "## Пункт b)" + ] + }, + { + "cell_type": "markdown", + "id": "c32cd292", + "metadata": {}, + "source": [ + "### (i) Выборочное среднее (математическое ожидание)\n", + "Выборочное среднее — оценка теоретического математического ожидания.\n", + "$$\n", + "\\bar{X} = \\frac{1}{n} \\sum_{i=1}^{n} X_i.\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "id": "ead66cb6", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Выборочное среднее: 1.96\n" + ] + } + ], + "source": [ + "import numpy as np\n", + "mean = np.mean(data)\n", + "print(f\"Выборочное среднее: {mean:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "83c9665b", + "metadata": {}, + "source": [ + "### (ii) Выборочная дисперсия\n", + "Несмещённая оценка дисперсии:\n", + "$$\n", + "s^2 = \\frac{1}{n-1} \\sum_{i=1}^{n}(X_i-\\bar{X})^2.\n", + "$$\n", + "\n", + "Смещенная оценка дисперсии:\n", + "$$\n", + "s^2_{\\text{смещенная}} = \\frac{1}{n} \\sum_{i=1}^{n}(X_i - \\bar{X})^2\n", + "$$\n", + "\n", + "где:\n", + "- $ n $ — общее количество наблюдений,\n", + "- $X_i$ — каждое отдельное наблюдение,\n", + "- $\\bar{X}$ — среднее значение выборки." + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "id": "a24ea7eb", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Несмещённая оценка дисперсии: 7.67\n", + "Смещённая оценка дисперсии: 7.52\n" + ] + } + ], + "source": [ + "variance = np.var(data, ddof=1)\n", + "print(f\"Несмещённая оценка дисперсии: {variance:.2f}\")\n", + "print(f\"Смещённая оценка дисперсии: {(np.var(data, ddof=0)):.2f}\")\n", + "# print(sum((x - mean) ** 2 for x in data) / (n - 1))" + ] + }, + { + "cell_type": "markdown", + "id": "bd8ee128", + "metadata": {}, + "source": [ + "### (iii) Медиана\n", + "Значение, разделяющее выборку на две равные части." + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "id": "e8490052", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Медиана: 1.0\n" + ] + } + ], + "source": [ + "median = np.median(data)\n", + "print(f\"Медиана: {median}\")" + ] + }, + { + "cell_type": "markdown", + "id": "34384b8f", + "metadata": {}, + "source": [ + "### (iv) Ассиметрия\n", + "$$\n", + "Skewness = \\frac{\\frac{1}{n}\\sum_{i=1}^{n}(X_i-\\bar{X})^3}{s^3}.\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "id": "cc21a5b6", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Асимметрия: 2.25\n" + ] + } + ], + "source": [ + "from scipy.stats import skew\n", + "skewness = skew(data)\n", + "print(f\"Асимметрия: {skewness:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "ddd4b8a7", + "metadata": {}, + "source": [ + "### (v) Эксцесс\n", + "$$\n", + "Kurtosis = \\frac{\\frac{1}{n}\\sum_{i=1}^{n}(X_i-\\bar{X})^4}{s^4} - 3.\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "id": "118d475e", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Эксцесс: 5.92\n" + ] + } + ], + "source": [ + "from scipy.stats import kurtosis\n", + "excess_kurtosis = kurtosis(data)\n", + "print(f\"Эксцесс: {excess_kurtosis:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "93fd7cc5", + "metadata": {}, + "source": [ + "### (vi) Вероятность $P(X \\in [0.00, 2.49])$\n", + "$$\n", + "P(X \\in [a, b]) = \\frac{\\text{число элементов выборки} \\in [a, b]}{n}.\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "id": "08ea631c", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "P(X ∈ [0.0, 2.49]): 0.74\n" + ] + } + ], + "source": [ + "count = np.sum((data >= a) & (data <= b))\n", + "probability = count / len(data)\n", + "print(f\"P(X ∈ [{a}, {b}]): {probability:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "26424ded", + "metadata": {}, + "source": [ + "## Пункт c)" + ] + }, + { + "cell_type": "markdown", + "id": "f6b509ff", + "metadata": {}, + "source": [ + "### 1. Оценка максимального правдоподобия (ОМП)" + ] + }, + { + "cell_type": "markdown", + "id": "c40e8461", + "metadata": {}, + "source": [ + "Функция правдоподобия для Пуассона:\n", + "$$\n", + "L(λ) = \\prod_{i=1}^{n}\\frac{λ^{X_i}e^{-λ}}{X_i!}.\n", + "$$\n", + "\n", + "Логарифмируя, получаем:\n", + "\n", + "$$\n", + "\\ln L(\\lambda) = \\sum_{i=1}^{n} \\left( X_i \\ln \\lambda - \\lambda - \\ln X_i! \\right).\n", + "$$\n", + "\n", + "Дифференцируя по $\\lambda$, приравнивая к нулю:\n", + "\n", + "$$\n", + "\\frac{d}{d\\lambda} \\ln L(\\lambda) = \\frac{1}{\\lambda} \\sum_{i=1}^{n} X_i - n = 0 \n", + "\\Longrightarrow \\hat{\\lambda}_{\\text{ОМП}} = \\frac{1}{n} \\sum_{i=1}^{n} X_i = \\bar{X}.\n", + "$$\n" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "id": "7fa556a6", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "ОМП для λ: 1.96\n" + ] + } + ], + "source": [ + "lambda_ml = np.mean(data)\n", + "print(f\"ОМП для λ: {lambda_ml:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "5a5e2f27", + "metadata": {}, + "source": [ + "\n", + "**Смещение ОМП:** \n", + "В случае распределения Пуассона оценка максимального правдоподобия (ОМП) параметра $\\lambda$ совпадает с выборочным средним:\n", + "\n", + "$$\n", + "\\hat{\\lambda}_{\\text{ОМП}} = \\bar{x} = \\frac{1}{n} \\sum_{i=1}^{n} x_i.\n", + "$$\n", + "\n", + "Найдём математическое ожидание этой оценки:\n", + "\n", + "$$\n", + "\\mathbb{E}[\\hat{\\lambda}_{\\text{ОМП}}] = \\mathbb{E} \\left[ \\frac{1}{n} \\sum_{i=1}^{n} x_i \\right] = \\frac{1}{n} \\sum_{i=1}^{n} \\mathbb{E}[x_i].\n", + "$$\n", + "\n", + "Так как для распределения Пуассона $\\mathbb{E}[x_i] = \\lambda$, то:\n", + "\n", + "$$\n", + "\\mathbb{E}[\\hat{\\lambda}_{\\text{ОМП}}] = \\frac{1}{n} \\cdot n \\lambda = \\lambda.\n", + "$$\n", + "\n", + "Отсюда следует:\n", + "\n", + "$$\n", + "\\text{Смещение}(\\hat{\\lambda}_{\\text{ОМП}}) = \\lambda - \\lambda = 0.\n", + "$$\n" + ] + }, + { + "cell_type": "markdown", + "id": "545f29e7", + "metadata": {}, + "source": [ + "### 2. Оценка по методу моментов (ОММ)\n", + "Приравниваем теоретическое математическое ожидание к выборочному:\n", + "$$\n", + "E[X]=λ \\Longrightarrow \\hat{λ}_{\\text{MM}} = \\bar{X}. \\\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "id": "96484e1c", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "ОММ для λ: 1.96\n" + ] + } + ], + "source": [ + "lambda_mm = np.mean(data)\n", + "print(f\"ОММ для λ: {lambda_mm:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "525cff2b", + "metadata": {}, + "source": [ + "\n", + "**Смещение ОММ:** \n", + "Метод моментов приводит к той же оценке:\n", + "\n", + "$$\n", + "\\hat{\\lambda}_{\\text{ММ}} = \\bar{x}.\n", + "$$\n", + "\n", + "Математическое ожидание:\n", + "\n", + "$$\n", + "\\mathbb{E}[\\hat{\\lambda}_{\\text{ММ}}] = \\lambda \\\n", + "$$\n", + "\n", + "Смещение этой оценки:\n", + "\n", + "$$\n", + "\\text{Смещение}(\\hat{\\lambda}_{\\text{ММ}}) = \\lambda - \\lambda = 0.\n", + "$$\n", + "\n", + "Таким образом, обе оценки ($\\hat{\\lambda}_{\\text{ОМП}}$ и $\\hat{\\lambda}_{\\text{ММ}}$) являются несмещёнными.\n" + ] + }, + { + "cell_type": "markdown", + "id": "289e0726", + "metadata": {}, + "source": [ + "# d) Aсимптотический доверительный интервал уровня значимости α1=0.02 для параметра λ на базе оценки максимального правдоподобия\n", + "\n", + "## Шаги построения\n", + "\n", + "### 1. Оценка $\\hat{\\lambda}$\n", + "ОМП параметра $\\lambda$ равна выборочному среднему:\n", + "$$ \\hat{\\lambda} = \\bar{x} $$\n", + "\n", + "### 2. Стандартная ошибка\n", + "Для распределения Пуассона дисперсия равна $\\lambda$:\n", + "$$ SE = \\sqrt{\\frac{\\hat{\\lambda}}{n}} $$\n", + "\n", + "### 3. Квантиль нормального распределения\n", + "Для уровня значимости $\\alpha_{1} = 0.02$:\n", + "$$ z_{1-\\alpha/2} = z_{0.99} $$\n", + "\n", + "### 4. Границы интервала\n", + "$$ \\hat{\\lambda} \\pm z_{0.99} \\cdot SE $$\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "id": "7f3db200", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "z = 2.326\n", + "se = 0.198\n", + "Доверительный интервал (98%): (1.499, 2.421)\n" + ] + } + ], + "source": [ + "import numpy as np\n", + "from scipy.stats import norm\n", + "\n", + "z = norm.ppf(1 - alpha/2)\n", + "se = np.sqrt(lambda_ml / len(data))\n", + "lower = lambda_ml - z * se\n", + "upper = lambda_ml + z * se\n", + "\n", + "print(f\"z = {z:.3f}\")\n", + "print(f\"se = {se:.3f}\")\n", + "print(f\"Доверительный интервал (98%): ({lower:.3f}, {upper:.3f})\")\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "id": "4604ecf9", + "metadata": {}, + "source": [ + "## Пункт e) Критерий $\\chi^2$ для проверки гипотезы согласия с распределением Пуассона ($λ0 = 2.00$)\n", + "Критерий $\\chi^2$ проверяет, насколько эмпирические частоты $O_i$ соответствуют теоретическим частотам $E_i$ при заданном распределении.\n", + "\n", + "1. **Расчёт наблюдаемых и теоретических частот:** \n", + " $O_i$ - наблюдаемые частоты для каждого интервала,\n", + "\n", + " $$\n", + " E_i = n \\cdot P(X = k\\ |\\ λ = λ_0),\n", + " $$\n", + " где $P(X=k)$ — вероятность по распределению Пуассона.\n", + "\n", + "2. **Группировка данных:** Объединить значения так, чтобы $E_i \\geq 5$.\n", + "\n", + "3. **Статистика $\\chi^2$:**\n", + " $$\n", + " \\chi^2 = \\sum_{i=1}^{k}\\frac{(O_i - E_i)^2}{E_i}.\n", + " $$\n", + "4. **Степени свободы:**\n", + " $$\n", + " df = k - 1 - m,\n", + " $$\n", + " где $k$ — число категорий, $m=0$. \n", + "\n", + "**Критическое значение:** Сравнение с $χ_{\\text{крит}}^2(df, α)$. \n", + "**p-значение:** Вероятность $P(χ^2 \\geq χ_{\\text{набл}}^2$)." + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "id": "d881725f", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Таблица до группировки категорий:\n", + " Значение k Наблюдаемая частота (O_i) Теоретическая вероятность (P(X=k)) \\\n", + "0 0 19 0.1353 \n", + "1 1 11 0.2707 \n", + "2 2 7 0.2707 \n", + "3 3 4 0.1804 \n", + "4 4 3 0.0902 \n", + "5 6 2 0.0120 \n", + "6 7 1 0.0034 \n", + "7 8 2 0.0009 \n", + "8 14 1 0.0000 \n", + "\n", + " Теоретическая частота (E_i) \n", + "0 6.767 \n", + "1 13.534 \n", + "2 13.534 \n", + "3 9.022 \n", + "4 4.511 \n", + "5 0.601 \n", + "6 0.172 \n", + "7 0.043 \n", + "8 0.000 \n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from scipy.stats import poisson, chi2\n", + "\n", + "# Теоретические вероятности для каждого k\n", + "probs_individual = [poisson.pmf(k, lambda0) for k in unique_values]\n", + "\n", + "# Теоретические частоты\n", + "expected_individual = np.array(probs_individual) * n\n", + "\n", + "df_individual = pd.DataFrame({\n", + " \"Значение k\": unique_values,\n", + " \"Наблюдаемая частота (O_i)\": counts,\n", + " \"Теоретическая вероятность (P(X=k))\": np.round(probs_individual, 4),\n", + " \"Теоретическая частота (E_i)\": np.round(expected_individual, 3)\n", + "})\n", + "\n", + "print(\"Таблица до группировки категорий:\")\n", + "print(df_individual)\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "id": "c669819b", + "metadata": {}, + "source": [ + "### Интерпретация\n", + "- **Наблюдаемые частоты** $O_i$ — количество раз, когда значение $k$ встречается в выборке.\n", + "- **Теоретическая вероятность** $P(X=k)$ — вероятность по распределению Пуассона с $λ=2.0$.\n", + "- **Теоретическая частота** $E_i$ — ожидаемое количество значений $k$ при условии, что данные следуют распределению Пуассона ($E_i = n \\cdot P(X = k)$).\n", + "\n", + "После группировки категорий (чтобы $E_i ≥ 5$) таблица принимает вид:" + ] + }, + { + "cell_type": "code", + "execution_count": 33, + "id": "74f3d6a5", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "Таблица после группировки категорий:\n", + " Группа Наблюдаемая частота (O_i) Теоретическая вероятность \\\n", + "0 0 19 0.1353 \n", + "1 1 11 0.2707 \n", + "2 2 7 0.2707 \n", + "3 3 4 0.1804 \n", + "4 4,5,6,7,8 9 0.1429 \n", + "\n", + " Теоретическая частота (E_i) \n", + "0 6.767 \n", + "1 13.534 \n", + "2 13.534 \n", + "3 9.022 \n", + "4 7.144 \n", + "\n", + "χ² наблюдаемое: 29.022\n", + "Критическое значение (α=0.02): 11.668\n", + "p-значение: 0.0000077\n", + "Отвергаем гипотезу на уровне 0.02\n", + "Наибольший уровень значимости, на котором ещё нет оснований отвергнуть гипотезу: 0.0000077\n", + "Это означает, что гипотеза отвергается на любом уровне значимости α ≥ 0.0000077\n" + ] + } + ], + "source": [ + "from scipy.stats import chi2\n", + "# Группировка категорий (для E_i ≥ 5)\n", + "groups = [\n", + " [0], # Группа 1: k=0\n", + " [1], # Группа 2: k=1\n", + " [2], # Группа 3: k=2\n", + " [3], # Группа 4: k=3\n", + " [4, 5, 6, 7, 8] # Группа 5: k=4,5,6,7,8\n", + "]\n", + "\n", + "# Расчёт наблюдаемых частот по группам\n", + "# observed_grouped = np.array([19, 11, 7, 4, 3+2+1+2+1]) # ??\n", + "observed_grouped = np.array([np.sum(data==k) for k in [0,1,2,3]] + [np.sum(data>=4)])\n", + "\n", + "# Расчёт теоретических вероятностей по группам\n", + "probs_grouped = [\n", + " poisson.pmf(0, lambda0),\n", + " poisson.pmf(1, lambda0),\n", + " poisson.pmf(2, lambda0),\n", + " poisson.pmf(3, lambda0),\n", + " 1 - poisson.cdf(3, lambda0) # sum(poisson.pmf(k, lambda0) for k in groups[4])\n", + "]\n", + "\n", + "# Теоретические частоты\n", + "expected_grouped = np.array(probs_grouped) * n\n", + "\n", + "# Создание таблицы после группировки\n", + "df_grouped = pd.DataFrame({\n", + " \"Группа\": [\"0\", \"1\", \"2\", \"3\", \"4,5,6,7,8\"],\n", + " \"Наблюдаемая частота (O_i)\": observed_grouped,\n", + " \"Теоретическая вероятность\": np.round(probs_grouped, 4),\n", + " \"Теоретическая частота (E_i)\": np.round(expected_grouped, 3)\n", + "})\n", + "\n", + "print(\"\\nТаблица после группировки категорий:\")\n", + "print(df_grouped)\n", + "\n", + "# Статистика χ²\n", + "chi2_stat = np.sum((observed_grouped - expected_grouped)**2 / expected_grouped)\n", + "\n", + "# Степени свободы\n", + "df = 5 - 1 - 0 # 4\n", + "\n", + "# Критическое значение и p-значение\n", + "chi2_crit = chi2.ppf(1 - alpha, df)\n", + "p_value = 1 - chi2.cdf(chi2_stat, df)\n", + "\n", + "print(f\"\\nχ² наблюдаемое: {chi2_stat:.3f}\")\n", + "print(f\"Критическое значение (α=0.02): {chi2_crit:.3f}\")\n", + "print(f\"p-значение: {p_value:.7f}\")\n", + "\n", + "if chi2_stat > chi2_crit:\n", + " print(\"Отвергаем гипотезу на уровне 0.02\")\n", + "else:\n", + " print(\"Нет оснований отвергнуть гипотезу на уровне 0.02\")\n", + "print(f\"\"\"Наибольший уровень значимости, на котором ещё нет оснований отвергнуть гипотезу: {p_value:.7f}\n", + "Это означает, что гипотеза отвергается на любом уровне значимости α ≥ {p_value:.7f}\"\"\")\n", + "\n", + "# observed = np.array([np.sum(data==k) for k in [0,1,2,3]] + [np.sum(data>=4)])\n", + "# expected = np.array([poisson.pmf(k,2)*n for k in [0,1,2,3]] + [n*(1 - poisson.cdf(3,2))])\n", + "# chi2_stat = np.sum((observed - expected)**2 / expected)\n", + "# df = 4\n", + "# crit = chi2.ppf(1-0.02, df)\n", + "# p_val = 1 - chi2.cdf(chi2_stat, df)\n", + "# print(f\"\\ne) χ²: {chi2_stat:.2f}, крит: {crit:.2f}, p-value: {p_val:.4f}\")\n", + "\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": 37, + "id": "b4be90df", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Group Lower Upper O_i P_i E_i O_i - E_i \\\n", + "0 0 -inf 0.0 19 0.1353 6.767 12.233 \n", + "1 1 1.0 1.0 11 0.2707 13.534 -2.534 \n", + "2 2 2.0 2.0 7 0.2707 13.534 -6.534 \n", + "3 3 3.0 3.0 4 0.1804 9.022 -5.022 \n", + "4 4, 5, 6, 7, 8 4.0 inf 9 0.1429 7.144 1.856 \n", + "\n", + " (O_i - E_i)^2 / E_i \n", + "0 22.1157 \n", + "1 0.4743 \n", + "2 3.1542 \n", + "3 2.7957 \n", + "4 0.4823 \n", + "\n", + "χ² наблюдаемое: 29.022\n", + "Критическое значение (α=0.02): 11.668\n", + "p-значение: 0.0000077\n", + "Отвергаем H₀\n" + ] + } + ], + "source": [ + "import numpy as np\n", + "import pandas as pd\n", + "from scipy.stats import poisson, chi2\n", + "\n", + "# Пусть заданы:\n", + "# counts — частоты\n", + "# unique_values — уникальные значения\n", + "# n — общее число наблюдений\n", + "# lambda0 — параметр Пуассона\n", + "# alpha — уровень значимости - вычислить его\n", + "\n", + "# Группы значений\n", + "groups = [\n", + " [0], # Группа 1\n", + " [1], # Группа 2\n", + " [2], # Группа 3\n", + " [3], # Группа 4\n", + " [4, 5, 6, 7, 8] # Группа 5\n", + "]\n", + "\n", + "observed_grouped = np.array([np.sum(data==k) for k in [0,1,2,3]] + [np.sum(data>=4)])\n", + "probs_grouped = [\n", + " poisson.pmf(0, lambda0),\n", + " poisson.pmf(1, lambda0),\n", + " poisson.pmf(2, lambda0),\n", + " poisson.pmf(3, lambda0),\n", + " 1 - poisson.cdf(3, lambda0) # sum(poisson.pmf(k, lambda0) for k in groups[4])\n", + "]\n", + "\n", + "# Теоретические частоты\n", + "expected_grouped = np.array(probs_grouped) * n\n", + "lower_bounds = []\n", + "upper_bounds = []\n", + "\n", + "for i, group in enumerate(groups):\n", + " # obs = sum(counts[np.where(unique_values == k)[0][0]] for k in group if k in unique_values)\n", + " # prob = sum(poisson.pmf(k, lambda0) for k in group)\n", + " # exp = prob * n\n", + " # observed_grouped.append(obs)\n", + " # expected_grouped.append(exp)\n", + "\n", + " # Нижняя и верхняя границы\n", + " lower = -np.inf if i == 0 else min(group)\n", + " upper = np.inf if i == len(groups) - 1 else max(group)\n", + " lower_bounds.append(lower)\n", + " upper_bounds.append(upper)\n", + "\n", + "# Разности и вклад в статистику\n", + "diff = np.array(observed_grouped) - np.array(expected_grouped)\n", + "chi2_terms = diff**2 / expected_grouped\n", + "\n", + "# Таблица\n", + "df_final = pd.DataFrame({\n", + " \"Group\": [\", \".join(map(str, g)) for g in groups],\n", + " \"Lower\": lower_bounds,\n", + " \"Upper\": upper_bounds,\n", + " \"O_i\": observed_grouped,\n", + " \"P_i\": np.round(np.array(expected_grouped) / n, 4),\n", + " \"E_i\": np.round(expected_grouped, 3),\n", + " \"O_i - E_i\": np.round(diff, 3),\n", + " \"(O_i - E_i)^2 / E_i\": np.round(chi2_terms, 4)\n", + "})\n", + "\n", + "print(df_final)\n", + "\n", + "# Хи-квадрат статистика и p-value\n", + "chi2_stat = np.sum(chi2_terms)\n", + "df = len(groups) - 1 # без оценки параметров — простая гипотеза\n", + "chi2_crit = chi2.ppf(1 - alpha, df)\n", + "p_value = 1 - chi2.cdf(chi2_stat, df)\n", + "\n", + "print(f\"\\nχ² наблюдаемое: {chi2_stat:.3f}\")\n", + "print(f\"Критическое значение (α={alpha:.2f}): {chi2_crit:.3f}\")\n", + "print(f\"p-значение: {p_value:.7f}\")\n", + "print(\"Отвергаем H₀\" if chi2_stat > chi2_crit else \"Нет оснований отвергнуть H₀\")\n" + ] + }, + { + "cell_type": "markdown", + "id": "f9ef2691", + "metadata": {}, + "source": [ + "## Пункт f) Критерий $χ^2$ для проверки сложной гипотезы согласия с распределением Пуассона\n", + "\n", + "**Оценка параметра $\\lambda$** \n", + "Если параметр $\\lambda$ неизвестен, его оценивают по выборке (например, через выборочное среднее): \n", + "\n", + "$$\n", + "\\hat{\\lambda} = \\frac{1}{n} \\sum_{i=1}^n x_i,\n", + "$$\n", + "\n", + "где $x_i$ — значения выборки, $n$ — объем выборки.\n", + "\n", + "**Степени свободы** \n", + "Число степеней свободы для критерия хи-квадрат: \n", + "\n", + "$$\n", + "df = k - 1 - m,\n", + "$$\n", + "\n", + "где: \n", + "- \\( k \\) — количество интервалов, \n", + "- \\( m \\) — количество оцененных параметров (в данном случае \\( m = 1 \\), так как оценивается $\\lambda$).\n", + "\n", + "**Критическое значение:** Сравнение с $χ_{\\text{крит}}^2(df, α)$. \n", + "**p-значение:** Вероятность $P(χ^2 \\geq χ_{\\text{набл}}^2$).\n" + ] + }, + { + "cell_type": "code", + "execution_count": 62, + "id": "4383629c", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Таблица до группировки категорий:\n", + " Значение k Наблюдаемая частота (O_i) Теоретическая вероятность (P(X=k)) \\\n", + "0 0 19 0.1409 \n", + "1 1 11 0.2761 \n", + "2 2 7 0.2706 \n", + "3 3 4 0.1768 \n", + "4 4 3 0.0866 \n", + "5 6 2 0.0111 \n", + "6 7 1 0.0031 \n", + "7 8 2 0.0008 \n", + "8 14 1 0.0000 \n", + "\n", + " Теоретическая частота (E_i) \n", + "0 7.043 \n", + "1 13.804 \n", + "2 13.528 \n", + "3 8.838 \n", + "4 4.331 \n", + "5 0.555 \n", + "6 0.155 \n", + "7 0.038 \n", + "8 0.000 \n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "from scipy.stats import poisson\n", + "\n", + "# Теоретические вероятности для каждого k\n", + "probs_individual = [poisson.pmf(k, mean) for k in unique_values]\n", + "\n", + "# Теоретические частоты\n", + "expected_individual = np.array(probs_individual) * n\n", + "\n", + "df_individual = pd.DataFrame({\n", + " \"Значение k\": unique_values,\n", + " \"Наблюдаемая частота (O_i)\": counts,\n", + " \"Теоретическая вероятность (P(X=k))\": np.round(probs_individual, 4),\n", + " \"Теоретическая частота (E_i)\": np.round(expected_individual, 3)\n", + "})\n", + "\n", + "print(\"Таблица до группировки категорий:\")\n", + "print(df_individual)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "7c23d34d", + "metadata": {}, + "outputs": [], + "source": [ + "# from scipy.stats import chi2\n", + "# # Группировка категорий (для E_i ≥ 5)\n", + "# groups = [\n", + "# [0], # Группа 1: k=0,1,2\n", + "# [1], # Группа 2: k=3\n", + "# [2], # Группа 3: k=4\n", + "# [3], # Группа 4: k=5\n", + "# [4, 5, 6, 7, 8] # Группа 5: k=6,8,9\n", + "# ]\n", + "\n", + "# # Расчёт наблюдаемых частот по группам\n", + "# # observed_grouped = np.array([np.sum(data==k) for k in [0,1,2,3]] + [np.sum(data>=4)])\n", + "# probs_grouped = [\n", + "# poisson.pmf(0, lambda0),\n", + "# poisson.pmf(1, lambda0),\n", + "# poisson.pmf(2, lambda0),\n", + "# poisson.pmf(3, lambda0),\n", + "# 1 - poisson.cdf(3, lambda0) # sum(poisson.pmf(k, lambda0) for k in groups[4])\n", + "# ]\n", + "\n", + "# # Расчёт теоретических вероятностей по группам\n", + "# probs_grouped = [\n", + "# poisson.pmf(3, mean),\n", + "# poisson.pmf(3, mean),\n", + "# poisson.pmf(4, mean),\n", + "# poisson.pmf(5, mean),\n", + "# sum(poisson.pmf(k, mean) for k in groups[4])\n", + "# ]\n", + "\n", + "# # Теоретические частоты\n", + "# expected_grouped = np.array(probs_grouped) * n\n", + "\n", + "# # Создание таблицы после группировки\n", + "# df_grouped = pd.DataFrame({\n", + "# \"Группа\": [\"0,1,2\", \"3\", \"4\", \"5\", \"6,8,9\"],\n", + "# \"Наблюдаемая частота (O_i)\": observed_grouped,\n", + "# \"Теоретическая вероятность\": np.round(probs_grouped, 4),\n", + "# \"Теоретическая частота (E_i)\": np.round(expected_grouped, 3)\n", + "# })\n", + "\n", + "# print(\"\\nТаблица после группировки категорий:\")\n", + "# print(df_grouped)\n", + "\n", + "# # Статистика χ²\n", + "# chi2_stat = np.sum((observed_grouped - expected_grouped)**2 / expected_grouped)\n", + "\n", + "# # Степени свободы\n", + "# df = 5 - 1 - 1 # 3\n", + "\n", + "# # Критическое значение и p-значение\n", + "# chi2_crit = chi2.ppf(1 - alpha, df)\n", + "# p_value = 1 - chi2.cdf(chi2_stat, df)\n", + "\n", + "# print(f\"\\nχ² наблюдаемое: {chi2_stat:.3f}\")\n", + "# print(f\"Критическое значение (α=0.10): {chi2_crit:.3f}\")\n", + "# print(f\"p-значение: {p_value:.3f}\")\n", + "\n", + "# if chi2_stat > chi2_crit:\n", + "# print(\"Отвергаем гипотезу на уровне 0.10\")\n", + "# else:\n", + "# print(\"Нет оснований отвергнуть гипотезу на уровне 0.10\")\n", + "\n", + "# lambda_hat = np.mean(data)\n", + "# expected = np.array([poisson.pmf(k,lambda_hat)*n for k in [0,1,2,3]] + [n*(1 - poisson.cdf(3,lambda_hat))])\n", + "# chi2_stat = np.sum((observed - expected)**2 / expected)\n", + "# df = 3\n", + "# crit = chi2.ppf(1-0.02, df)\n", + "# p_val = 1 - chi2.cdf(chi2_stat, df)\n", + "# print(f\"\\nf) χ²: {chi2_stat:.2f}, крит: {crit:.2f}, p-value: {p_val:.4f}\")" + ] + }, + { + "cell_type": "code", + "execution_count": 75, + "id": "9d39fc45", + "metadata": {}, + "outputs": [], + "source": [ + "# import numpy as np\n", + "# from scipy.stats import poisson, chi2\n", + "# groups = [\n", + "# [0], # Группа 1: k=0,1,2\n", + "# [1], # Группа 2: k=3\n", + "# [2], # Группа 3: k=4\n", + "# [3], # Группа 4: k=5\n", + "# [4, 5, 6, 7, 8] # Группа 5: k=6,8,9\n", + "# ]\n", + "\n", + "# # Оценка параметра λ\n", + "# lambda_hat = np.mean(data)\n", + "# print(f\"Оценка λ: {lambda_hat:.4f}\")\n", + "\n", + "# # Разбиение на интервалы (пример)\n", + "# intervals = [\n", + "# (-np.inf, 0),\n", + "# (1, 1),\n", + "# (2, 2),\n", + "# (3, 3),\n", + "# (4, np.inf)\n", + "# ]\n", + "\n", + "# # Наблюдаемые частоты\n", + "# observed = [19, 11, 7, 4, 9] # Пример из таблицы\n", + "\n", + "# # Ожидаемые частоты для λ0\n", + "# expected = []\n", + "# n = len(data)\n", + "# for interval in intervals:\n", + "# if interval[0] == -np.inf:\n", + "# prob = poisson.cdf(0, lambda0)\n", + "# elif interval[1] == np.inf:\n", + "# prob = 1 - poisson.cdf(interval[0] - 1, lambda0)\n", + "# else:\n", + "# prob = poisson.pmf(interval[0], lambda0)\n", + "# expected.append(n * prob)\n", + "\n", + "# # Статистика хи-квадрат\n", + "# chi2_stat = sum((o - e)**2 / e for o, e in zip(observed, expected))\n", + "# print(f\"Наблюдаемое χ²: {chi2_stat:.4f}\")\n", + "\n", + "# # Степени свободы\n", + "# k = len(intervals)\n", + "# m = 1 # Оценен один параметр\n", + "# df = k - 1 - m\n", + "# print(f\"Степени свободы: {df}\")\n", + "\n", + "# # Критическое значение и p-значение\n", + "# chi2_crit = chi2.ppf(1 - alpha, df)\n", + "# p_value = 1 - chi2.cdf(chi2_stat, df)\n", + "# print(f\"Критическое значение: {chi2_crit:.4f}\")\n", + "# print(f\"p-значение: {p_value:.4f}\")\n", + "\n", + "# # Вывод решения\n", + "# if chi2_stat > chi2_crit:\n", + "# print(\"Отвергаем H₀\")\n", + "# else:\n", + "# print(\"Не отвергаем H₀\")\n", + "\n", + "# # Обновим expected_grouped, чтобы быть уверенными, что это numpy-массив\n", + "# expected_grouped = np.array(expected_grouped)\n", + "\n", + "# # Вычислим границы для групп\n", + "# lower_bounds = [float('-inf')] + [min(g) for g in groups[1:]]\n", + "# upper_bounds = [max(g) for g in groups[:-1]] + [float('inf')]\n", + "\n", + "# # Вычислим разности и хи-квадрат члены\n", + "# diff = np.array(observed_grouped) - expected_grouped\n", + "# chi2_terms = diff**2 / expected_grouped\n", + "\n", + "# # Построим финальную таблицу\n", + "# df_final = pd.DataFrame({\n", + "# \"Group\": [\", \".join(map(str, g)) for g in groups],\n", + "# \"Lower\": lower_bounds,\n", + "# \"Upper\": upper_bounds,\n", + "# \"O_i\": observed_grouped,\n", + "# \"P_i\": np.round(expected_grouped / n, 4),\n", + "# \"E_i\": np.round(expected_grouped, 3),\n", + "# \"O_i - E_i\": np.round(diff, 3),\n", + "# \"(O_i - E_i)^2 / E_i\": np.round(chi2_terms, 4)\n", + "# })\n", + "\n", + "# print(\"\\nПодробная таблица для χ² при сложной гипотезе:\")\n", + "# print(df_final)\n" + ] + }, + { + "cell_type": "code", + "execution_count": 74, + "id": "d5e3c152", + "metadata": {}, + "outputs": [], + "source": [ + "# import numpy as np\n", + "# from scipy.stats import poisson, chi2\n", + "\n", + "\n", + "# # Оценка параметра λ\n", + "# lambda_hat = np.mean(data)\n", + "# print(f\"Оценка λ: {lambda_hat:.4f}\")\n", + "\n", + "# # Разбиение на интервалы (пример)\n", + "# intervals = [\n", + "# (-np.inf, 0),\n", + "# (1, 1),\n", + "# (2, 2),\n", + "# (3, 3),\n", + "# (4, np.inf)\n", + "# ]\n", + "\n", + "# # Наблюдаемые частоты\n", + "# observed = [19, 11, 7, 4, 9] # Пример из таблицы\n", + "\n", + "# # Ожидаемые частоты для λ0\n", + "# expected = []\n", + "# n = len(data)\n", + "# for interval in intervals:\n", + "# if interval[0] == -np.inf:\n", + "# prob = poisson.cdf(0, lambda0)\n", + "# elif interval[1] == np.inf:\n", + "# prob = 1 - poisson.cdf(interval[0] - 1, lambda0)\n", + "# else:\n", + "# prob = poisson.pmf(interval[0], lambda0)\n", + "# expected.append(n * prob)\n", + "\n", + "# # Статистика хи-квадрат\n", + "# chi2_stat = sum((o - e)**2 / e for o, e in zip(observed, expected))\n", + "# print(f\"Наблюдаемое χ²: {chi2_stat:.4f}\")\n", + "\n", + "# # Степени свободы\n", + "# k = len(intervals)\n", + "# m = 1 # Оценен один параметр\n", + "# df = k - 1 - m\n", + "# print(f\"Степени свободы: {df}\")\n", + "\n", + "# # Критическое значение и p-значение\n", + "# chi2_crit = chi2.ppf(1 - alpha, df)\n", + "# p_value = 1 - chi2.cdf(chi2_stat, df)\n", + "# print(f\"Критическое значение: {chi2_crit:.4f}\")\n", + "# print(f\"p-значение: {p_value:.4f}\")\n", + "\n", + "# # Вывод решения\n", + "# if chi2_stat > chi2_crit:\n", + "# print(\"Отвергаем H₀\")\n", + "# else:\n", + "# print(\"Не отвергаем H₀\")\n" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "id": "a937cbce", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Оценка λ: 1.9600\n", + "\n", + "Таблица до объединения категорий:\n", + " Значение k Наблюдаемая частота (Oᵢ) Теоретическая вероятность P(X=k) \\\n", + "0 0 19 0.1409 \n", + "1 1 11 0.2761 \n", + "2 2 7 0.2706 \n", + "3 3 4 0.1768 \n", + "4 4 3 0.0866 \n", + "5 6 2 0.0111 \n", + "6 7 1 0.0031 \n", + "7 8 2 0.0008 \n", + "8 14 1 0.0000 \n", + "\n", + " Теоретическая частота (Eᵢ) \n", + "0 7.043 \n", + "1 13.804 \n", + "2 13.528 \n", + "3 8.838 \n", + "4 4.331 \n", + "5 0.555 \n", + "6 0.155 \n", + "7 0.038 \n", + "8 0.000 \n", + "\n", + "Таблица после объединения категорий:\n", + " Группа Наблюдаемая частота (Oᵢ) Теоретическая вероятность \\\n", + "0 0 19 0.1409 \n", + "1 1 11 0.2761 \n", + "2 2 7 0.2706 \n", + "3 3 4 0.1768 \n", + "4 4,6,7,8,14 9 0.1016 \n", + "\n", + " Теоретическая частота (Eᵢ) \n", + "0 7.043 \n", + "1 13.804 \n", + "2 13.528 \n", + "3 8.838 \n", + "4 6.787 \n", + "[ 7.04292105 13.80412525 13.52804275 8.83832126 6.7865897 ]\n", + "\n", + "Подробная таблица для χ²:\n", + " Группа Oᵢ Pᵢ Eᵢ Oᵢ - Eᵢ (Oᵢ - Eᵢ)² / Eᵢ\n", + "0 0 19 0.1409 7.043 11.957 20.3001\n", + "1 1 11 0.2761 13.804 -2.804 0.5696\n", + "2 2 7 0.2706 13.528 -6.528 3.1501\n", + "3 3 4 0.1768 8.838 -4.838 2.6486\n", + "4 4,6,7,8,14 9 0.1357 6.787 2.213 0.7219\n", + "\n", + "Хи-квадрат статистика: 27.3903\n", + "Критическое значение (α=0.02): 9.8374\n", + "p-value: 0.000005\n", + "Вывод: Отвергаем нулевую гипотезу\n" + ] + } + ], + "source": [ + "import numpy as np\n", + "import pandas as pd\n", + "from scipy.stats import poisson, chi2\n", + "\n", + "# Данные: частоты по значениям\n", + "freq_table = {\n", + " 0: 19,\n", + " 1: 11,\n", + " 2: 7,\n", + " 3: 4,\n", + " 4: 3,\n", + " 6: 2,\n", + " 7: 1,\n", + " 8: 2,\n", + " 14: 1\n", + "}\n", + "\n", + "# Общее количество наблюдений\n", + "n = sum(freq_table.values())\n", + "\n", + "# Оценка параметра λ\n", + "lambda_hat = sum(k * v for k, v in freq_table.items()) / n\n", + "print(f\"Оценка λ: {lambda_hat:.4f}\")\n", + "\n", + "# Теоретические вероятности и частоты до объединения\n", + "unique_values = list(freq_table.keys())\n", + "probs = [poisson.pmf(k, lambda_hat) for k in unique_values]\n", + "expected = np.array(probs) * n\n", + "\n", + "# Таблица до объединения\n", + "df_individual = pd.DataFrame({\n", + " 'Значение k': unique_values,\n", + " 'Наблюдаемая частота (Oᵢ)': [freq_table[k] for k in unique_values],\n", + " 'Теоретическая вероятность P(X=k)': np.round(probs, 4),\n", + " 'Теоретическая частота (Eᵢ)': np.round(expected, 3)\n", + "})\n", + "\n", + "print(\"\\nТаблица до объединения категорий:\")\n", + "print(df_individual)\n", + "\n", + "# Группировка категорий:\n", + "groups = {\n", + " '0': [0],\n", + " '1': [1],\n", + " '2': [2],\n", + " '3': [3],\n", + " '4,6,7,8,14': [4, 6, 7, 8, 14]\n", + "}\n", + "\n", + "# Наблюдаемые и ожидаемые частоты по группам\n", + "observed_grouped = []\n", + "expected_grouped = []\n", + "expected_grouped = [\n", + " poisson.pmf(0, lambda_hat)*n,\n", + " poisson.pmf(1, lambda_hat)*n,\n", + " poisson.pmf(2, lambda_hat)*n,\n", + " poisson.pmf(3, lambda_hat)*n,\n", + " (1 - poisson.cdf(3, lambda_hat))*n\n", + "]\n", + "\n", + "for group, values in groups.items():\n", + " O_i = sum(freq_table.get(k, 0) for k in values)\n", + " p_i = sum(poisson.pmf(k, lambda_hat) for k in values)\n", + " \n", + " observed_grouped.append(O_i)\n", + "\n", + "# Таблица после объединения\n", + "df_grouped = pd.DataFrame({\n", + " 'Группа': list(groups.keys()),\n", + " 'Наблюдаемая частота (Oᵢ)': observed_grouped,\n", + " 'Теоретическая вероятность': np.round(probs_grouped, 4),\n", + " 'Теоретическая частота (Eᵢ)': np.round(expected_grouped, 3)\n", + "})\n", + "\n", + "print(\"\\nТаблица после объединения категорий:\")\n", + "print(df_grouped)\n", + "\n", + "# Расчёт χ²\n", + "observed_grouped = np.array(observed_grouped)\n", + "expected_grouped = np.array(expected_grouped)\n", + "diff = observed_grouped - expected_grouped\n", + "chi2_terms = diff**2 / expected_grouped\n", + "chi2_stat = np.sum(chi2_terms)\n", + "print(expected_grouped)\n", + "\n", + "# Степени свободы\n", + "k = len(groups)\n", + "m = 1 # число оцененных параметров\n", + "df_chi2 = k - 1 - m\n", + "\n", + "# Критическое значение и p-value\n", + "alpha = 0.02\n", + "chi2_crit = chi2.ppf(1 - alpha, df_chi2)\n", + "p_value = 1 - chi2.cdf(chi2_stat, df_chi2)\n", + "\n", + "# Подробная таблица расчётов\n", + "df_final = pd.DataFrame({\n", + " 'Группа': list(groups.keys()),\n", + " 'Oᵢ': observed_grouped,\n", + " 'Pᵢ': np.round(expected_grouped / n, 4),\n", + " 'Eᵢ': np.round(expected_grouped, 3),\n", + " 'Oᵢ - Eᵢ': np.round(diff, 3),\n", + " '(Oᵢ - Eᵢ)² / Eᵢ': np.round(chi2_terms, 4)\n", + "})\n", + "\n", + "print(\"\\nПодробная таблица для χ²:\")\n", + "print(df_final)\n", + "\n", + "# Вывод результатов\n", + "print(f\"\\nХи-квадрат статистика: {chi2_stat:.4f}\")\n", + "print(f\"Критическое значение (α={alpha}): {chi2_crit:.4f}\")\n", + "print(f\"p-value: {p_value:.6f}\")\n", + "\n", + "if chi2_stat > chi2_crit:\n", + " print(\"Вывод: Отвергаем нулевую гипотезу\")\n", + "else:\n", + " print(\"Вывод: Нет оснований отвергнуть нулевую гипотезу H0\")\n" + ] + }, + { + "cell_type": "markdown", + "id": "07c231d4", + "metadata": {}, + "source": [ + "## Пункт g) Наиболее мощный критерий проверки гипотезы $H_0 : λ = λ_0 = 2.0$ против $H_1 : λ = λ_1 = 4.0$\n", + "### Пункт g) Наиболее мощный критерий проверки гипотезы\n", + "\n", + "**Логарифм отношения правдоподобия**\n", + "\n", + "Функция правдоподобия для распределения Пуассона:\n", + "\n", + "$$\n", + "L(\\lambda) = \\prod_{i=1}^n \\frac{\\lambda^{X_i} e^{-\\lambda}}{X_i!}\n", + "$$\n", + "\n", + "Логарифм отношения правдоподобия:\n", + "\n", + "$$\n", + "\\ln \\left( \\frac{L(\\lambda_1)}{L(\\lambda_0)} \\right) = \\sum_{i=1}^n \\left( X_i \\ln \\left( \\frac{\\lambda_1}{\\lambda_0} \\right) - (\\lambda_1 - \\lambda_0) \\right).\n", + "$$\n", + "\n", + "**Критерий отношения правдоподобия**\n", + "\n", + "Для проверки $H_0$ против $H_1$ используется сумма наблюдений $T = \\sum_{i=1}^n X_i$. Критерий принимает $H_1$, если:\n", + "\n", + "$$\n", + "T > k,\n", + "$$\n", + "\n", + "где $k$ определяется как:\n", + "\n", + "$$\n", + "k = \\text{qpois}(1 - \\alpha, n\\lambda_0).\n", + "$$\n", + "\n", + "**Смена гипотез**\n", + "\n", + "Если поменять местами гипотезы, новая нулевая гипотеза $H_0 : \\lambda = \\lambda_1$, а альтернатива $H_1 : \\lambda = \\lambda_0$. В этом случае критерий принимает $H_0$, если:\n", + "\n", + "$$\n", + "T < k',\n", + "$$\n", + "\n", + "где $k'$ определяется как:\n", + "\n", + "$$\n", + "k' = \\text{qpois}(\\alpha, n\\lambda_1).\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 47, + "id": "635fbf6b", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Сумма наблюдений: T_obs = 98\n", + "Порог для H0:λ=2.00: k = 121\n", + "Порог для H0:λ=4.00: k' = 172\n", + "\n", + "Проверка H0:λ=2.00 vs H1:λ=4.00:\n", + "Не отклоняем H0: T_obs = 98 ≤ 121\n", + "\n", + "Проверка H0:λ=4.00 vs H1:λ=2.00:\n", + "Отклоняем H0: T_obs = 98 < 172\n" + ] + } + ], + "source": [ + "import numpy as np\n", + "from scipy.stats import norm\n", + "\n", + "# sum_X = np.sum(data)\n", + "\n", + "# # Критическое значение для H0: λ=2.0\n", + "# mu_H0 = n * lambda0\n", + "# sigma_H0 = np.sqrt(mu_H0)\n", + "# z_crit = norm.ppf(1 - alpha)\n", + "# C = mu_H0 + z_crit * sigma_H0\n", + "\n", + "# print(f\"Сумма наблюдений: {sum_X}\")\n", + "# print(f\"Критическое значение C: {C:.1f}\")\n", + "\n", + "# if sum_X > C:\n", + "# print(\"Отвергаем H0: λ=2.0\")\n", + "# else:\n", + "# print(\"Нет оснований отвергнуть H0: λ=2.0\")\n", + "\n", + "# print(\"\\nПоменяли гипотезы местами\")\n", + "# # Смена гипотез местами\n", + "# mu_H0_swapped = n * lambda1\n", + "# sigma_H0_swapped = np.sqrt(mu_H0_swapped)\n", + "# z_crit_swapped = norm.ppf(alpha)\n", + "# C_swapped = mu_H0_swapped + z_crit_swapped * sigma_H0_swapped\n", + "\n", + "# print(f\"\\nКритическое значение C' (при H0: λ=4.0): {C_swapped:.1f}\")\n", + "\n", + "# if sum_X < C_swapped:\n", + "# print(\"Отвергаем H0: λ=4.0\")\n", + "# else:\n", + "# print(\"Нет оснований отвергнуть H0: λ=4.0\")\n", + "\n", + "# print(\"---\")\n", + "\n", + "# sum_data = np.sum(data)\n", + "# mu0 = 2*n\n", + "# mu1 = 4*n\n", + "# c = norm.ppf(1-0.02, mu0, np.sqrt(mu0))\n", + "# print(f\"\\ng) Критич. значение: {c:.1f}, сумма: {sum_data}\")\n", + "# print(\"Отвергаем H0\" if sum_data > c else \"Не отвергаем H0\")\n", + "\n", + "\n", + "# # Сумма наблюдений\n", + "# T_obs = np.sum(data)\n", + "\n", + "# # Критерий для H0: λ = λ0 vs H1: λ = λ1\n", + "# k = poisson.ppf(1 - alpha, n * lambda0) # Квантиль для порога k\n", + "# decision_H0 = \"Отклоняем H0 в пользу H1\" if T_obs > k else \"Не отклоняем H0\"\n", + "\n", + "# # Критерий для H0: λ = λ1 vs H1: λ = λ0\n", + "# k_prime = poisson.ppf(alpha, n * lambda1) # Квантиль для порога k'\n", + "# decision_H1 = \"Отклоняем H0 в пользу H1\" if T_obs < k_prime else \"Не отклоняем H0\"\n", + "\n", + "# # Вывод результатов\n", + "# print(f\"Сумма наблюдений T_obs: {T_obs}\")\n", + "# print(f\"Порог k для H0: λ = {lambda0}: {k}\")\n", + "# print(f\"Решение для H0: {decision_H0}\")\n", + "# print(f\"Порог k' для H0: λ = {lambda1}: {k_prime}\")\n", + "# print(f\"Решение для H1: {decision_H1}\")\n", + "# print(\"---\")\n", + "from scipy.stats import poisson\n", + "\n", + "# Данные наблюдений\n", + "data = list(map(int, \"0 1 2 0 0 7 1 0 2 1 0 1 2 2 0 0 1 8 0 0 14 4 3 0 0 3 0 6 2 2 1 0 0 2 0 4 0 0 3 3 1 1 0 0 6 8 1 4 1 1\".split()))\n", + "n = len(data)\n", + "T_obs = sum(data)\n", + "\n", + "# Параметры\n", + "alpha = 0.02\n", + "lambda0 = 2.00\n", + "lambda1 = 4.00\n", + "\n", + "# Вычисление порогов\n", + "k = poisson.ppf(1 - alpha, n * lambda0)\n", + "k_prime = poisson.ppf(alpha, n * lambda1)\n", + "\n", + "# Результаты\n", + "# print(f\"Количество наблюдений: n = {n}\")\n", + "print(f\"Сумма наблюдений: T_obs = {T_obs}\")\n", + "print(f\"Порог для H0:λ=2.00: k = {int(k)}\")\n", + "print(f\"Порог для H0:λ=4.00: k' = {int(k_prime)}\")\n", + "\n", + "# Проверка исходных гипотез\n", + "print(\"\\nПроверка H0:λ=2.00 vs H1:λ=4.00:\")\n", + "if T_obs > k:\n", + " print(f\"Отклоняем H0: T_obs = {T_obs} > {int(k)}\")\n", + "else:\n", + " print(f\"Не отклоняем H0: T_obs = {T_obs} ≤ {int(k)}\")\n", + "\n", + "# Проверка инвертированных гипотез\n", + "print(\"\\nПроверка H0:λ=4.00 vs H1:λ=2.00:\")\n", + "if T_obs < k_prime:\n", + " print(f\"Отклоняем H0: T_obs = {T_obs} < {int(k_prime)}\")\n", + "else:\n", + " print(f\"Не отклоняем H0: T_obs = {T_obs} ≥ {int(k_prime)}\")" + ] + }, + { + "cell_type": "markdown", + "id": "863bdc6c", + "metadata": {}, + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "venv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.13.2" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +} diff --git a/idz3/ИДЗ 3_2 Артём.ipynb b/idz3/ИДЗ 3_2 Артём.ipynb new file mode 100644 index 0000000..9821edc --- /dev/null +++ b/idz3/ИДЗ 3_2 Артём.ipynb @@ -0,0 +1,1078 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "id": "23f67692", + "metadata": {}, + "source": [ + "2. В результате эксперимента получены данные, приведенные в таблице 2.\n", + "a) Построить вариационный ряд, эмпирическую функцию распределения, гистограмму и полигон частот с шагом h. \n", + "b) Вычислить выборочные аналоги следующих числовых характеристик: \n", + "(i) математического ожидания, (ii) дисперсии, (iii) медианы, (iv) асимметрии, (v) эксцесса, (vi) вероятности P(X ∈ [c, d]). \n", + "c) В предположении, что исходные наблюдения являются выборкой из показательного распределения, построить \n", + "оценку максимального правдоподобия параметра λ и соответствующую оценку по методу моментов. Найти смещение оценок. \n", + "d) Построить асимптотический доверительный интервал уровня значимости α2 для параметра λ на базе оценки максимального правдоподобия. \n", + "e) С использованием теоремы Колмогорова построить критерий значимости проверки простой гипотезы согласия с показательным распределением с параметром λ0. Проверить гипотезу на уровне значимости α2. Вычислить наибольшее значение уровня значимости, на котором нет оснований отвергнуть данную гипотезу. \n", + "f) Используя гистограмму частот, построить критерий значимости χ2 проверки простой гипотезы согласия с показательным распределением с параметром λ0. Проверить гипотезу на уровне α2. Вычислить наибольшее значение уровня значимости, на котором еще нет оснований отвергнуть данную гипотезу. \n", + "g) Построить критерий проверки значимости χ2 сложной гипотезы согласия с показательным распределением. \n", + "Проверить гипотезу на уровне α2. Вычислить наибольшее значение уровня значимости, на котором еще нет оснований отвергнуть данную гипотезу. \n", + "h) Построить наиболее мощный критерий проверки простой гипотезы о показательности с параметром λ = λ0 при альтернативе показательности с параметром λ = λ1. Проверить гипотезу на уровне значимости α2. Что получится, если поменять местами основную и альтернативную гипотезы? \n", + "\n", + "Таблица 2 α2 = 0.10; c = 0.00; d = 4.62; h = 1.40; λ0 = 0.33; λ1 = 0.14. \n", + "0.18 0.10 3.34 0.67 0.85 1.17 0.24 0.15 1.31 0.00 0.49 2.37 14.94 2.44 3.13 0.06 2.98 9.25 6.84 3.96 0.07 6.72 11.83 0.50 0.11\n", + "6.50 0.29 0.17 0.03 0.06 1.02 0.49 15.68 3.03 0.24 11.40 0.53 0.59 4.55 3.57 8.33 0.12 2.58 2.77 0.12 1.11 0.31 0.36 1.31 0.57" + ] + }, + { + "cell_type": "code", + "execution_count": 25, + "id": "57a523dd", + "metadata": {}, + "outputs": [], + "source": [ + "# Данные\n", + "import numpy as np\n", + "data = np.array(list(map(float, \"\"\"0.18 0.10 3.34 0.67 0.85 1.17 0.24 0.15 1.31 0.00 0.49 2.37 14.94 2.44 3.13 0.06 2.98 9.25 6.84 3.96 0.07 6.72 11.83 0.50 0.11 6.50 0.29 0.17 0.03 0.06 1.02 0.49 15.68 3.03 0.24 11.40 0.53 0.59 4.55 3.57 8.33 0.12 2.58 2.77 0.12 1.11 0.31 0.36 1.31 0.57\"\"\".split())))\n", + "lambda0 = 0.33; lambda1 = 0.14\n", + "alpha2 = 0.10\n", + "c = 0.00; d = 4.62; h = 1.40\n", + "# a0 = 3.00; sig0 = 3.00\n", + "# a1 = -7.00; sig1 = 3.00" + ] + }, + { + "cell_type": "markdown", + "id": "8b7561a0", + "metadata": {}, + "source": [ + "## Пункт a)" + ] + }, + { + "cell_type": "markdown", + "id": "b046ad70", + "metadata": {}, + "source": [ + "### 1. Вариационный ряд" + ] + }, + { + "cell_type": "code", + "execution_count": 26, + "id": "db7e1a67", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "0.0^(1), 0.03^(1), 0.06^(2), 0.07^(1), 0.1^(1), 0.11^(1), 0.12^(2), 0.15^(1), 0.17^(1), 0.18^(1), 0.24^(2), 0.29^(1), 0.31^(1), 0.36^(1), 0.49^(2), 0.5^(1), 0.53^(1), 0.57^(1), 0.59^(1), 0.67^(1), 0.85^(1), 1.02^(1), 1.11^(1), 1.17^(1), 1.31^(2), 2.37^(1), 2.44^(1), 2.58^(1), 2.77^(1), 2.98^(1), 3.03^(1), 3.13^(1), 3.34^(1), 3.57^(1), 3.96^(1), 4.55^(1), 6.5^(1), 6.72^(1), 6.84^(1), 8.33^(1), 9.25^(1), 11.4^(1), 11.83^(1), 14.94^(1), 15.68^(1)\n", + "Вариационный ряд: 0.0, 0.03, 0.06, 0.06, 0.07, 0.1, 0.11, 0.12, 0.12, 0.15, 0.17, 0.18, 0.24, 0.24, 0.29, 0.31, 0.36, 0.49, 0.49, 0.5, 0.53, 0.57, 0.59, 0.67, 0.85, 1.02, 1.11, 1.17, 1.31, 1.31, 2.37, 2.44, 2.58, 2.77, 2.98, 3.03, 3.13, 3.34, 3.57, 3.96, 4.55, 6.5, 6.72, 6.84, 8.33, 9.25, 11.4, 11.83, 14.94, 15.68\n" + ] + } + ], + "source": [ + "# Получение уникальных значений и их частот\n", + "unique_values, counts = np.unique(data, return_counts=True)\n", + "\n", + "# Форматирование вариационного ряда\n", + "variational_series = sorted(data)\n", + "print(\", \".join(f\"{value}^({count})\" for value, count in zip(unique_values, counts)))\n", + "print(\"Вариационный ряд:\", \", \".join(map(str, variational_series)))" + ] + }, + { + "cell_type": "markdown", + "id": "93c7e45f", + "metadata": {}, + "source": [ + "### 2. Эмпирическая функция распределения (ЭФР)\n", + "$$\n", + "\\hat{F}_n(x) = \\frac{1}{n} \\sum_{i=1}^{n} \\text{\\textbf{1}}_{\\{X_i \\leq x\\}},\n", + "$$\n", + "где $n$ — объем выборки." + ] + }, + { + "cell_type": "code", + "execution_count": 27, + "id": "261ad18a", + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "from statsmodels.distributions.empirical_distribution import ECDF\n", + "\n", + "x = np.sort(data)\n", + "y = np.arange(1, len(data)+1) / len(data)\n", + "\n", + "ecdf = ECDF(data)\n", + "x = np.linspace(min(data) - 1, max(data) + 1, 1000)\n", + "y = ecdf(x)\n", + "\n", + "# Находим точки, где F(x) переходит от 0 к основному росту и от роста к 1\n", + "x_left = x[y == 0][-1] # Последняя точка, где F(x)=0\n", + "x_right = x[y == 1][0] # Первая точка, где F(x)=1\n", + "\n", + "# Разделяем данные на 3 части\n", + "mask_left = (x < x_left) # F(x) = 0\n", + "mask_mid = (x >= x_left) & (x <= x_right) # Основной рост\n", + "mask_right = (x > x_right) # F(x) = 1\n", + "\n", + "# Рисуем каждую часть своим стилем\n", + "plt.figure(figsize=(10, 6))\n", + "plt.step(x[mask_left], y[mask_left], '--', color='blue', where='post', label='F(x)=0') # Пунктир слева\n", + "plt.step(x[mask_mid], y[mask_mid], '-', color='blue', where='post', label='ЭФР') # Сплошная основная часть\n", + "plt.step(x[mask_right], y[mask_right], '--', color='blue', where='post', label='F(x)=1') # Пунктир справа\n", + "\n", + "# Настройки графика\n", + "plt.title(\"Эмпирическая функция распределения\")\n", + "plt.xlabel(\"x\")\n", + "plt.ylabel(\"F(x)\")\n", + "# Добавление пунктирных линий для F(x) = 0 и F(x) = 1\n", + "plt.axhline(y=0, color='gray', linestyle='--', linewidth=1, label='F(x) = 0')\n", + "plt.axhline(y=1, color='gray', linestyle='--', linewidth=1, label='F(x) = 1')\n", + "\n", + "plt.grid(True, linestyle=':')\n", + "plt.xticks(np.arange(np.floor(min(data)), np.ceil(max(data)) + 1))\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "id": "639c228f", + "metadata": {}, + "source": [ + "### 3. Гистограмма частот" + ] + }, + { + "cell_type": "code", + "execution_count": 28, + "id": "09541433", + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "bins = np.arange(min(data) - h, max(data) + h, h)\n", + "hist, edges = np.histogram(data, bins=bins)\n", + "centers = (edges[:-1] + edges[1:]) / 2\n", + "\n", + "# Гистограмма\n", + "plt.figure(figsize=(10, 5))\n", + "plt.bar(edges[:-1], hist, width=h, align='edge', edgecolor='black')\n", + "plt.title(\"Гистограмма частот\")\n", + "plt.xlabel(\"Интервалы\")\n", + "plt.ylabel(\"Частота\")\n", + "\n", + "# Полигон частот\n", + "plt.plot(centers, hist, 'r-', marker='o')\n", + "plt.grid(True)\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "id": "44f7e836", + "metadata": {}, + "source": [ + "## Пункт b)" + ] + }, + { + "cell_type": "markdown", + "id": "c32cd292", + "metadata": {}, + "source": [ + "### 1. Выборочное среднее (математическое ожидание)\n", + "Выборочное среднее — оценка теоретического математического ожидания.\n", + "$$\n", + "\\bar{X} = \\frac{1}{n} \\sum_{i=1}^{n} X_i.\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 29, + "id": "ead66cb6", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Выборочное среднее: 2.79\n" + ] + } + ], + "source": [ + "import numpy as np\n", + "mean = np.mean(data)\n", + "print(f\"Выборочное среднее: {mean:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "83c9665b", + "metadata": {}, + "source": [ + "### 2. Выборочная дисперсия\n", + "Несмещённая оценка дисперсии:\n", + "$$\n", + "s^2 = \\frac{1}{n-1} \\sum_{i=1}^{n}(X_i-\\bar{X})^2.\n", + "$$\n", + "\n", + "Смещенная оценка дисперсии:\n", + "$$\n", + "s^2_{\\text{смещенная}} = \\frac{1}{n} \\sum_{i=1}^{n}(X_i - \\bar{X})^2\n", + "$$\n", + "\n", + "где:\n", + "- $ n $ — общее количество наблюдений,\n", + "- $X_i$ — каждое отдельное наблюдение,\n", + "- $\\bar{X}$ — среднее значение выборки." + ] + }, + { + "cell_type": "code", + "execution_count": 30, + "id": "a24ea7eb", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Выборочная дисперсия несмещённая: 15.59\n", + "Выборочная дисперсия смещённая: 15.28\n" + ] + } + ], + "source": [ + "variance = np.var(data, ddof=1)\n", + "print(f\"Выборочная дисперсия несмещённая: {variance:.2f}\")\n", + "print(f\"Выборочная дисперсия смещённая: {np.var(data, ddof=0):.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "bd8ee128", + "metadata": {}, + "source": [ + "### 3. Медиана\n", + "Значение, разделяющее выборку на две равные части." + ] + }, + { + "cell_type": "code", + "execution_count": 31, + "id": "e8490052", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Медиана: 0.94\n" + ] + } + ], + "source": [ + "median = np.median(data)\n", + "print(f\"Медиана: {median:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "34384b8f", + "metadata": {}, + "source": [ + "### 4. Ассиметрия\n", + "$$\n", + "Skewness = \\frac{\\frac{1}{n}\\sum_{i=1}^{n}(X_i-\\bar{X})^3}{s^3}.\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 32, + "id": "cc21a5b6", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Асимметрия: 1.85\n" + ] + } + ], + "source": [ + "from scipy.stats import skew\n", + "skewness = skew(data)\n", + "print(f\"Асимметрия: {skewness:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "ddd4b8a7", + "metadata": {}, + "source": [ + "### 5. Эксцесс\n", + "$$\n", + "Kurtosis = \\frac{\\frac{1}{n}\\sum_{i=1}^{n}(X_i-\\bar{X})^4}{s^4} - 3.\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 33, + "id": "118d475e", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Эксцесс: 2.66\n" + ] + } + ], + "source": [ + "from scipy.stats import kurtosis\n", + "excess_kurtosis = kurtosis(data)\n", + "print(f\"Эксцесс: {excess_kurtosis:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "93fd7cc5", + "metadata": {}, + "source": [ + "### 6. Вероятность $P(X \\in [0.00, 4.62])$\n", + "Эмпирическая оценка вероятности:\n", + "$$\n", + "P(X \\in [c, d]) = \\frac{\\text{число элементов выборки} \\in [c, d]}{n}.\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "id": "08ea631c", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "P(X ∈ [0.0, 4.62]): 0.82\n" + ] + } + ], + "source": [ + "count = sum((data[i] >= c) & (data[i] <= d) for i in range(0, len(data)))\n", + "probability = count / len(data)\n", + "print(f\"P(X ∈ [{c}, {d}]): {probability:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "26424ded", + "metadata": {}, + "source": [ + "## Пункт c)" + ] + }, + { + "cell_type": "markdown", + "id": "f6b509ff", + "metadata": {}, + "source": [ + "### 1. Оценка максимального правдоподобия (ОМП)" + ] + }, + { + "cell_type": "markdown", + "id": "c40e8461", + "metadata": {}, + "source": [ + "Функция правдоподобия для показательного распределения:\n", + "$$\n", + "L(\\lambda) = \\prod_{i=1}^{n} \\lambda e^{-\\lambda x_i} = \\lambda^n e^{-\\lambda \\sum_{i=1}^{n} x_i}\n", + "$$\n", + "Логарифмируя, получаем:\n", + "$$\n", + "\\ln L(\\lambda) = n \\ln \\lambda - \\lambda \\sum_{i=1}^{n} x_i\n", + "$$\n", + "Дифференцируя по $\\lambda$ и приравнивая к нулю:\n", + "$$\n", + "\\frac{d}{d\\lambda} \\ln L(\\lambda) = \\frac{n}{\\lambda} - \\sum_{i=1}^{n} x_i = 0\n", + "$$\n", + "Отсюда получаем ОМП:\n", + "$$\n", + "\\hat{\\lambda}{\\text{ОМП}} = \\frac{n}{\\sum{i=1}^{n} x_i} = \\frac{1}{\\bar{X}}\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 35, + "id": "7fa556a6", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "ОМП для λ: 0.3586\n" + ] + } + ], + "source": [ + "# ОМП для λ\n", + "lambda_ml = 1 / mean\n", + "print(f\"ОМП для λ: {lambda_ml:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "f2ec4e89", + "metadata": {}, + "source": [ + "### 2. Оценка по методу моментов (ОММ)\n", + "Для показательного распределения математическое ожидание равно $E[X] = \\frac{1}{\\lambda}$. Приравнивая теоретическое математическое ожидание к выборочному:\n", + "$$\n", + "\\frac{1}{\\lambda} = \\bar{X} \\Rightarrow \\hat{\\lambda}{\\text{ММ}} = \\frac{1}{\\bar{X}}\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 36, + "id": "91b57523", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "ОММ для λ: 0.3586\n" + ] + } + ], + "source": [ + "# ОММ для λ\n", + "lambda_mm = 1 / mean\n", + "print(f\"ОММ для λ: {lambda_mm:.4f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "98a4fa53", + "metadata": {}, + "source": [ + "### 3. Смещение оценок\n", + "Для показательного распределения ОМП и ОММ совпадают. Найдём смещение:\n", + "$$\n", + "\\text{Смещение}(\\hat{\\lambda}) = E[\\hat{\\lambda}] - \\lambda\n", + "$$\n", + "Для показательного распределения:\n", + "$$\n", + "E[\\hat{\\lambda}_{\\text{ОМП}}] = E\\left[\\frac{1}{\\bar{X}}\\right] \\neq \\frac{1}{E[\\bar{X}]} = \\lambda\n", + "$$\n", + "Оценка $\\hat{\\lambda}_{\\text{ОМП}}$ является смещённой, но асимптотически несмещённой." + ] + }, + { + "cell_type": "code", + "execution_count": 37, + "id": "1bb3bbda", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Смещение MLE: 0.0073\n" + ] + } + ], + "source": [ + "# Теоретическое смещение для больших выборок\n", + "# Для показательного распределения смещение ОМП приближенно равно λ/n\n", + "n = len(data)\n", + "\n", + "bias_mle = (1 / mean) - (n / (n - 1) * (1 / mean))\n", + "\n", + "\n", + "print(f\"Смещение MLE: {abs(bias_mle):.4f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "289e0726", + "metadata": {}, + "source": [ + "## Пункт d) Асимптотический доверительный интервал\n", + "Для построения асимптотического доверительного интервала используем тот факт, что ОМП асимптотически нормальна с дисперсией:\n", + "$$\n", + "\\text{Var}(\\hat{\\lambda}) = \\frac{\\lambda^2}{n}\n", + "$$\n", + "Доверительный интервал уровня значимости $\\alpha_2$ имеет вид:\n", + "$$\n", + "\\hat{\\lambda} \\pm z_{1-\\alpha_2/2} \\cdot \\frac{\\hat{\\lambda}}{\\sqrt{n}}\n", + "$$\n", + "где $z_{1-\\alpha_2/2}$ — квантиль стандартного нормального распределения." + ] + }, + { + "cell_type": "code", + "execution_count": 40, + "id": "7f3db200", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Квантиль z_(1-α/2) = 1.6449\n", + "Доверительный интервал (90.0%): (0.2752, 0.4420)\n" + ] + } + ], + "source": [ + "# Асимптотический доверительный интервал\n", + "from scipy import stats\n", + "\n", + "\n", + "z = stats.norm.ppf(1 - alpha2/2)\n", + "se = lambda_ml / np.sqrt(len(data))\n", + "lower_ci = lambda_ml - z * se\n", + "upper_ci = lambda_ml + z * se\n", + "\n", + "print(f\"Квантиль z_(1-α/2) = {z:.4f}\")\n", + "# print(f\"Стандартная ошибка: {se:.4f}\")\n", + "print(f\"Доверительный интервал ({(1-alpha2)*100}%): ({lower_ci:.4f}, {upper_ci:.4f})\")" + ] + }, + { + "cell_type": "markdown", + "id": "4604ecf9", + "metadata": {}, + "source": [ + "## Пункт e) Критерий Колмогорова для проверки простой гипотезы\n", + "Критерий Колмогорова основан на статистике:\n", + "$$\n", + "D_n = \\sup_x |F_n(x) - F(x)|\n", + "$$\n", + "где $F_n(x)$ — эмпирическая функция распределения, $F(x)$ — теоретическая функция распределения.\n", + "Для показательного распределения с параметром $\\lambda_0$:\n", + "$$\n", + "F(x) = 1 - e^{-\\lambda_0 x}, \\quad x \\geq 0\n", + "$$" + ] + }, + { + "cell_type": "code", + "execution_count": 43, + "id": "d881725f", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "\n", + "Критерий Колмогорова-Смирнова:\n", + " Статистика Dn: 0.2831, Критическое значение: 0.1725\n", + " P-value: 0.0005\n", + " Гипотеза отвергается\n" + ] + } + ], + "source": [ + "# Критерий Колмогорова\n", + "# def exponential_cdf(x, lambda_param):\n", + "# return 1 - np.exp(-lambda_param * x) if x >= 0 else 0\n", + "\n", + "# # Вычисление статистики Колмогорова\n", + "# x_sorted = np.sort(data)\n", + "# n = len(data)\n", + "# empirical_cdf = np.arange(1, n + 1) / n\n", + "# theoretical_cdf = 1 - np.exp(-lambda0 * x_sorted)\n", + "# D_n = np.max(np.abs(empirical_cdf - theoretical_cdf))\n", + "\n", + "# # Критическое значение для уровня значимости alpha2\n", + "# critical_value = np.sqrt(-np.log(alpha2/2) / (2 * n))\n", + "\n", + "# # p-значение\n", + "# p_value = 2 * np.exp(-2 * n * D_n**2)\n", + "\n", + "# print(f\"Статистика Колмогорова D_n: {D_n:.4f}\")\n", + "# print(f\"Критическое значение (α={alpha2}): {critical_value:.4f}\")\n", + "# print(f\"p-значение: {p_value:.6f}\")\n", + "\n", + "# if D_n > critical_value:\n", + "# print(f\"Отвергаем H0 на уровне значимости {alpha2}\")\n", + "# else:\n", + "# print(f\"Нет оснований отвергнуть H0 на уровне значимости {alpha2}\")\n", + "# # e) Критерий Колмогорова\n", + "\n", + "# from scipy.stats import expon, kstest\n", + "\n", + "# # Правильное задание распределения (scale = 1/lambda)\n", + "# dist = expon(loc=0, scale=1/lambda0) \n", + "# D, p_value = kstest(data, dist.cdf)\n", + "\n", + "# # Критическое значение для alpha=0.10\n", + "# critical_value = 1.22 / np.sqrt(n) \n", + "\n", + "# print(f\"Статистика D: {D:.4f}, Критическое значение: {critical_value:.4f}\")\n", + "# print(f\" Гипотеза {'отвергается' if D > critical_value else 'не отвергается'}\")\n", + "# print(f\" p-значение: {p_value:.4f}\")\n", + "\n", + "# # Визуализация\n", + "# plt.figure(figsize=(10, 6))\n", + "# plt.step(x_sorted, empirical_cdf, where='post', label='Эмпирическая ФР')\n", + "# plt.plot(x_sorted, theoretical_cdf, 'r-', label=f'Теоретическая ФР (λ={lambda0})')\n", + "# plt.xlabel('x')\n", + "# plt.ylabel('F(x)')\n", + "# plt.title('Сравнение эмпирической и теоретической функций распределения')\n", + "# plt.legend()\n", + "# plt.grid(True)\n", + "# plt.show()\n", + "\n", + "# e) Критерий Колмогорова-Смирнова с использованием scipy\n", + "from scipy.stats import kstest\n", + "from scipy.stats import expon\n", + "\n", + "# Параметры показательного распределения: scale = 1/lambda\n", + "dist = expon(scale=1/lambda0) # loc=0 по умолчанию\n", + "D_stat, p_value = kstest(data, dist.cdf)\n", + "\n", + "# Критическое значение для alpha=0.10 (асимптотическая формула)\n", + "critical_value = 1.22 / np.sqrt(n) # Для alpha=0.10\n", + "\n", + "print(f\"\\nКритерий Колмогорова-Смирнова:\")\n", + "print(f\" Статистика Dn: {D_stat:.4f}, Критическое значение: {critical_value:.4f}\")\n", + "print(f\" P-value: {p_value:.4f}\")\n", + "print(f\" Гипотеза {'отвергается' if D_stat > critical_value else 'не отвергается'}\")" + ] + }, + { + "cell_type": "markdown", + "id": "f9ef2691", + "metadata": {}, + "source": [ + "## Пункт f) Критерий χ² для проверки простой гипотезы\n", + "Критерий χ² основан на сравнении наблюдаемых и ожидаемых частот в интервалах:\n", + "$$\n", + "\\chi^2 = \\sum_{i=1}^{k} \\frac{(O_i - E_i)^2}{E_i}\n", + "$$\n", + "где $O_i$ — наблюдаемая частота в $i$-м интервале, $E_i$ — ожидаемая частота." + ] + }, + { + "cell_type": "code", + "execution_count": 53, + "id": "4383629c", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "χ² статистика: 14.4669\n", + "Критическое значение (α=0.1): 6.2514\n", + "p-значение: 0.002334\n", + "Степени свободы: 3\n", + "Гипотеза отвергается на уровне 0.1\n" + ] + } + ], + "source": [ + "from scipy.stats import chi2, expon\n", + "\n", + "# Гистограмма и ожидаемые частоты\n", + "observed, bin_edges = np.histogram(data, bins=bins)\n", + "expected = []\n", + "for i in range(len(bin_edges)-1):\n", + " lower = bin_edges[i]\n", + " upper = bin_edges[i+1]\n", + " prob = expon.cdf(upper, scale=1/lambda0) - expon.cdf(lower, scale=1/lambda0)\n", + " expected.append(prob * n)\n", + "expected = np.array(expected)\n", + "\n", + "# Объединение интервалов с expected < 5\n", + "while np.any(expected < 5):\n", + " min_idx = np.argmin(expected)\n", + " if min_idx == 0:\n", + " # Объединяем с следующим интервалом\n", + " expected[min_idx + 1] += expected[min_idx]\n", + " observed[min_idx + 1] += observed[min_idx]\n", + " else:\n", + " # Объединяем с предыдущим интервалом\n", + " expected[min_idx - 1] += expected[min_idx]\n", + " observed[min_idx - 1] += observed[min_idx]\n", + " # Удаляем объединенный интервал\n", + " expected = np.delete(expected, min_idx)\n", + " observed = np.delete(observed, min_idx)\n", + "\n", + "# Расчет статистики χ²\n", + "chi2_stat = np.sum((observed - expected)**2 / expected)\n", + "dof = len(expected) - 1\n", + "chi2_crit = chi2.ppf(1 - alpha2, dof)\n", + "p_value = 1 - chi2.cdf(chi2_stat, dof)\n", + "\n", + "# Вывод результатов\n", + "print(f\"χ² статистика: {chi2_stat:.4f}\")\n", + "print(f\"Критическое значение (α={alpha2}): {chi2_crit:.4f}\")\n", + "print(f\"p-значение: {p_value:.6f}\")\n", + "print(f\"Степени свободы: {dof}\")\n", + "if chi2_stat > chi2_crit:\n", + " print(f\"Гипотеза отвергается на уровне {alpha2}\")\n", + "else:\n", + " print(f\"Нет оснований отвергнуть гипотезу на уровне {alpha2}\")" + ] + }, + { + "cell_type": "markdown", + "id": "224852ad", + "metadata": {}, + "source": [ + "## Пункт g) Критерий χ² для проверки сложной гипотезы\n", + "При проверке сложной гипотезы параметр λ оценивается по выборке:" + ] + }, + { + "cell_type": "code", + "execution_count": 63, + "id": "7456dc2c", + "metadata": {}, + "outputs": [], + "source": [ + "# # Критерий χ² для сложной гипотезы\n", + "# # Используем ОМП вместо λ0\n", + "# lambda_ml = 1 / mean\n", + "\n", + "# # Разбиваем данные на интервалы с шагом h\n", + "# bins = np.arange(0, max(data) + h, h)\n", + "# observed, bin_edges = np.histogram(data, bins=bins)\n", + "\n", + "# # Вычисляем теоретические вероятности для каждого интервала с λ_ml\n", + "# theoretical_prob = []\n", + "# for i in range(len(bin_edges) - 1):\n", + "# lower = bin_edges[i]\n", + "# upper = bin_edges[i+1]\n", + "# prob = np.exp(-lambda_ml * lower) - np.exp(-lambda_ml * upper)\n", + "# theoretical_prob.append(prob)\n", + "\n", + "# # Вычисляем ожидаемые частоты\n", + "# expected = np.array(theoretical_prob) * n\n", + "\n", + "# # Объединяем интервалы, где E_i < 5\n", + "# combined_observed = []\n", + "# combined_expected = []\n", + "# combined_bins = []\n", + "\n", + "# current_obs = 0\n", + "# current_exp = 0\n", + "# current_lower = bin_edges[0]\n", + "\n", + "# for i in range(len(observed)):\n", + "# current_obs += observed[i]\n", + "# current_exp += expected[i]\n", + " \n", + "# if current_exp >= 5 or i == len(observed) - 1:\n", + "# combined_observed.append(current_obs)\n", + "# combined_expected.append(current_exp)\n", + "# combined_bins.append((current_lower, bin_edges[i+1]))\n", + "# current_obs = 0\n", + "# current_exp = 0\n", + "# current_lower = bin_edges[i+1]\n", + "\n", + "# # Вычисляем статистику χ²\n", + "# chi2_stat = np.sum((np.array(combined_observed) - np.array(combined_expected))**2 / np.array(combined_expected))\n", + "\n", + "# # Степени свободы: число интервалов - 1 - 1 (для сложной гипотезы с одним оцененным параметром)\n", + "# df = len(combined_bins) - 1 - 1\n", + "\n", + "# # Критическое значение и p-значение\n", + "# chi2_crit = stats.chi2.ppf(1 - alpha2, df)\n", + "# p_value = 1 - stats.chi2.cdf(chi2_stat, df)\n", + "\n", + "# print(f\"Статистика χ² (сложная гипотеза): {chi2_stat:.4f}\")\n", + "# print(f\"Критическое значение (α={alpha2}): {chi2_crit:.4f}\")\n", + "# print(f\"p-значение: {p_value:.6f}\")\n", + "# print(f\"Степени свободы: {df}\")\n", + "\n", + "# if chi2_stat > chi2_crit:\n", + "# print(f\"Отвергаем H0 на уровне значимости {alpha2}\")\n", + "# else:\n", + "# print(f\"Нет оснований отвергнуть H0 на уровне значимости {alpha2}\")" + ] + }, + { + "cell_type": "code", + "execution_count": 62, + "id": "60c8dfd9", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Оценка λ: 0.3586\n", + "\n", + "Критерий χ² для сложной гипотезы:\n", + " Статистика χ²: 10.9186\n", + " Критическое значение (α=0.1): 4.6052\n", + " p-значение: 0.0043\n", + " Степени свободы: 2\n", + "Гипотеза отвергается на уровне 0.1\n", + "\n", + "Таблица частот:\n", + "[0.00, 1.40): O=30, E=19.74\n", + "[1.40, 2.80): O=4, E=11.95\n", + "[2.80, 4.20): O=6, E=7.23\n", + "[4.20, 16.80): O=10, E=10.97\n" + ] + } + ], + "source": [ + "import numpy as np\n", + "from scipy.stats import chi2, expon\n", + "\n", + "# Данные\n", + "data = np.array([\n", + " 0.18, 0.10, 3.34, 0.67, 0.85, 1.17, 0.24, 0.15, 1.31, 0.00, 0.49, 2.37, 14.94, 2.44, 3.13, 0.06, 2.98, 9.25, 6.84, 3.96,\n", + " 0.07, 6.72, 11.83, 0.50, 0.11, 6.50, 0.29, 0.17, 0.03, 0.06, 1.02, 0.49, 15.68, 3.03, 0.24, 11.40, 0.53, 0.59, 4.55, 3.57,\n", + " 8.33, 0.12, 2.58, 2.77, 0.12, 1.11, 0.31, 0.36, 1.31, 0.57\n", + "])\n", + "\n", + "alpha2 = 0.10\n", + "h = 1.40\n", + "n = len(data)\n", + "\n", + "# Оценка параметра λ методом максимального правдоподобия\n", + "lambda_ml = 1 / np.mean(data)\n", + "print(f\"Оценка λ: {lambda_ml:.4f}\")\n", + "\n", + "# Построение интервалов с шагом h\n", + "max_value = np.max(data)\n", + "bins = np.arange(0, max_value + h, h)\n", + "observed, bin_edges = np.histogram(data, bins=bins)\n", + "\n", + "# Расчет теоретических вероятностей и ожидаемых частот\n", + "expected = []\n", + "for i in range(len(bin_edges) - 1):\n", + " lower = bin_edges[i]\n", + " upper = bin_edges[i+1]\n", + " prob = expon.cdf(upper, scale=1/lambda_ml) - expon.cdf(lower, scale=1/lambda_ml)\n", + " expected.append(prob * n)\n", + "expected = np.array(expected)\n", + "\n", + "# Объединение интервалов с expected < 5\n", + "observed_list = observed.tolist()\n", + "expected_list = expected.tolist()\n", + "bin_edges_list = bin_edges.tolist()\n", + "\n", + "i = 0\n", + "while i < len(expected_list):\n", + " if expected_list[i] < 5:\n", + " if i == 0 or i == len(expected_list) - 1:\n", + " # Объединяем с соседним интервалом\n", + " if i == 0:\n", + " expected_list[i+1] += expected_list[i]\n", + " observed_list[i+1] += observed_list[i]\n", + " del bin_edges_list[i+1]\n", + " else:\n", + " expected_list[i-1] += expected_list[i]\n", + " observed_list[i-1] += observed_list[i]\n", + " del bin_edges_list[i]\n", + " del expected_list[i]\n", + " del observed_list[i]\n", + " else:\n", + " # Объединяем с минимальным соседом\n", + " if expected_list[i-1] < expected_list[i+1]:\n", + " expected_list[i-1] += expected_list[i]\n", + " observed_list[i-1] += observed_list[i]\n", + " del bin_edges_list[i]\n", + " else:\n", + " expected_list[i+1] += expected_list[i]\n", + " observed_list[i+1] += observed_list[i]\n", + " del bin_edges_list[i+1]\n", + " del expected_list[i]\n", + " del observed_list[i]\n", + " else:\n", + " i += 1\n", + "\n", + "# Проверка минимального числа интервалов\n", + "if len(expected_list) < 2:\n", + " raise ValueError(\"Недостаточно интервалов после объединения!\")\n", + "\n", + "# Расчет статистики χ²\n", + "chi2_stat = np.sum((np.array(observed_list) - np.array(expected_list))**2 / np.array(expected_list))\n", + "\n", + "# Степени свободы: k - 1 - 1 (k — число интервалов, 1 оцененный параметр)\n", + "df = len(expected_list) - 2\n", + "chi2_crit = chi2.ppf(1 - alpha2, df)\n", + "p_value = 1 - chi2.cdf(chi2_stat, df)\n", + "\n", + "# Вывод результатов\n", + "print(f\"\\nКритерий χ² для сложной гипотезы:\")\n", + "print(f\" Статистика χ²: {chi2_stat:.4f}\")\n", + "print(f\" Критическое значение (α={alpha2}): {chi2_crit:.4f}\")\n", + "print(f\" p-значение: {p_value:.4f}\")\n", + "print(f\" Степени свободы: {df}\")\n", + "\n", + "if chi2_stat > chi2_crit:\n", + " print(f\"Гипотеза отвергается на уровне {alpha2}\")\n", + "else:\n", + " print(f\"Нет оснований отвергнуть гипотезу на уровне {alpha2}\")\n", + "\n", + "# Вывод таблицы с интервалами\n", + "print(\"\\nТаблица частот:\")\n", + "for i in range(len(bin_edges_list) - 1):\n", + " print(f\"[{bin_edges_list[i]:.2f}, {bin_edges_list[i+1]:.2f}): O={observed_list[i]}, E={expected_list[i]:.2f}\")" + ] + }, + { + "cell_type": "markdown", + "id": "ab06e320", + "metadata": {}, + "source": [ + "## Пункт h) Наиболее мощный критерий\n", + "Для проверки простой гипотезы $H_0: \\lambda = \\lambda_0$ против альтернативы $H_1: \\lambda = \\lambda_1$ наиболее мощный критерий основан на отношении правдоподобия:\n", + "$$\n", + "\\Lambda = \\frac{L(\\lambda_0)}{L(\\lambda_1)} = \\frac{\\lambda_0^n e^{-\\lambda_0 \\sum_{i=1}^{n} x_i}}{\\lambda_1^n e^{-\\lambda_1 \\sum_{i=1}^{n} x_i}} = \\left(\\frac{\\lambda_0}{\\lambda_1}\\right)^n e^{-(\\lambda_0-\\lambda_1) \\sum_{i=1}^{n} x_i}\n", + "$$\n", + "Логарифмируя:\n", + "$$\n", + "\\ln \\Lambda = n \\ln\\left(\\frac{\\lambda_0}{\\lambda_1}\\right) - (\\lambda_0-\\lambda_1) \\sum_{i=1}^{n} x_i\n", + "$$\n", + "Критическая область имеет вид $\\ln \\Lambda < c$, где $c$ определяется уровнем значимости $\\alpha_2$." + ] + }, + { + "cell_type": "code", + "execution_count": 81, + "id": "c0c3655a", + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Критическая область: sum_data > 179.54\n", + " Сумма данных: 139.43\n", + " Решение: Не отвергаем H0\n", + "\n", + "При замене гипотез местами:\n", + " Критическая область: sum_data < 294.14\n", + " Решение: Отвергаем H0\n" + ] + } + ], + "source": [ + "# lambda0 = 0.33\n", + "# lambda1 = 0.14\n", + "# # Наиболее мощный критерий\n", + "# # Вычисляем отношение правдоподобия\n", + "# log_lambda = n * np.log(lambda0/lambda1) - (lambda0 - lambda1) * np.sum(data)\n", + "\n", + "# # Критическое значение для уровня значимости alpha2\n", + "# # Для экспоненциального распределения можно показать, что критическая область имеет вид:\n", + "# # sum(x_i) > c, где c определяется из уровня значимости\n", + "# sum_data = np.sum(data)\n", + "# c = -np.log(alpha2) / (lambda0 - lambda1) + n * np.log(lambda0/lambda1) / (lambda0 - lambda1)\n", + "\n", + "# print(f\"Сумма наблюдений: {sum_data:.4f}\")\n", + "# print(f\"Критическое значение c: {c:.4f}\")\n", + "# print(f\"Логарифм отношения правдоподобия: {log_lambda:.4f}\")\n", + "\n", + "# if sum_data > c:\n", + "# print(f\"Отвергаем H0: λ = {lambda0} в пользу H1: λ = {lambda1}\")\n", + "# else:\n", + "# print(f\"Нет оснований отвергнуть H0: λ = {lambda0}\")\n", + "\n", + "# # Если поменять местами гипотезы\n", + "# log_lambda_reversed = n * np.log(lambda1/lambda0) - (lambda1 - lambda0) * np.sum(data)\n", + "# c_reversed = -np.log(alpha2) / (lambda1 - lambda0) + n * np.log(lambda1/lambda0) / (lambda1 - lambda0)\n", + "\n", + "# print(\"\\nЕсли поменять местами гипотезы:\")\n", + "# print(f\"Критическое значение c: {c_reversed:.4f}\")\n", + "# print(f\"Логарифм отношения правдоподобия: {log_lambda_reversed:.4f}\")\n", + "\n", + "# if sum_data < c_reversed:\n", + "# print(f\"Отвергаем H0: λ = {lambda1} в пользу H1: λ = {lambda0}\")\n", + "# else:\n", + "# print(f\"Нет оснований отвергнуть H0: λ = {lambda1}\")\n", + "\n", + "\n", + "# h) Наиболее мощный критерий\n", + "from scipy.stats import gamma\n", + "\n", + "alpha2 = 0.10\n", + "n = len(data)\n", + "sum_data = sum(data)\n", + "\n", + "# Для H0: λ=0.33, сумма данных ~ Gamma(n, 1/0.33)\n", + "c = gamma.ppf(1 - alpha2, n, scale=1/lambda0) # Квантиль уровня 1-α\n", + "\n", + "print(f\" Критическая область: sum_data > {c:.2f}\")\n", + "print(f\" Сумма данных: {sum_data:.2f}\")\n", + "print(f\" Решение: {'Отвергаем H0' if sum_data > c else 'Не отвергаем H0'}\")\n", + "\n", + "# Для обратной гипотезы (H0: λ=0.14 vs H1: λ=0.33)\n", + "c_reversed = gamma.ppf(alpha2, n, scale=1/lambda1) # Квантиль уровня α\n", + "print(f\"\\nПри замене гипотез местами:\")\n", + "print(f\" Критическая область: sum_data < {c_reversed:.2f}\")\n", + "print(f\" Решение: {'Отвергаем H0' if sum_data < c_reversed else 'Не отвергаем H0'}\")" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "venv", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.13.2" + } + }, + "nbformat": 4, + "nbformat_minor": 5 +}