{ "cells": [ { "cell_type": "markdown", "id": "23f67692", "metadata": {}, "source": [ "2. В результате эксперимента получены данные, приведенные в таблице 2.\n", "a) Построить вариационный ряд, эмпирическую функцию распределения, гистограмму и полигон частот с шагом h. \n", "b) Вычислить выборочные аналоги следующих числовых характеристик: \n", "(i) математического ожидания, (ii) дисперсии, (iii) медианы, (iv) асимметрии, (v) эксцесса, (vi) вероятности P(X ∈ [c, d]). \n", "c) В предположении, что исходные наблюдения являются выборкой из показательного распределения, построить \n", "оценку максимального правдоподобия параметра λ и соответствующую оценку по методу моментов. Найти смещение оценок. \n", "d) Построить асимптотический доверительный интервал уровня значимости α2 для параметра λ на базе оценки максимального правдоподобия. \n", "e) С использованием теоремы Колмогорова построить критерий значимости проверки простой гипотезы согласия с показательным распределением с параметром λ0. Проверить гипотезу на уровне значимости α2. Вычислить наибольшее значение уровня значимости, на котором нет оснований отвергнуть данную гипотезу. \n", "f) Используя гистограмму частот, построить критерий значимости χ2 проверки простой гипотезы согласия с показательным распределением с параметром λ0. Проверить гипотезу на уровне α2. Вычислить наибольшее значение уровня значимости, на котором еще нет оснований отвергнуть данную гипотезу. \n", "g) Построить критерий проверки значимости χ2 сложной гипотезы согласия с показательным распределением. \n", "Проверить гипотезу на уровне α2. Вычислить наибольшее значение уровня значимости, на котором еще нет оснований отвергнуть данную гипотезу. \n", "h) Построить наиболее мощный критерий проверки простой гипотезы о показательности с параметром λ = λ0 при альтернативе показательности с параметром λ = λ1. Проверить гипотезу на уровне значимости α2. Что получится, если поменять местами основную и альтернативную гипотезы? \n", "\n", "Таблица 2 α2 = 0.10; c = 0.00; d = 4.62; h = 1.40; λ0 = 0.33; λ1 = 0.14. \n", "0.18 0.10 3.34 0.67 0.85 1.17 0.24 0.15 1.31 0.00 0.49 2.37 14.94 2.44 3.13 0.06 2.98 9.25 6.84 3.96 0.07 6.72 11.83 0.50 0.11\n", "6.50 0.29 0.17 0.03 0.06 1.02 0.49 15.68 3.03 0.24 11.40 0.53 0.59 4.55 3.57 8.33 0.12 2.58 2.77 0.12 1.11 0.31 0.36 1.31 0.57" ] }, { "cell_type": "code", "execution_count": 4, "id": "57a523dd", "metadata": {}, "outputs": [], "source": [ "# Данные\n", "import numpy as np\n", "data = np.array(list(map(float, \"\"\"0.18 0.10 3.34 0.67 0.85 1.17 0.24 0.15 1.31 0.00 0.49 2.37 14.94 2.44 3.13 0.06 2.98 9.25 6.84 3.96 0.07 6.72 11.83 0.50 0.11 6.50 0.29 0.17 0.03 0.06 1.02 0.49 15.68 3.03 0.24 11.40 0.53 0.59 4.55 3.57 8.33 0.12 2.58 2.77 0.12 1.11 0.31 0.36 1.31 0.57\"\"\".split())))\n", "lambda0 = 0.33; lambda1 = 0.14\n", "alpha2 = 0.10\n", "c = 0.00; d = 4.62; h = 1.40\n", "# a0 = 3.00; sig0 = 3.00\n", "# a1 = -7.00; sig1 = 3.00" ] }, { "cell_type": "markdown", "id": "8b7561a0", "metadata": {}, "source": [ "## Пункт a)" ] }, { "cell_type": "markdown", "id": "b046ad70", "metadata": {}, "source": [ "### 1. Вариационный ряд" ] }, { "cell_type": "code", "execution_count": 5, "id": "db7e1a67", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "0.0^(1), 0.03^(1), 0.06^(2), 0.07^(1), 0.1^(1), 0.11^(1), 0.12^(2), 0.15^(1), 0.17^(1), 0.18^(1), 0.24^(2), 0.29^(1), 0.31^(1), 0.36^(1), 0.49^(2), 0.5^(1), 0.53^(1), 0.57^(1), 0.59^(1), 0.67^(1), 0.85^(1), 1.02^(1), 1.11^(1), 1.17^(1), 1.31^(2), 2.37^(1), 2.44^(1), 2.58^(1), 2.77^(1), 2.98^(1), 3.03^(1), 3.13^(1), 3.34^(1), 3.57^(1), 3.96^(1), 4.55^(1), 6.5^(1), 6.72^(1), 6.84^(1), 8.33^(1), 9.25^(1), 11.4^(1), 11.83^(1), 14.94^(1), 15.68^(1)\n", "Вариационный ряд: 0.0, 0.03, 0.06, 0.06, 0.07, 0.1, 0.11, 0.12, 0.12, 0.15, 0.17, 0.18, 0.24, 0.24, 0.29, 0.31, 0.36, 0.49, 0.49, 0.5, 0.53, 0.57, 0.59, 0.67, 0.85, 1.02, 1.11, 1.17, 1.31, 1.31, 2.37, 2.44, 2.58, 2.77, 2.98, 3.03, 3.13, 3.34, 3.57, 3.96, 4.55, 6.5, 6.72, 6.84, 8.33, 9.25, 11.4, 11.83, 14.94, 15.68\n" ] } ], "source": [ "# Получение уникальных значений и их частот\n", "unique_values, counts = np.unique(data, return_counts=True)\n", "\n", "# Форматирование вариационного ряда\n", "variational_series = sorted(data)\n", "print(\", \".join(f\"{value}^({count})\" for value, count in zip(unique_values, counts)))\n", "print(\"Вариационный ряд:\", \", \".join(map(str, variational_series)))" ] }, { "cell_type": "markdown", "id": "93c7e45f", "metadata": {}, "source": [ "### 2. Эмпирическая функция распределения (ЭФР)\n", "$$\n", "\\hat{F}_n(x) = \\frac{1}{n} \\sum_{i=1}^{n} \\text{\\textbf{1}}_{\\{X_i \\leq x\\}},\n", "$$\n", "где $n$ — объем выборки." ] }, { "cell_type": "code", "execution_count": 6, "id": "261ad18a", "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "import matplotlib.pyplot as plt\n", "from statsmodels.distributions.empirical_distribution import ECDF\n", "\n", "x = np.sort(data)\n", "y = np.arange(1, len(data)+1) / len(data)\n", "\n", "ecdf = ECDF(data)\n", "x = np.linspace(min(data) - 1, max(data) + 1, 1000)\n", "y = ecdf(x)\n", "\n", "# Находим точки, где F(x) переходит от 0 к основному росту и от роста к 1\n", "x_left = x[y == 0][-1] # Последняя точка, где F(x)=0\n", "x_right = x[y == 1][0] # Первая точка, где F(x)=1\n", "\n", "# Разделяем данные на 3 части\n", "mask_left = (x < x_left) # F(x) = 0\n", "mask_mid = (x >= x_left) & (x <= x_right) # Основной рост\n", "mask_right = (x > x_right) # F(x) = 1\n", "\n", "# Рисуем каждую часть своим стилем\n", "plt.figure(figsize=(10, 6))\n", "plt.step(x[mask_left], y[mask_left], '--', color='blue', where='post', label='F(x)=0') # Пунктир слева\n", "plt.step(x[mask_mid], y[mask_mid], '-', color='blue', where='post', label='ЭФР') # Сплошная основная часть\n", "plt.step(x[mask_right], y[mask_right], '--', color='blue', where='post', label='F(x)=1') # Пунктир справа\n", "\n", "# Настройки графика\n", "plt.title(\"Эмпирическая функция распределения\")\n", "plt.xlabel(\"x\")\n", "plt.ylabel(\"F(x)\")\n", "# Добавление пунктирных линий для F(x) = 0 и F(x) = 1\n", "plt.axhline(y=0, color='gray', linestyle='--', linewidth=1, label='F(x) = 0')\n", "plt.axhline(y=1, color='gray', linestyle='--', linewidth=1, label='F(x) = 1')\n", "\n", "plt.grid(True, linestyle=':')\n", "plt.xticks(np.arange(np.floor(min(data)), np.ceil(max(data)) + 1))\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "639c228f", "metadata": {}, "source": [ "### 3. Гистограмма частот" ] }, { "cell_type": "code", "execution_count": 7, "id": "09541433", "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "bins = np.arange(min(data) - h, max(data) + h, h)\n", "hist, edges = np.histogram(data, bins=bins)\n", "centers = (edges[:-1] + edges[1:]) / 2\n", "\n", "# Гистограмма\n", "plt.figure(figsize=(10, 5))\n", "plt.bar(edges[:-1], hist, width=h, align='edge', edgecolor='black')\n", "plt.title(\"Гистограмма частот\")\n", "plt.xlabel(\"Интервалы\")\n", "plt.ylabel(\"Частота\")\n", "\n", "# Полигон частот\n", "plt.plot(centers, hist, 'r-', marker='o')\n", "plt.grid(True)\n", "plt.show()" ] }, { "cell_type": "markdown", "id": "44f7e836", "metadata": {}, "source": [ "## Пункт b)" ] }, { "cell_type": "markdown", "id": "c32cd292", "metadata": {}, "source": [ "### 1. Выборочное среднее (математическое ожидание)\n", "Выборочное среднее — оценка теоретического математического ожидания.\n", "$$\n", "\\bar{X} = \\frac{1}{n} \\sum_{i=1}^{n} X_i.\n", "$$" ] }, { "cell_type": "code", "execution_count": 8, "id": "ead66cb6", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Выборочное среднее: 2.79\n" ] } ], "source": [ "import numpy as np\n", "mean = np.mean(data)\n", "print(f\"Выборочное среднее: {mean:.2f}\")" ] }, { "cell_type": "markdown", "id": "83c9665b", "metadata": {}, "source": [ "### 2. Выборочная дисперсия\n", "Несмещённая оценка дисперсии:\n", "$$\n", "s^2 = \\frac{1}{n-1} \\sum_{i=1}^{n}(X_i-\\bar{X})^2.\n", "$$\n", "\n", "Смещенная оценка дисперсии:\n", "$$\n", "s^2_{\\text{смещенная}} = \\frac{1}{n} \\sum_{i=1}^{n}(X_i - \\bar{X})^2\n", "$$\n", "\n", "где:\n", "- $ n $ — общее количество наблюдений,\n", "- $X_i$ — каждое отдельное наблюдение,\n", "- $\\bar{X}$ — среднее значение выборки." ] }, { "cell_type": "code", "execution_count": 9, "id": "a24ea7eb", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Выборочная дисперсия несмещённая: 15.59\n", "Выборочная дисперсия смещённая: 15.28\n" ] } ], "source": [ "variance = np.var(data, ddof=1)\n", "print(f\"Выборочная дисперсия несмещённая: {variance:.2f}\")\n", "print(f\"Выборочная дисперсия смещённая: {np.var(data, ddof=0):.2f}\")" ] }, { "cell_type": "markdown", "id": "bd8ee128", "metadata": {}, "source": [ "### 3. Медиана\n", "Значение, разделяющее выборку на две равные части." ] }, { "cell_type": "code", "execution_count": 10, "id": "e8490052", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Медиана: 0.94\n" ] } ], "source": [ "median = np.median(data)\n", "print(f\"Медиана: {median:.2f}\")" ] }, { "cell_type": "markdown", "id": "34384b8f", "metadata": {}, "source": [ "### 4. Ассиметрия\n", "$$\n", "Skewness = \\frac{\\frac{1}{n}\\sum_{i=1}^{n}(X_i-\\bar{X})^3}{s^3}.\n", "$$" ] }, { "cell_type": "code", "execution_count": 11, "id": "cc21a5b6", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Асимметрия: 1.85\n" ] } ], "source": [ "from scipy.stats import skew\n", "skewness = skew(data)\n", "print(f\"Асимметрия: {skewness:.2f}\")" ] }, { "cell_type": "markdown", "id": "ddd4b8a7", "metadata": {}, "source": [ "### 5. Эксцесс\n", "$$\n", "Kurtosis = \\frac{\\frac{1}{n}\\sum_{i=1}^{n}(X_i-\\bar{X})^4}{s^4} - 3.\n", "$$" ] }, { "cell_type": "code", "execution_count": 12, "id": "118d475e", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Эксцесс: 2.66\n" ] } ], "source": [ "from scipy.stats import kurtosis\n", "excess_kurtosis = kurtosis(data)\n", "print(f\"Эксцесс: {excess_kurtosis:.2f}\")" ] }, { "cell_type": "markdown", "id": "93fd7cc5", "metadata": {}, "source": [ "### 6. Вероятность $P(X \\in [0.00, 4.62])$\n", "Эмпирическая оценка вероятности:\n", "$$\n", "P(X \\in [c, d]) = \\frac{\\text{число элементов выборки} \\in [c, d]}{n}.\n", "$$" ] }, { "cell_type": "code", "execution_count": 13, "id": "08ea631c", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "P(X ∈ [0.0, 4.62]): 0.82\n" ] } ], "source": [ "count = sum((data[i] >= c) & (data[i] <= d) for i in range(0, len(data)))\n", "probability = count / len(data)\n", "print(f\"P(X ∈ [{c}, {d}]): {probability:.2f}\")" ] }, { "cell_type": "markdown", "id": "26424ded", "metadata": {}, "source": [ "## Пункт c)" ] }, { "cell_type": "markdown", "id": "f6b509ff", "metadata": {}, "source": [ "### 1. Оценка максимального правдоподобия (ОМП)" ] }, { "cell_type": "markdown", "id": "c40e8461", "metadata": {}, "source": [ "Функция правдоподобия для показательного распределения:\n", "$$\n", "L(\\lambda) = \\prod_{i=1}^{n} \\lambda e^{-\\lambda x_i} = \\lambda^n e^{-\\lambda \\sum_{i=1}^{n} x_i}\n", "$$\n", "Логарифмируя, получаем:\n", "$$\n", "\\ln L(\\lambda) = n \\ln \\lambda - \\lambda \\sum_{i=1}^{n} x_i\n", "$$\n", "Дифференцируя по $\\lambda$ и приравнивая к нулю:\n", "$$\n", "\\frac{d}{d\\lambda} \\ln L(\\lambda) = \\frac{n}{\\lambda} - \\sum_{i=1}^{n} x_i = 0\n", "$$\n", "Отсюда получаем ОМП:\n", "$$\n", "\\hat{\\lambda}{\\text{ОМП}} = \\frac{n}{\\sum{i=1}^{n} x_i} = \\frac{1}{\\bar{X}}\n", "$$" ] }, { "cell_type": "code", "execution_count": 14, "id": "7fa556a6", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ОМП для λ: 0.3586\n" ] } ], "source": [ "# ОМП для λ\n", "lambda_ml = 1 / mean\n", "print(f\"ОМП для λ: {lambda_ml:.4f}\")" ] }, { "cell_type": "markdown", "id": "f2ec4e89", "metadata": {}, "source": [ "### 2. Оценка по методу моментов (ОММ)\n", "Для показательного распределения математическое ожидание равно $E[X] = \\frac{1}{\\lambda}$. Приравнивая теоретическое математическое ожидание к выборочному:\n", "$$\n", "\\frac{1}{\\lambda} = \\bar{X} \\Rightarrow \\hat{\\lambda}{\\text{ММ}} = \\frac{1}{\\bar{X}}\n", "$$" ] }, { "cell_type": "code", "execution_count": 15, "id": "91b57523", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "ОММ для λ: 0.3586\n" ] } ], "source": [ "# ОММ для λ\n", "lambda_mm = 1 / mean\n", "print(f\"ОММ для λ: {lambda_mm:.4f}\")" ] }, { "cell_type": "markdown", "id": "98a4fa53", "metadata": {}, "source": [ "### 3. Смещение оценок\n", "Для показательного распределения ОМП и ОММ совпадают. Найдём смещение для $\\hat{\\lambda} = \\frac{1}{\\bar{X}}$:\n", "$$\n", "\\text{Смещение}(\\hat{\\lambda}) = E[\\hat{\\lambda}] - \\lambda\n", "$$\n", "$$\n", "E[\\hat{\\lambda}_{\\text{ОМП}}] = E\\left[\\frac{1}{\\bar{X}}\\right] = \\frac{n\\lambda}{n-1} \\neq \\frac{1}{E[\\bar{X}]} = \\lambda \\space(n>1)\n", "$$\n", "Смещение:\n", "$$\n", "\\text{Bias}(\\hat{\\lambda}) = \\frac{n\\lambda}{n-1} - \\lambda = \\frac{\\lambda}{n-1}.\n", "$$\n", "\n", "Оценка $\\hat{\\lambda}_{\\text{ОМП}}$ является смещённой. Смещение положительно и уменьшается с ростом $n$. При $n→\\inf$, $Bias(\\hat{\\lambda})→0$, поэтому оценка *асимптотически несмещенная*." ] }, { "cell_type": "code", "execution_count": 16, "id": "1bb3bbda", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Смещение MLE: 0.0073\n" ] } ], "source": [ "# Теоретическое смещение для больших выборок\n", "# Для показательного распределения смещение ОМП приближенно равно λ/n\n", "n = len(data)\n", "\n", "bias_mle = (1 / mean) - (n / (n - 1) * (1 / mean))\n", "\n", "\n", "print(f\"Смещение MLE: {abs(bias_mle):.4f}\")" ] }, { "cell_type": "markdown", "id": "289e0726", "metadata": {}, "source": [ "## Пункт d) Асимптотический доверительный интервал\n", "\n", "### Оценка максимального правдоподобия (ОМП):\n", "Для экспоненциального распределения ОМП параметра **λ** вычисляется как:\n", "$$\n", "\\hat{\\lambda} = \\frac{1}{\\bar{X}},\n", "$$\n", "где $\\bar{X}$ — выборочное среднее.\n", "\n", "\n", "### Асимптотическая нормальность ОМП:\n", "При $n \\to \\infty$ распределение $\\hat{\\lambda}$ стремится к нормальному:\n", "- **Математическое ожидание**:\n", " $$\n", " \\mathbb{E}[\\hat{\\lambda}] = \\lambda\n", " $$\n", "- **Дисперсия**:\n", " $$\n", " \\text{Var}(\\hat{\\lambda}) = \\frac{\\lambda^2}{n},\n", " $$\n", "\n", "\n", "### Стандартная ошибка оценки:\n", "Оценивается через ОМП:\n", "$$\n", "\\text{SE}(\\hat{\\lambda}) = \\sqrt{\\frac{\\hat{\\lambda}^2}{n}} = \\frac{\\hat{\\lambda}}{\\sqrt{n}}.\n", "$$\n", "\n", "\n", "### Квантиль нормального распределения:\n", "Для уровня значимости $\\alpha/2$ (например, $\\alpha = 0.1$ для 90% доверительного интервала) квантиль:\n", "$$\n", "z_{1-\\alpha/2} \\approx 1.6449 \\quad (z_{0.95}).\n", "$$\n", "\n", "\n", "### Доверительный интервал:\n", "Интервал для уровня доверия $1-\\alpha$:\n", "$$\n", "\\hat{\\lambda} \\pm z_{1-\\alpha/2} \\cdot \\text{SE}(\\hat{\\lambda}),\n", "$$\n", "что дает границы:\n", "$$\n", "\\left( \\hat{\\lambda} - 1.6449 \\cdot \\frac{\\hat{\\lambda}}{\\sqrt{n}}, \\quad \\hat{\\lambda} + 1.6449 \\cdot \\frac{\\hat{\\lambda}}{\\sqrt{n}} \\right)." ] }, { "cell_type": "code", "execution_count": 17, "id": "7f3db200", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Квантиль z_(1-α/2) = 1.6449\n", "Доверительный интервал (90.0%): (0.2752, 0.4420)\n" ] } ], "source": [ "# Асимптотический доверительный интервал\n", "from scipy import stats\n", "\n", "\n", "z = stats.norm.ppf(1 - alpha2/2)\n", "se = lambda_ml / np.sqrt(len(data))\n", "lower_ci = lambda_ml - z * se\n", "upper_ci = lambda_ml + z * se\n", "\n", "print(f\"Квантиль z_(1-α/2) = {z:.4f}\")\n", "# print(f\"Стандартная ошибка: {se:.4f}\")\n", "print(f\"Доверительный интервал ({(1-alpha2)*100}%): ({lower_ci:.4f}, {upper_ci:.4f})\")" ] }, { "cell_type": "markdown", "id": "4604ecf9", "metadata": {}, "source": [ "## Пункт e) Критерий Колмогорова для проверки простой гипотезы\n", "Критерий Колмогорова основан на статистике:\n", "$$\n", "D_n = \\sup_x |F_n(x) - F(x)|\n", "$$\n", "где $F_n(x)$ — эмпирическая функция распределения, $F(x)$ — теоретическая функция распределения.\n", "Для показательного распределения с параметром $\\lambda_0$:\n", "$$\n", "F(x) = 1 - e^{-\\lambda_0 x}, \\quad x \\geq 0\n", "$$" ] }, { "cell_type": "code", "execution_count": 18, "id": "d881725f", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Критерий Колмогорова-Смирнова:\n", " Статистика Dn: 0.2831, Критическое значение: 0.1725\n", " P-value: 0.0005\n", " Гипотеза отвергается\n" ] } ], "source": [ "# Критерий Колмогорова\n", "# def exponential_cdf(x, lambda_param):\n", "# return 1 - np.exp(-lambda_param * x) if x >= 0 else 0\n", "\n", "# # Вычисление статистики Колмогорова\n", "# x_sorted = np.sort(data)\n", "# n = len(data)\n", "# empirical_cdf = np.arange(1, n + 1) / n\n", "# theoretical_cdf = 1 - np.exp(-lambda0 * x_sorted)\n", "# D_n = np.max(np.abs(empirical_cdf - theoretical_cdf))\n", "\n", "# # Критическое значение для уровня значимости alpha2\n", "# critical_value = np.sqrt(-np.log(alpha2/2) / (2 * n))\n", "\n", "# # p-значение\n", "# p_value = 2 * np.exp(-2 * n * D_n**2)\n", "\n", "# print(f\"Статистика Колмогорова D_n: {D_n:.4f}\")\n", "# print(f\"Критическое значение (α={alpha2}): {critical_value:.4f}\")\n", "# print(f\"p-значение: {p_value:.6f}\")\n", "\n", "# if D_n > critical_value:\n", "# print(f\"Отвергаем H0 на уровне значимости {alpha2}\")\n", "# else:\n", "# print(f\"Нет оснований отвергнуть H0 на уровне значимости {alpha2}\")\n", "# # e) Критерий Колмогорова\n", "\n", "# from scipy.stats import expon, kstest\n", "\n", "# # Правильное задание распределения (scale = 1/lambda)\n", "# dist = expon(loc=0, scale=1/lambda0) \n", "# D, p_value = kstest(data, dist.cdf)\n", "\n", "# # Критическое значение для alpha=0.10\n", "# critical_value = 1.22 / np.sqrt(n) \n", "\n", "\n", "\n", "# e) Критерий Колмогорова-Смирнова с использованием scipy\n", "from scipy.stats import kstest\n", "from scipy.stats import expon\n", "\n", "# Параметры показательного распределения: scale = 1/lambda\n", "dist = expon(scale=1/lambda0) # loc=0 по умолчанию\n", "D_stat, p_value = kstest(data, dist.cdf)\n", "\n", "# Критическое значение для alpha=0.10 (асимптотическая формула)\n", "critical_value = 1.22 / np.sqrt(n) # Для alpha=0.10\n", "\n", "print(f\"\\nКритерий Колмогорова-Смирнова:\")\n", "print(f\" Статистика Dn: {D_stat:.4f}, Критическое значение: {critical_value:.4f}\")\n", "print(f\" P-value: {p_value:.4f}\")\n", "print(f\" Гипотеза {'отвергается' if D_stat > critical_value else 'не отвергается'}\")\n", "\n", "\n", "x_sorted = np.sort(data)\n", "n = len(data)\n", "empirical_cdf = np.arange(1, n + 1) / n\n", "theoretical_cdf = 1 - np.exp(-lambda0 * x_sorted)\n" ] }, { "cell_type": "markdown", "id": "f9ef2691", "metadata": {}, "source": [ "## Пункт f) Критерий χ² для проверки простой гипотезы\n", "Критерий χ² основан на сравнении наблюдаемых и ожидаемых частот в интервалах:\n", "$$\n", "\\chi^2 = \\sum_{i=1}^{k} \\frac{(O_i - E_i)^2}{E_i}\n", "$$\n", "где $O_i$ — наблюдаемая частота в $i$-м интервале, $E_i$ — ожидаемая частота." ] }, { "cell_type": "code", "execution_count": 19, "id": "4383629c", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "\n", "Таблица частот после объединения:\n", "Интервал \tНаблюдаемо\tОжидаемо\tВклад в χ²\n", "[0.00, 2.80)\t\t 34 \t30.15\t\t0.4906497\n", "[2.80, 14.00)\t\t 7 \t11.97\t\t2.0627840\n", "[14.00, 15.40)\t\t 9 \t7.68\t\t0.2261086\n", "χ² статистика: 2.7795\n", "Критическое значение (α=0.1): 4.6052\n", "p-значение: 0.249132\n", "Степени свободы: 2\n", "Нет оснований отвергнуть гипотезу на уровне 0.1\n" ] } ], "source": [ "# Теоретическое смещение для больших выборок\n", "# Для показательного распределения смещение ОМП приближенно равно λ/n\n", "from scipy.stats import chi2, expon\n", "\n", "n = len(data)\n", "\n", "# Гистограмма и ожидаемые частоты\n", "observed, bin_edges = np.histogram(data, bins=bins)\n", "expected = []\n", "for i in range(len(bin_edges)-1):\n", " lower = bin_edges[i]\n", " upper = bin_edges[i+1]\n", " prob = expon.cdf(upper, scale=1/lambda0) - expon.cdf(lower, scale=1/lambda0)\n", " expected.append(prob * n)\n", "expected = np.array(expected)\n", "\n", "# Объединение интервалов\n", "while np.any(observed < 5):\n", " min_idx = np.argmin(observed)\n", " if min_idx == 0:\n", " # Объединяем с следующим интервалом\n", " expected[min_idx + 1] += expected[min_idx]\n", " observed[min_idx + 1] += observed[min_idx]\n", " # bin_edges = np.delete(bin_edges, min_idx)\n", " else:\n", " # Объединяем с предыдущим интервалом\n", " expected[min_idx - 1] += expected[min_idx]\n", " observed[min_idx - 1] += observed[min_idx]\n", " bin_edges = np.delete(bin_edges, min_idx-1)\n", " # print(bin_edges)\n", " # Удаляем объединенный интервал\n", " expected = np.delete(expected, min_idx)\n", " observed = np.delete(observed, min_idx)\n", "\n", "# Расчет статистики χ²\n", "chi2_stat = np.sum((observed - expected)**2 / expected)\n", "dof = len(expected) - 1\n", "chi2_crit = chi2.ppf(1 - alpha2, dof)\n", "p_value = 1 - chi2.cdf(chi2_stat, dof)\n", "\n", "print(\"\\nТаблица частот после объединения:\")\n", "print(\"Интервал \\tНаблюдаемо\\tОжидаемо\\tВклад в χ²\")\n", "for i in range(len(observed)):\n", " lower = bin_edges[i]\n", " upper = bin_edges[i+1]\n", " contrib = (observed[i]-expected[i])**2/expected[i]\n", " print(f\"[{lower:.2f}, {upper:.2f})\\t\\t{observed[i]:^10}\\t{expected[i]:.2f}\\t\\t{contrib:.7f}\")\n", "\n", "# Вывод результатов\n", "print(f\"χ² статистика: {chi2_stat:.4f}\")\n", "print(f\"Критическое значение (α={alpha2}): {chi2_crit:.4f}\")\n", "print(f\"p-значение: {p_value:.6f}\")\n", "print(f\"Степени свободы: {dof}\")\n", "if chi2_stat > chi2_crit:\n", " print(f\"Гипотеза отвергается на уровне {alpha2}\")\n", "else:\n", " print(f\"Нет оснований отвергнуть гипотезу на уровне {alpha2}\")\n" ] }, { "cell_type": "markdown", "id": "224852ad", "metadata": {}, "source": [ "## Пункт g) Критерий χ² для проверки сложной гипотезы\n", "При проверке сложной гипотезы параметр λ оценивается по выборке:" ] }, { "cell_type": "code", "execution_count": 20, "id": "7456dc2c", "metadata": {}, "outputs": [], "source": [ "# # Критерий χ² для сложной гипотезы\n", "# # Используем ОМП вместо λ0\n", "# lambda_ml = 1 / mean\n", "\n", "# # Разбиваем данные на интервалы с шагом h\n", "# bins = np.arange(0, max(data) + h, h)\n", "# observed, bin_edges = np.histogram(data, bins=bins)\n", "\n", "# # Вычисляем теоретические вероятности для каждого интервала с λ_ml\n", "# theoretical_prob = []\n", "# for i in range(len(bin_edges) - 1):\n", "# lower = bin_edges[i]\n", "# upper = bin_edges[i+1]\n", "# prob = np.exp(-lambda_ml * lower) - np.exp(-lambda_ml * upper)\n", "# theoretical_prob.append(prob)\n", "\n", "# # Вычисляем ожидаемые частоты\n", "# expected = np.array(theoretical_prob) * n\n", "\n", "# # Объединяем интервалы, где E_i < 5\n", "# combined_observed = []\n", "# combined_expected = []\n", "# combined_bins = []\n", "\n", "# current_obs = 0\n", "# current_exp = 0\n", "# current_lower = bin_edges[0]\n", "\n", "# for i in range(len(observed)):\n", "# current_obs += observed[i]\n", "# current_exp += expected[i]\n", " \n", "# if current_exp >= 5 or i == len(observed) - 1:\n", "# combined_observed.append(current_obs)\n", "# combined_expected.append(current_exp)\n", "# combined_bins.append((current_lower, bin_edges[i+1]))\n", "# current_obs = 0\n", "# current_exp = 0\n", "# current_lower = bin_edges[i+1]\n", "\n", "# # Вычисляем статистику χ²\n", "# chi2_stat = np.sum((np.array(combined_observed) - np.array(combined_expected))**2 / np.array(combined_expected))\n", "\n", "# # Степени свободы: число интервалов - 1 - 1 (для сложной гипотезы с одним оцененным параметром)\n", "# df = len(combined_bins) - 1 - 1\n", "\n", "# # Критическое значение и p-значение\n", "# chi2_crit = stats.chi2.ppf(1 - alpha2, df)\n", "# p_value = 1 - stats.chi2.cdf(chi2_stat, df)\n", "\n", "# print(f\"Статистика χ² (сложная гипотеза): {chi2_stat:.4f}\")\n", "# print(f\"Критическое значение (α={alpha2}): {chi2_crit:.4f}\")\n", "# print(f\"p-значение: {p_value:.6f}\")\n", "# print(f\"Степени свободы: {df}\")\n", "\n", "# if chi2_stat > chi2_crit:\n", "# print(f\"Отвергаем H0 на уровне значимости {alpha2}\")\n", "# else:\n", "# print(f\"Нет оснований отвергнуть H0 на уровне значимости {alpha2}\")" ] }, { "cell_type": "code", "execution_count": 22, "id": "60c8dfd9", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Оценка λ: 0.4490\n", "\n", "Таблица частот после объединения:\n", "Интервал \tНаблюдаемо\tОжидаемо\tВклад в χ²\n", "[0.00, 1.40)\t\t 30 \t23.33\t\t1.9049\n", "[1.40, 4.20)\t\t 10 \t19.08\t\t4.3222\n", "[4.20, 16.80)\t\t 10 \t7.56\t\t0.7883\n", "\n", "Критерий χ² для сложной гипотезы:\n", " Статистика χ²: 7.0154\n", " Критическое значение (α=0.1): 2.7055\n", " p-значение: 0.0081\n", " Степени свободы: 1\n", "Гипотеза отвергается на уровне 0.1\n" ] } ], "source": [ "import numpy as np\n", "from scipy.stats import chi2, expon\n", "\n", "# Оценка параметра λ методом максимального правдоподобия\n", "lambda_ml = 0.4490\n", "print(f\"Оценка λ: {lambda_ml:.4f}\")\n", "\n", "# Построение интервалов с шагом h\n", "max_value = np.max(data)\n", "bins = np.arange(0, max_value + h, h)\n", "observed, bin_edges = np.histogram(data, bins=bins)\n", "\n", "# Расчет теоретических вероятностей и ожидаемых частот\n", "expected = []\n", "for i in range(len(bin_edges) - 1):\n", " lower = bin_edges[i]\n", " upper = bin_edges[i+1]\n", " prob = expon.cdf(upper, scale=1/lambda_ml) - expon.cdf(lower, scale=1/lambda_ml)\n", " expected.append(prob * n)\n", "expected = np.array(expected)\n", "\n", "# Объединение интервалов с expected < 5\n", "observed_list = observed.tolist()\n", "expected_list = expected.tolist()\n", "bin_edges_list = bin_edges.tolist()\n", "\n", "i = 0\n", "while i < len(observed_list):\n", " if observed_list[i] <= 5:\n", " if i == 0 or i == len(observed_list) - 1:\n", " # Объединяем с соседним интервалом\n", " if i == 0:\n", " expected_list[i+1] += expected_list[i]\n", " observed_list[i+1] += observed_list[i]\n", " del bin_edges_list[i+1]\n", " else:\n", " expected_list[i-1] += expected_list[i]\n", " observed_list[i-1] += observed_list[i]\n", " del bin_edges_list[i]\n", " del expected_list[i]\n", " del observed_list[i]\n", " else:\n", " # Объединяем с минимальным соседом\n", " if expected_list[i-1] < expected_list[i+1]:\n", " expected_list[i-1] += expected_list[i]\n", " observed_list[i-1] += observed_list[i]\n", " del bin_edges_list[i]\n", " else:\n", " expected_list[i+1] += expected_list[i]\n", " observed_list[i+1] += observed_list[i]\n", " del bin_edges_list[i+1]\n", " del expected_list[i]\n", " del observed_list[i]\n", " else:\n", " i += 1\n", "\n", "# Проверка минимального числа интервалов\n", "if len(expected_list) < 2:\n", " raise ValueError(\"Недостаточно интервалов после объединения!\")\n", "\n", "# Расчет статистики χ²\n", "chi2_stat = np.sum((np.array(observed_list) - np.array(expected_list))**2 / np.array(expected_list))\n", "\n", "# Степени свободы: k - 1 - 1 (k — число интервалов, 1 оцененный параметр)\n", "df = len(expected_list) - 2\n", "chi2_crit = chi2.ppf(1 - alpha2, df)\n", "p_value = 1 - chi2.cdf(chi2_stat, df)\n", "\n", "print(\"\\nТаблица частот после объединения:\")\n", "print(\"Интервал \\tНаблюдаемо\\tОжидаемо\\tВклад в χ²\")\n", "for i in range(len(observed_list)):\n", " lower = bin_edges_list[i]\n", " upper = bin_edges_list[i+1]\n", " contrib = (observed_list[i]-expected_list[i])**2/expected_list[i]\n", " print(f\"[{lower:.2f}, {upper:.2f})\\t\\t{observed_list[i]:^10}\\t{expected_list[i]:.2f}\\t\\t{contrib:.4f}\")\n", "\n", "\n", "# Вывод результатов\n", "print(f\"\\nКритерий χ² для сложной гипотезы:\")\n", "print(f\" Статистика χ²: {chi2_stat:.4f}\")\n", "print(f\" Критическое значение (α={alpha2}): {chi2_crit:.4f}\")\n", "print(f\" p-значение: {p_value:.4f}\")\n", "print(f\" Степени свободы: {df}\")\n", "\n", "if chi2_stat > chi2_crit:\n", " print(f\"Гипотеза отвергается на уровне {alpha2}\")\n", "else:\n", " print(f\"Нет оснований отвергнуть гипотезу на уровне {alpha2}\")\n" ] }, { "cell_type": "code", "execution_count": 26, "id": "28fd5d5e", "metadata": {}, "outputs": [], "source": [ "# import numpy as np\n", "# from scipy.stats import chi2, expon\n", "\n", "\n", "# # Функция для вычисления χ² и объединения интервалов\n", "# def calculate_chi2(lambda_, data, h):\n", "# n = len(data)\n", "# max_val = np.max(data)\n", "# bins = np.arange(0, max_val + h, h)\n", "# if bins[-1] < max_val:\n", "# bins = np.append(bins, bins[-1] + h)\n", "# observed, _ = np.histogram(data, bins=bins)\n", " \n", "# # Теоретические вероятности и ожидаемые частоты\n", "# probs = []\n", "# for i in range(len(bins) - 1):\n", "# cdf_lower = expon.cdf(bins[i], scale=1/lambda_)\n", "# cdf_upper = expon.cdf(bins[i+1], scale=1/lambda_)\n", "# prob = cdf_upper - cdf_lower\n", "# probs.append(prob)\n", "# expected = np.array(probs) * n\n", " \n", "# # Объединение интервалов с expected < 5\n", "# observed_list = observed.tolist()\n", "# expected_list = expected.tolist()\n", "# bin_edges_list = bins.tolist()\n", " \n", "# i = 0\n", "# while i < len(expected_list):\n", "# if expected_list[i] < 5:\n", "# if i == len(expected_list) - 1: # Последний интервал\n", "# expected_list[i-1] += expected_list[i]\n", "# observed_list[i-1] += observed_list[i]\n", "# del expected_list[i]\n", "# del observed_list[i]\n", "# del bin_edges_list[i+1]\n", "# i -= 1 # Проверить новый интервал\n", "# else: # Объединить со следующим интервалом\n", "# expected_list[i] += expected_list[i+1]\n", "# observed_list[i] += observed_list[i+1]\n", "# del expected_list[i+1]\n", "# del observed_list[i+1]\n", "# del bin_edges_list[i+1]\n", "# else:\n", "# i += 1\n", " \n", "# # Вычисление статистики χ²\n", "# chi2_val = 0\n", "# for obs, exp in zip(observed_list, expected_list):\n", "# if exp > 0: # Избегаем деления на ноль\n", "# chi2_val += (obs - exp) ** 2 / exp\n", "# return chi2_val, bin_edges_list, observed_list, expected_list\n", "\n", "# # Поиск λ, минимизирующей χ² в диапазоне [0.2, 0.5]\n", "# lambda_grid = np.arange(0.2, 0.51, 0.001)\n", "# min_chi2 = float('inf')\n", "# lambda_min = None\n", "# results = {}\n", "\n", "# for lambda_val in lambda_grid:\n", "# chi2_val, bin_edges, observed, expected = calculate_chi2(lambda_val, data, h)\n", "# results[lambda_val] = (chi2_val, bin_edges, observed, expected)\n", "# if chi2_val < min_chi2:\n", "# min_chi2 = chi2_val\n", "# lambda_min = lambda_val\n", "\n", "# # Финализация результатов для оптимального λ\n", "# chi2_stat, bin_edges_final, observed_final, expected_final = results[lambda_min]\n", "# k = len(observed_final)\n", "# df = k - 2 # Степени свободы (k интервалов - 1 - 1 параметр)\n", "# chi2_crit = chi2.ppf(1 - alpha2, df)\n", "# p_value = 1 - chi2.cdf(chi2_stat, df)\n", "\n", "# # Вывод результатов\n", "# print(f\"Оптимальное λ, минимизирующее χ²: {lambda_min:.10f}\")\n", "# print(f\"Минимальная статистика χ²: {chi2_stat:.4f}\")\n", "# print(f\"Степени свободы: {df}\")\n", "# print(f\"Критическое значение χ² (α={alpha2}): {chi2_crit:.4f}\")\n", "# print(f\"p-значение: {p_value:.4f}\")\n", "\n", "# # Проверка гипотезы\n", "# if chi2_stat > chi2_crit:\n", "# print(f\"Гипотеза отвергается на уровне {alpha2}\")\n", "# else:\n", "# print(f\"Нет оснований отвергнуть гипотезу на уровне {alpha2}\")\n", "\n", "# # Наибольший уровень значимости, при котором гипотеза не отвергается\n", "# print(f\"Наибольший уровень значимости: {p_value:.4f}\")\n", "\n", "# # Вывод таблицы частот\n", "# print(\"\\nИнтервалы и частоты после объединения:\")\n", "# print(\"Интервал \\tНаблюдаемо\\tОжидаемо\\tВклад в χ²\")\n", "# for i in range(len(observed_final)):\n", "# lower = bin_edges_final[i]\n", "# upper = bin_edges_final[i+1]\n", "# contrib = (observed_final[i] - expected_final[i])**2 / expected_final[i] if expected_final[i] > 0 else 0\n", "# print(f\"[{lower:.2f}, {upper:.2f})\\t{observed_final[i]:10}\\t{expected_final[i]:10.2f}\\t{contrib:.4f}\")" ] }, { "cell_type": "markdown", "id": "ab06e320", "metadata": {}, "source": [ "## Пункт h) Наиболее мощный критерий\n", "Для проверки простой гипотезы $H_0: \\lambda = \\lambda_0$ против альтернативы $H_1: \\lambda = \\lambda_1$ наиболее мощный критерий основан на отношении правдоподобия:\n", "$$\n", "\\Lambda = \\frac{L(\\lambda_0)}{L(\\lambda_1)} = \\frac{\\lambda_0^n e^{-\\lambda_0 \\sum_{i=1}^{n} x_i}}{\\lambda_1^n e^{-\\lambda_1 \\sum_{i=1}^{n} x_i}} = \\left(\\frac{\\lambda_0}{\\lambda_1}\\right)^n e^{-(\\lambda_0-\\lambda_1) \\sum_{i=1}^{n} x_i}\n", "$$\n", "Логарифмируя:\n", "$$\n", "\\ln \\Lambda = n \\ln\\left(\\frac{\\lambda_0}{\\lambda_1}\\right) - (\\lambda_0-\\lambda_1) \\sum_{i=1}^{n} x_i\n", "$$\n", "Критическая область имеет вид $\\ln \\Lambda < c$, где $c$ определяется уровнем значимости $\\alpha_2$." ] }, { "cell_type": "code", "execution_count": 81, "id": "c0c3655a", "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ " Критическая область: sum_data > 179.54\n", " Сумма данных: 139.43\n", " Решение: Не отвергаем H0\n", "\n", "При замене гипотез местами:\n", " Критическая область: sum_data < 294.14\n", " Решение: Отвергаем H0\n" ] } ], "source": [ "# lambda0 = 0.33\n", "# lambda1 = 0.14\n", "# # Наиболее мощный критерий\n", "# # Вычисляем отношение правдоподобия\n", "# log_lambda = n * np.log(lambda0/lambda1) - (lambda0 - lambda1) * np.sum(data)\n", "\n", "# # Критическое значение для уровня значимости alpha2\n", "# # Для экспоненциального распределения можно показать, что критическая область имеет вид:\n", "# # sum(x_i) > c, где c определяется из уровня значимости\n", "# sum_data = np.sum(data)\n", "# c = -np.log(alpha2) / (lambda0 - lambda1) + n * np.log(lambda0/lambda1) / (lambda0 - lambda1)\n", "\n", "# print(f\"Сумма наблюдений: {sum_data:.4f}\")\n", "# print(f\"Критическое значение c: {c:.4f}\")\n", "# print(f\"Логарифм отношения правдоподобия: {log_lambda:.4f}\")\n", "\n", "# if sum_data > c:\n", "# print(f\"Отвергаем H0: λ = {lambda0} в пользу H1: λ = {lambda1}\")\n", "# else:\n", "# print(f\"Нет оснований отвергнуть H0: λ = {lambda0}\")\n", "\n", "# # Если поменять местами гипотезы\n", "# log_lambda_reversed = n * np.log(lambda1/lambda0) - (lambda1 - lambda0) * np.sum(data)\n", "# c_reversed = -np.log(alpha2) / (lambda1 - lambda0) + n * np.log(lambda1/lambda0) / (lambda1 - lambda0)\n", "\n", "# print(\"\\nЕсли поменять местами гипотезы:\")\n", "# print(f\"Критическое значение c: {c_reversed:.4f}\")\n", "# print(f\"Логарифм отношения правдоподобия: {log_lambda_reversed:.4f}\")\n", "\n", "# if sum_data < c_reversed:\n", "# print(f\"Отвергаем H0: λ = {lambda1} в пользу H1: λ = {lambda0}\")\n", "# else:\n", "# print(f\"Нет оснований отвергнуть H0: λ = {lambda1}\")\n", "\n", "\n", "# h) Наиболее мощный критерий\n", "from scipy.stats import gamma\n", "\n", "alpha2 = 0.10\n", "n = len(data)\n", "sum_data = sum(data)\n", "\n", "# Для H0: λ=0.33, сумма данных ~ Gamma(n, 1/0.33)\n", "c = gamma.ppf(1 - alpha2, n, scale=1/lambda0) # Квантиль уровня 1-α\n", "\n", "print(f\" Критическая область: sum_data > {c:.2f}\")\n", "print(f\" Сумма данных: {sum_data:.2f}\")\n", "print(f\" Решение: {'Отвергаем H0' if sum_data > c else 'Не отвергаем H0'}\")\n", "\n", "# Для обратной гипотезы (H0: λ=0.14 vs H1: λ=0.33)\n", "c_reversed = gamma.ppf(alpha2, n, scale=1/lambda1) # Квантиль уровня α\n", "print(f\"\\nПри замене гипотез местами:\")\n", "print(f\" Критическая область: sum_data < {c_reversed:.2f}\")\n", "print(f\" Решение: {'Отвергаем H0' if sum_data < c_reversed else 'Не отвергаем H0'}\")" ] } ], "metadata": { "kernelspec": { "display_name": "venv", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.13.2" } }, "nbformat": 4, "nbformat_minor": 5 }