\documentclass[a4paper, final]{article}
%\usepackage{literat} % Нормальные шрифты
\usepackage[14pt]{extsizes} % для того чтобы задать нестандартный 14-ый размер шрифта
\usepackage{tabularx}
\usepackage{booktabs}
\usepackage[T2A]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage[russian]{babel}
\usepackage{amsmath}
\usepackage[left=25mm, top=20mm, right=20mm, bottom=20mm, footskip=10mm]{geometry}
\usepackage{ragged2e} %для растягивания по ширине
\usepackage{setspace} %для межстрочного интервала
\usepackage{moreverb} %для работы с листингами
\usepackage{indentfirst} % для абзацного отступа
\usepackage{moreverb} %для печати в листинге исходного кода программ
\usepackage{pdfpages} %для вставки других pdf файлов
\usepackage{tikz}
\usepackage{graphicx}
\usepackage{afterpage}
\usepackage{longtable}
\usepackage{float}

% Рекомендуется для biblatex (кавычки/локализация цитат и т.п.)
\usepackage{csquotes}

% ГОСТ-стили для biblatex
\usepackage[
  backend=biber,
  bibstyle=gost-numeric, % ссылки вида: [1]
  citestyle=gost-numeric,
  sorting=none % порядок в списке = по первому цитированию
]{biblatex}

% Все источники хранятся в отдельном файле
\addbibresource{refs.bib}

\renewcommand*{\bibfont}{\small}

% \usepackage[paper=A4,DIV=12]{typearea}
\usepackage{pdflscape}
% \usepackage{lscape}

\usepackage{array}
\usepackage{multirow}

\renewcommand\verbatimtabsize{4\relax}
\renewcommand\listingoffset{0.2em} %отступ от номеров строк в листинге
\renewcommand{\arraystretch}{1.4} % изменяю высоту строки в таблице
\usepackage[font=small, singlelinecheck=false, justification=centering, format=plain, labelsep=period]{caption} %для настройки заголовка таблицы
\usepackage{listings} %листинги
\usepackage{xcolor} % цвета
% \usepackage{hyperref}% для гиперссылок
\usepackage{enumitem} %для перечислений

\newcommand{\specialcell}[2][l]{\begin{tabular}[#1]{@{}l@{}}#2\end{tabular}}


\setlist[enumerate,itemize]{leftmargin=1.2cm} %отступ в перечислениях

% \hypersetup{colorlinks,
    % allcolors=[RGB]{010 090 200}} %красивые гиперссылки (не красные)

% подгружаемые языки — подробнее в документации listings (это всё для листингов)
\lstloadlanguages{ SQL}
% включаем кириллицу и добавляем кое−какие опции
\lstset{tabsize=2,
    breaklines,
    basicstyle=\footnotesize,
    columns=fullflexible,
    flexiblecolumns,
    numbers=left,
    numberstyle={\footnotesize},
    keywordstyle=\color{blue},
    inputencoding=cp1251,
    extendedchars=true
}
\lstdefinelanguage{MyC}{
    language=SQL,
%    ndkeywordstyle=\color{darkgray}\bfseries,
%    identifierstyle=\color{black},
%    morecomment=[n]{/**}{*/},
%    commentstyle=\color{blue}\ttfamily,
%    stringstyle=\color{red}\ttfamily,
%    morestring=[b]",
%    showstringspaces=false,
%    morecomment=[l][\color{gray}]{//},
    keepspaces=true,
    escapechar=\%,
    texcl=true
}

\textheight=24cm % высота текста
\textwidth=16cm % ширина текста
\oddsidemargin=0pt % отступ от левого края
\topmargin=-1.5cm % отступ от верхнего края
\parindent=24pt % абзацный отступ
\parskip=5pt % интервал между абзацами
\tolerance=2000 % терпимость к "жидким" строкам
\flushbottom % выравнивание высоты страниц


% Настройка листингов
\lstset{
    language=python,
    extendedchars=\true,
    inputencoding=utf8,
    keepspaces=true,
    % captionpos=b, % подписи листингов снизу
}

% Настройка содержания
\usepackage{tocloft}
\usepackage[hidelinks]{hyperref}

% section в содержании НЕ жирным
\renewcommand{\cftsecfont}{\normalfont}
\renewcommand{\cftsecpagefont}{\normalfont}

% убрать отступ у subsection
\setlength{\cftsubsecindent}{0pt}

% subsubsection курсивом
\usepackage{titlesec}

\titleformat{\subsubsection}
  {\normalfont\large\itshape} % стиль: обычный + курсив
  {\thesubsubsection}   % номер (убери если не нужен)
  {1em}
  {}


\begin{document}
% ТИТУЛЬНЫЙ ЛИСТ
\begin{center}
    \hfill \break
    \hfill \break
    \normalsize{МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ\\
        федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский политехнический университет Петра Великого»\\[10pt]}
    \normalsize{Институт компьютерных наук и кибербезопасности}\\[10pt] 
    \normalsize{Высшая школа технологий искусственного интеллекта}\\[10pt] 
    \normalsize{Направление: 02.03.01 <<Математика и компьютерные науки>>}\\
    
    \hfill \break
    \hfill \break
    \hfill \break
    \large{Курсовой проект}\\
    \large{<<Подбор оптимальной конфигурации модульной системы автоматического протоколирования совещаний с помощью генетических алгоритмов>>}\\
    \large{по дисциплине <<Генетические алгоритмы>>}\\
    
    \hfill \break
    \hfill \break
\end{center}

\small{ 
    \begin{tabular}{lrrl}
        \!\!\!Студент, & \hspace{2cm} & & \\
        \!\!\!группы 5130201/20101 & \hspace{2cm} & \underline{\hspace{3cm}} & Тищенко А. А. \\\\
        \!\!\!Руководитель, & \hspace{2cm} & & \\
        \!\!\!профессор, д.т.н. & \hspace{2cm} & \underline{\hspace{3cm}} & Большаков А. А. \\\\
        &&\hspace{4cm}
    \end{tabular}
    \begin{flushright}
        <<\underline{\hspace{1cm}}>>\underline{\hspace{2.5cm}} 2026г.
    \end{flushright}
}

\hfill \break
\begin{center} \small{Санкт-Петербург, 2026} \end{center}
\thispagestyle{empty} % выключаем отображение номера для этой страницы


\newpage
\section*{Задание}

Задание по выполнению курсового проекта студенту Тищенко Артёму Андреевичу, гр. 5130201/20101:

\begin{enumerate}
    \item Тема работы: <<Подбор оптимальной конфигурации модульной системы автоматического протоколирования совещаний с помощью генетических алгоритмов>>.
    \begin{itemize}
        \item Скобцов, Ю. А. Эволюционные вычисления: Учебное пособие / Ю. А. Скобцов, Д. В. Сперанский. – М.: Национальный Открытый Университет «ИНТУИТ», 2012. – 331с., ил. – (Серия «Основы информационных технологий»).
        \item Building Real-World Meeting Summarization Systems using Large Language Models: A Practical Perspective / M. T. R. Laskar [и~др.]. — 2023. — arXiv: 2310.19233 [cs.CL]. — Режим доступа: https://arxiv.org/abs/2310.19233 (дата обр. 10.01.2026).
        \item The AMI meeting corpus / W. Kraaij [и~др.] // Proc. International Conference on Methods and Techniques in Behavioral Research. — 2005. — С. 1–4.
    \end{itemize}
    \item Содержание работы (перечень подлежащих разработке вопросов):
    \begin{enumerate}[label=\arabic{enumi}.\arabic*, ref=\arabic{enumi}.\arabic*]
        \item Краткое описание задачи автоматического протоколирования совещаний;
        \item Постановка задачи подбора оптимальной конфигурации системы автоматического протоколирования;
        \item Системный анализ архитектуры системы автоматического протоколирования и факторов, влияющих на качество её работы;
        \item Разработка генетического алгоритма для подбора оптимальной конфигурации модульного пайплайна автоматического протоколирования;
        \item Анализ результатов апробации разработанного алгоритма;
        \item Заключение по работе.
    \end{enumerate}
    \item Дата выдачи задания «13» февраля 2026 г.
\end{enumerate}

\noindent
\begin{tabular}{@{}p{4cm} >{\centering\arraybackslash}p{7cm} >{\raggedleft\arraybackslash}p{4cm}@{}}
Преподаватель 
& \rule{7cm}{0.4pt} 
& Большаков А.А. \\[-0.2cm]
& (подпись) 
& (инициалы, фамилия)
\end{tabular}

\vspace{0.1cm}

\noindent
Задание принял к исполнению «13» февраля 2026 г.

\noindent
\begin{tabular}{@{}p{4cm} >{\centering\arraybackslash}p{7cm} >{\raggedleft\arraybackslash}p{4cm}@{}}
Студент 
& \rule{7cm}{0.4pt} 
& Тищенко А.~А. \\[-0.2cm]
& (подпись) 
& (инициалы, фамилия)
\end{tabular}


% СОДЕРЖАНИЕ
\newpage

\tableofcontents

\newpage
\section*{Введение}
\addcontentsline{toc}{section}{Введение}

Совещания являются основным способом передачи информации в крупных организациях, однако информация часто теряется из-за забывчивости участников и отсутствия на встречах части коллег. Протоколирование позволяет зафиксировать ключевые решения и распространить их среди всех заинтересованных сторон.

С технической точки зрения задача автоматического протоколирования представляет собой последовательность этапов: транскрибация (преобразование аудио в текст), диаризация (определение говорящих) и суммаризация (формирование протокола). Актуальность задачи возросла с распространением удалённой работы~\cite{yandex-research-calendar}, а развитие глубокого обучения и больших языковых моделей~\cite{whisper} сделало создание качественных систем возможным~\cite{auto-meet, building-real-world-meeting-summarization,end-to-end-speech-summarization, meetalk}.

Однако большинство исследований ориентированы на английский язык, а для русского языка отсутствуют полноценные датасеты и целостные решения. В рамках данной работы предлагается разработать модульную систему автоматического протоколирования для русского языка, основанную на последовательном выполнении транскрибации, диаризации и суммаризации. Каждый модуль системы может быть реализован различными алгоритмами и моделями, что приводит к большому числу возможных конфигураций пайплайна. В данной курсовой работе предлагается применить генетический алгоритм для подбора оптимальной конфигурации такого пайплайна под заданные ограничения по качеству и вычислительным ресурсам~\cite{skobtsov-evolution}.

\newpage
\section{Актуальность темы}

Актуальность автоматического протоколирования особенно возросла из-за распространения удалённой и гибридной работы: количество записываемых встреч растёт, а ручная обработка и анализ их содержания становятся практически невозможными. При этом качественный протокол требует не только точной транскрибации, но и восстановления структуры диалога и причинно-следственных связей, чтобы документ отражал ход обсуждения и его результат.

На практике наиболее распространённый сценарий — обработка моноканальных записей без разделения дорожек по говорящим. В типичных совещаниях число участников может достигать 10–15 человек, присутствуют перебивания и быстрые смены говорящего, а ошибки диаризации дают каскадный эффект и напрямую ухудшают качество итогового протокола, особенно при фиксации поручений и ответственных. Дополнительные ограничения связаны с необходимостью локального развёртывания без внешних API и с лимитами вычислительных ресурсов (например, одна видеокарта до 16 ГБ или CPU), а также с большой длиной стенограмм.

В таких условиях выбор “лучшей” комбинации моделей и параметров становится нетривиальной многокритериальной задачей: нужно одновременно учитывать качество транскрибации, диаризации и суммаризации и ограничения по ресурсам. Генетические алгоритмы являются естественным инструментом для поиска близких к оптимальным решений в больших пространствах конфигураций при наличии ограничений и нескольких критериев качества.


\newpage
\section{Постановка задачи}

В данной работе необходимо:

\begin{enumerate}
    \item Описать модульную схему системы автоматического протоколирования совещаний как последовательность этапов (транскрибация, диаризация, суммаризация) и определить набор альтернативных компонентов/параметров (пространство конфигураций).

    \item Сформулировать целевую функцию (фитнес) для оценки конфигурации на основе метрик качества: WER для транскрибации, DER для диаризации, метрик суммаризации/протокола (ROUGE/BERTScore и QA-метрики), а также учесть ограничения на ресурсы и требования локального запуска.

    \item Разработать и реализовать генетический алгоритм для поиска оптимальной (или близкой к оптимальной) конфигурации пайплайна: кодирование хромосомы, операторы селекции/кроссовера/мутации, критерии остановки.

    \item Провести экспериментальную апробацию на тестовом наборе совещаний (или собранном датасете), сравнить результаты ГА с базовыми стратегиями подбора и проанализировать полученные конфигурации с точки зрения качества и вычислительных затрат
\end{enumerate}


\newpage
\section{Моделирование процесса автоматического протоколирования совещаний}

\newpage
\section{Разработка методики оценки качества протоколирования}

\newpage
\section{Обзор современных методов и технологий автоматического протоколирования совещаний}

\newpage
\section{Описание генетического алгоритма для подбора оптимальной конфигурации пайплайна}

\newpage
\section{Реализация генетического алгоритма и экспериментального стенда}

\newpage
\section{Демонстрация применения алгоритма и анализ результатов}

\newpage
\section*{Заключение}
\addcontentsline{toc}{section}{Заключение}

\newpage
\printbibliography[heading=bibintoc]


\end{document}