\documentclass[a4paper, final]{article} %\usepackage{literat} % Нормальные шрифты \usepackage[14pt]{extsizes} % для того чтобы задать нестандартный 14-ый размер шрифта \usepackage{tabularx} \usepackage{booktabs} \usepackage[T2A]{fontenc} \usepackage[utf8]{inputenc} \usepackage[russian]{babel} \usepackage{amsmath} \usepackage[left=25mm, top=20mm, right=20mm, bottom=20mm, footskip=10mm]{geometry} \usepackage{ragged2e} %для растягивания по ширине \usepackage{setspace} %для межстрочного интервала \usepackage{moreverb} %для работы с листингами \usepackage{indentfirst} % для абзацного отступа \usepackage{moreverb} %для печати в листинге исходного кода программ \usepackage{pdfpages} %для вставки других pdf файлов \usepackage{tikz} \usepackage{graphicx} \usepackage{afterpage} \usepackage{longtable} \usepackage{float} % Рекомендуется для biblatex (кавычки/локализация цитат и т.п.) \usepackage{csquotes} % ГОСТ-стили для biblatex \usepackage[ backend=biber, bibstyle=gost-numeric, % ссылки вида: [1] citestyle=gost-numeric, sorting=none % порядок в списке = по первому цитированию ]{biblatex} % Все источники хранятся в отдельном файле \addbibresource{refs.bib} \renewcommand*{\bibfont}{\small} % \usepackage[paper=A4,DIV=12]{typearea} \usepackage{pdflscape} % \usepackage{lscape} \usepackage{array} \usepackage{multirow} \renewcommand\verbatimtabsize{4\relax} \renewcommand\listingoffset{0.2em} %отступ от номеров строк в листинге \renewcommand{\arraystretch}{1.4} % изменяю высоту строки в таблице \usepackage[font=small, singlelinecheck=false, justification=centering, format=plain, labelsep=period]{caption} %для настройки заголовка таблицы \usepackage{listings} %листинги \usepackage{xcolor} % цвета % \usepackage{hyperref}% для гиперссылок \usepackage{enumitem} %для перечислений \newcommand{\specialcell}[2][l]{\begin{tabular}[#1]{@{}l@{}}#2\end{tabular}} \setlist[enumerate,itemize]{leftmargin=1.2cm} %отступ в перечислениях % \hypersetup{colorlinks, % allcolors=[RGB]{010 090 200}} %красивые гиперссылки (не красные) % подгружаемые языки — подробнее в документации listings (это всё для листингов) \lstloadlanguages{ SQL} % включаем кириллицу и добавляем кое−какие опции \lstset{tabsize=2, breaklines, basicstyle=\footnotesize, columns=fullflexible, flexiblecolumns, numbers=left, numberstyle={\footnotesize}, keywordstyle=\color{blue}, inputencoding=cp1251, extendedchars=true } \lstdefinelanguage{MyC}{ language=SQL, % ndkeywordstyle=\color{darkgray}\bfseries, % identifierstyle=\color{black}, % morecomment=[n]{/**}{*/}, % commentstyle=\color{blue}\ttfamily, % stringstyle=\color{red}\ttfamily, % morestring=[b]", % showstringspaces=false, % morecomment=[l][\color{gray}]{//}, keepspaces=true, escapechar=\%, texcl=true } \textheight=24cm % высота текста \textwidth=16cm % ширина текста \oddsidemargin=0pt % отступ от левого края \topmargin=-1.5cm % отступ от верхнего края \parindent=24pt % абзацный отступ \parskip=5pt % интервал между абзацами \tolerance=2000 % терпимость к "жидким" строкам \flushbottom % выравнивание высоты страниц % Настройка листингов \lstset{ language=python, extendedchars=\true, inputencoding=utf8, keepspaces=true, % captionpos=b, % подписи листингов снизу } % Настройка содержания \usepackage{tocloft} \usepackage[hidelinks]{hyperref} % section в содержании НЕ жирным \renewcommand{\cftsecfont}{\normalfont} \renewcommand{\cftsecpagefont}{\normalfont} % убрать отступ у subsection \setlength{\cftsubsecindent}{0pt} % subsubsection курсивом \usepackage{titlesec} \titleformat{\subsubsection} {\normalfont\large\itshape} % стиль: обычный + курсив {\thesubsubsection} % номер (убери если не нужен) {1em} {} \begin{document} % ТИТУЛЬНЫЙ ЛИСТ \begin{center} \hfill \break \hfill \break \normalsize{МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ\\ федеральное государственное автономное образовательное учреждение высшего образования «Санкт-Петербургский политехнический университет Петра Великого»\\[10pt]} \normalsize{Институт компьютерных наук и кибербезопасности}\\[10pt] \normalsize{Высшая школа технологий искусственного интеллекта}\\[10pt] \normalsize{Направление: 02.03.01 <<Математика и компьютерные науки>>}\\ \hfill \break \hfill \break \hfill \break \large{Курсовой проект}\\ \large{<<Подбор оптимальной конфигурации модульной системы автоматического протоколирования совещаний с помощью генетических алгоритмов>>}\\ \large{по дисциплине <<Генетические алгоритмы>>}\\ \hfill \break \hfill \break \end{center} \small{ \begin{tabular}{lrrl} \!\!\!Студент, & \hspace{2cm} & & \\ \!\!\!группы 5130201/20101 & \hspace{2cm} & \underline{\hspace{3cm}} & Тищенко А. А. \\\\ \!\!\!Руководитель, & \hspace{2cm} & & \\ \!\!\!профессор, д.т.н. & \hspace{2cm} & \underline{\hspace{3cm}} & Большаков А. А. \\\\ &&\hspace{4cm} \end{tabular} \begin{flushright} <<\underline{\hspace{1cm}}>>\underline{\hspace{2.5cm}} 2026г. \end{flushright} } \hfill \break \begin{center} \small{Санкт-Петербург, 2026} \end{center} \thispagestyle{empty} % выключаем отображение номера для этой страницы \newpage \section*{Задание} Задание по выполнению курсового проекта студенту Тищенко Артёму Андреевичу, гр. 5130201/20101: \begin{enumerate} \item Тема работы: <<Подбор оптимальной конфигурации модульной системы автоматического протоколирования совещаний с помощью генетических алгоритмов>>. \begin{itemize} \item Скобцов, Ю. А. Эволюционные вычисления: Учебное пособие / Ю. А. Скобцов, Д. В. Сперанский. – М.: Национальный Открытый Университет «ИНТУИТ», 2012. – 331с., ил. – (Серия «Основы информационных технологий»). \item Building Real-World Meeting Summarization Systems using Large Language Models: A Practical Perspective / M. T. R. Laskar [и~др.]. — 2023. — arXiv: 2310.19233 [cs.CL]. — Режим доступа: https://arxiv.org/abs/2310.19233 (дата обр. 10.01.2026). \item The AMI meeting corpus / W. Kraaij [и~др.] // Proc. International Conference on Methods and Techniques in Behavioral Research. — 2005. — С. 1–4. \end{itemize} \item Содержание работы (перечень подлежащих разработке вопросов): \begin{enumerate}[label=\arabic{enumi}.\arabic*, ref=\arabic{enumi}.\arabic*] \item Краткое описание задачи автоматического протоколирования совещаний; \item Постановка задачи подбора оптимальной конфигурации системы автоматического протоколирования; \item Системный анализ архитектуры системы автоматического протоколирования и факторов, влияющих на качество её работы; \item Разработка генетического алгоритма для подбора оптимальной конфигурации модульного пайплайна автоматического протоколирования; \item Анализ результатов апробации разработанного алгоритма; \item Заключение по работе. \end{enumerate} \item Дата выдачи задания «13» февраля 2026 г. \end{enumerate} \noindent \begin{tabular}{@{}p{4cm} >{\centering\arraybackslash}p{7cm} >{\raggedleft\arraybackslash}p{4cm}@{}} Преподаватель & \rule{7cm}{0.4pt} & Большаков А.А. \\[-0.2cm] & (подпись) & (инициалы, фамилия) \end{tabular} \vspace{0.1cm} \noindent Задание принял к исполнению «13» февраля 2026 г. \noindent \begin{tabular}{@{}p{4cm} >{\centering\arraybackslash}p{7cm} >{\raggedleft\arraybackslash}p{4cm}@{}} Студент & \rule{7cm}{0.4pt} & Тищенко А.~А. \\[-0.2cm] & (подпись) & (инициалы, фамилия) \end{tabular} % СОДЕРЖАНИЕ \newpage \tableofcontents \newpage \section*{Введение} \addcontentsline{toc}{section}{Введение} Совещания являются основным способом передачи информации в крупных организациях, однако информация часто теряется из-за забывчивости участников и отсутствия на встречах части коллег. Протоколирование позволяет зафиксировать ключевые решения и распространить их среди всех заинтересованных сторон. С технической точки зрения задача автоматического протоколирования представляет собой последовательность этапов: транскрибация (преобразование аудио в текст), диаризация (определение говорящих) и суммаризация (формирование протокола). Актуальность задачи возросла с распространением удалённой работы~\cite{yandex-research-calendar}, а развитие глубокого обучения и больших языковых моделей~\cite{whisper} сделало создание качественных систем возможным~\cite{auto-meet, building-real-world-meeting-summarization,end-to-end-speech-summarization, meetalk}. Однако большинство исследований ориентированы на английский язык, а для русского языка отсутствуют полноценные датасеты и целостные решения. В рамках данной работы предлагается разработать модульную систему автоматического протоколирования для русского языка, основанную на последовательном выполнении транскрибации, диаризации и суммаризации. Каждый модуль системы может быть реализован различными алгоритмами и моделями, что приводит к большому числу возможных конфигураций пайплайна. В данной курсовой работе предлагается применить генетический алгоритм для подбора оптимальной конфигурации такого пайплайна под заданные ограничения по качеству и вычислительным ресурсам~\cite{skobtsov-evolution}. \newpage \section{Актуальность темы} Актуальность автоматического протоколирования особенно возросла из-за распространения удалённой и гибридной работы: количество записываемых встреч растёт, а ручная обработка и анализ их содержания становятся практически невозможными. При этом качественный протокол требует не только точной транскрибации, но и восстановления структуры диалога и причинно-следственных связей, чтобы документ отражал ход обсуждения и его результат. На практике наиболее распространённый сценарий — обработка моноканальных записей без разделения дорожек по говорящим. В типичных совещаниях число участников может достигать 10–15 человек, присутствуют перебивания и быстрые смены говорящего, а ошибки диаризации дают каскадный эффект и напрямую ухудшают качество итогового протокола, особенно при фиксации поручений и ответственных. Дополнительные ограничения связаны с необходимостью локального развёртывания без внешних API и с лимитами вычислительных ресурсов (например, одна видеокарта до 16 ГБ или CPU), а также с большой длиной стенограмм. В таких условиях выбор “лучшей” комбинации моделей и параметров становится нетривиальной многокритериальной задачей: нужно одновременно учитывать качество транскрибации, диаризации и суммаризации и ограничения по ресурсам. Генетические алгоритмы являются естественным инструментом для поиска близких к оптимальным решений в больших пространствах конфигураций при наличии ограничений и нескольких критериев качества. \newpage \section{Постановка задачи} В данной работе необходимо: \begin{enumerate} \item Описать модульную схему системы автоматического протоколирования совещаний как последовательность этапов (транскрибация, диаризация, суммаризация) и определить набор альтернативных компонентов/параметров (пространство конфигураций). \item Сформулировать целевую функцию (фитнес) для оценки конфигурации на основе метрик качества: WER для транскрибации, DER для диаризации, метрик суммаризации/протокола (ROUGE/BERTScore и QA-метрики), а также учесть ограничения на ресурсы и требования локального запуска. \item Разработать и реализовать генетический алгоритм для поиска оптимальной (или близкой к оптимальной) конфигурации пайплайна: кодирование хромосомы, операторы селекции/кроссовера/мутации, критерии остановки. \item Провести экспериментальную апробацию на тестовом наборе совещаний (или собранном датасете), сравнить результаты ГА с базовыми стратегиями подбора и проанализировать полученные конфигурации с точки зрения качества и вычислительных затрат \end{enumerate} \newpage \section{Моделирование процесса автоматического протоколирования совещаний} \newpage \section{Разработка методики оценки качества протоколирования} \newpage \section{Обзор современных методов и технологий автоматического протоколирования совещаний} \newpage \section{Описание генетического алгоритма для подбора оптимальной конфигурации пайплайна} \newpage \section{Реализация генетического алгоритма и экспериментального стенда} \newpage \section{Демонстрация применения алгоритма и анализ результатов} \newpage \section*{Заключение} \addcontentsline{toc}{section}{Заключение} \newpage \printbibliography[heading=bibintoc] \end{document}