Многометочная классификация научных статей по УДК в условиях дисбаланса классов: ансамблевый подход и веб-сервис на FastAPI
Семинар: Информационные технологии
Начало заседания: 14:35
Дата выступления: 14 Апрель 2026
Организация: ФИЦ ИВТ (Новоибирск)
Авторы: Леонова Юлия Викторовна
В докладе рассматривается задача многометочной классификации научных статей по УДК в условиях сильного дисбаланса классов. Предложен ансамблевый подход, который объединяет модели логистической регрессии, SVM и случайного леса с оптимизацией весов и порогов классификации. Для повышения полноты редких классов применён метод индивидуальных порогов, настраиваемых на валидационной выборке по сглаженной F-мере. Разработан веб-сервис на FastAPI, обеспечивающий загрузку данных, обучение моделей и предсказание кодов УДК. Для мониторинга работы системы и сравнения моделей создан интерактивный дашборд на Streamlit, визуализирующий динамику запросов, распределение уверенности и частоту предсказываемых классов. Эксперименты показали, что ансамбль достигает значения F1-micro 0.55, а индивидуальные пороги позволяют улучшить F1-macro на 15% по сравнению с единым порогом. Предложенное решение может быть использовано для автоматизации рубрикации научных публикаций и анализа тематических коллекций.
Трансляция семинара будет осуществляться на платформе BigBlueButton по ссылке: https://vcs-6.ict.nsc.ru/rooms/nmm-jge-zjd/join.


