Разработка алгоритма классификации библиотечных карточек по тематике «Строительство и городская среда»
Семинар: Информационно-вычислительные технологии в задачах поддержки принятия решений
Начало заседания: 11:00
Дата выступления: 6 Май 2025
Организация: НГУ
Авторы: Мищенко Александр Сергеевич
Для любой библиотеки первостепенно важно эффективно организовать процесс поиска информации и обеспечить быстрый доступ к требуемым ресурсам. Точная каталогизация играет в этом решающую роль, позволяя систематизировать материалы и облегчить их поиск. Однако ручные методы каталогизации требуют значительных временных и трудовых затрат, в то время как внедрение автоматизированных систем сталкивается с определенными трудностями.
Постановка задачи - разработать и оценить алгоритм, способный автоматически классифицировать библиотечные карточки по тематике «Строительство и городская среда» с использованием современных методов обработки естественного языка (NLP), для повышения эффективности процесса каталогизации в условиях ограниченной обучающей выборки. В результате создан гибридный алгоритм, совмещающий в себе архитектуру трансформеров для извлечения признаков, и градиентный бустинг на решающий деревьях для классификации. Проведена оценка его работы на отложенной тестовой выборке. Исследовано применение методов активного обучения для повышения эффективности модели и показано, что активное обучение позволяет сократить объем необходимых размеченных данных для достижения высокого качества классификации, тем самым снижая трудозатраты на внедрение и дообучение системы.
Семинар будет проведен в смешанном формате. Очное заседание пройдет в конференц-зале ФИЦ ИВТ (к.513), дистанционно к семинару можно будет подключиться по ссылке https://vcs-6.ict.nsc.ru/rooms/grz-ayy-7ne/join
Для студентов и аспирантов, находящихся в Новосибирске и не имеющих причин для дистанционного подключения, очное присутствие обязательно.