GENEXOM: многоуровневый аннотированный корпус русскоязычных клинических заключений по экзомному секвенированию
Семинар: Проблемы моделирования медико-биологических систем
Начало заседания: 14:00
Дата выступления: 15 Май 2026
Организация: Международный университет Астана
Авторы: Султангазиева Анар Несипбековна
Развитие технологий NGS-секвенирования генерирует растущий поток клинических WES-заключений на русском языке, обработка которых вручную становится невозможной. В докладе представлен GENEXOM — первый корпус своего класса, объединяющий русскоязычные клинические заключения по экзомному секвенированию с многоуровневой аннотацией: 16 типов именованных сущностей и 7 типов семантических связей, отражающих реальную логику рассуждения клинического генетика. На основе корпуса обучены и оценены модели извлечения информации (NER: F1 = 0.88, RE: F1 = 0.836 на базе ModernBERT), а схема сущностей и связей служит фундаментом для построения OWL-онтологии клинической генетики и интеграции в биомедицинские графы знаний. Корпус и baseline-модели публикуются в открытом репозитории для поддержки дальнейших исследований в области клинического NLP.
Семинар пройдёт в смешанном формате:
- Очное заседание: конференц-зал ФИЦ ИВТ (пр-т Лаврентьева 6, к.513)
- Онлайн-подключение: будет по ссылке https://vcs-6.ict.nsc.ru/rooms/1is-hju-7y3-id0/join


