GENEXOM: многоуровневый аннотированный корпус русскоязычных клинических заключений по экзомному секвенированию

Семинар: Проблемы моделирования медико-биологических систем
Начало заседания: 14:00

Дата выступления: 15 Май 2026

Организация: Международный университет Астана

Авторы: Султангазиева Анар Несипбековна

Развитие технологий NGS-секвенирования генерирует растущий поток клинических WES-заключений на русском языке, обработка которых вручную становится невозможной. В докладе представлен GENEXOM — первый корпус своего класса, объединяющий русскоязычные клинические заключения по экзомному секвенированию с многоуровневой аннотацией: 16 типов именованных сущностей и 7 типов семантических связей, отражающих реальную логику рассуждения клинического генетика. На основе корпуса обучены и оценены модели извлечения информации (NER: F1 = 0.88, RE: F1 = 0.836 на базе ModernBERT), а схема сущностей и связей служит фундаментом для построения OWL-онтологии клинической генетики и интеграции в биомедицинские графы знаний. Корпус и baseline-модели публикуются в открытом репозитории для поддержки дальнейших исследований в области клинического NLP.

 

Семинар пройдёт в смешанном формате: