Информация о проекте

Локальный номер: 287
Тип проекта: Российский научный фонд
Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами
Шифр проекта: 19-14-00295
Название: Интеграция и анализ омиксных данных по регуляции транскрипции, оценка влияния SNV
Руководитель: Колпаков Ф.А. (ФИЦ ИВТ)
Исполнитель: Кондрахин Ю.В. (ИВТ СО РАН), Евшин И.С. (ИВТ СО РАН), Колмыков С.К. (ИВТ СО РАН), Кутумова Е.О. (ИВТ СО РАН), Киселев И.Н. (ИВТ СО РАН), Пинтус С.С. (ИВТ СО РАН), Рябова А.С. (ИВТ СО РАН), Мандрик Н.В. (ИВТ СО РАН), Куляшов М.А. (ИВТ СО РАН)
Аннотация: Современные методы высокопроизводительных исследований генерируют огромный массив информации по ключевым факторам регуляции транскрипции, в частности: - сайты связывания транскрипционных факторов (ССТФ) - основные экспериментальные методы: ChIP-seq, ChIP-exo, ChIP-nexus; - доступность хроматина - DNase-seq, ATAC-seq, FAIRE-seq; - гистоновые модификации - ChIP-seq; - сайты метилирования - WGBS, RRBS, methyl array; - сайты инициации транскрипции - CAGE; - уровень экспрессии соответствующих генов - CAGE, RNA-seq; - данные по влиянию SNV на экспрессию генов - eQTL, GWAS. Все эти типы данных будут использованы в предлагаемом проекте. Перечисленные выше типы данных были получены как большими международными консорциумами: - ENCODE (https://www.encodeproject.org/) - создана энциклопедия регуляторных ДНК элементов; - FANTOM 5 (http://fantom.gsc.riken.jp/5/) - создана функциональная аннотация и охарактеризованы уровни экспрессии функциональных участков ДНК; - Roadmap Epigenomics Project (http://www.roadmapepigenomics.org/) - собраны данные по эпигеномике и метилированию ДНК, - GTEx - Genotype-Tissue Expression – создана коллекция вариаций генной экспрессии среди индивидуумов и в 44 различных тканях тела человека, а также паттернов тканеспецифичности для выявления генетических основ болезней человека; так и отдельными лабораториями. Исходные данные таких экспериментов представлены в специализированных хранилищах данных, основными из которых являются Sequence Read Archive (SRA; https://www.ncbi.nlm.nih.gov/sra) и Gene Expression Omnibus (GEO; https://www.ncbi.nlm.nih.gov/geo/). Однако все вышеупомянутые данные недостаточно интегрированы друг с другом, что существенно затрудняет их совместное использование как для понимания механизмов регуляции транскрипции, так и для решения практических задач - например, для предсказания возможных эффектов одиночных нуклеотидных замен (SNV) в регуляторных районах генов. Хотя регуляция транскрипции осуществляется на разных уровнях при помощи разных механизмов, транскрипционные факторы (ТФ) и их сайты связывания (ССТФ) являются основными компонентами регуляции транскрипции. Поэтому поиск функциональных ССТФ и выявление их вклада в регуляцию транскрипции соответствующих генов остается “горячей” точкой современной биологии. Несмотря на большие объемы накопленных экспериментальных данных и достаточно большой набор методов компьютерного анализа, мы можем выделить как минимум четыре проблемы, связанные с этой задачей, не решенные до сих пор: 1) идентификация ССТФ - и экспериментальные методы, и компьютерные методы до сих пор имеют ряд нерешенных проблем. В частности, для экспериментальных методов проблема возникает по нескольким причинам: - большое количество повторов в геноме, которые создают "черные дыры" для методов секвенирования (Next-Generation Sequencing; NGS); - несовершенство методов поиска ССТФ по данным ChIP-seq и DNase-seq, - неспособность отличить связывание через посредников от прямого связывания. В случае компьютерных методов проблема возникает при распознавании ССТФ со слабо выраженным или отсутствующим мотивом. 2) клеточная специфичность ССТФ - набор ССТФ для одного и того же ТФ может существенно отличаться в зависимости от типа клетки (клеточной линии) и условий, в которых она находится. Однако, провести ChIP-seq эксперименты для всех типов клеток (клеточных линий) и условий невозможно. 3) функциональные ССТФ - различные исследования (например, Toropainen et al., 2016; Cusanovich et.al., 2014) показывают, что только малая часть ССТФ (3-10%) непосредственно влияют на уровень транскрипции. Проблема выделения функциональных ССТФ среди всего множества -ССТФ остается открытой. 4) интерпретация SNP и SNV в контексте регуляции транскрипции - большая часть SNP и SNV находится в регуляторных районах генов. Данный проект направлен на существенное продвижение в решении этих проблем. В его основе лежат четыре основные идеи: 1) единообразная аннотация, контроль качества и обработка большого объема экспериментальных NGS данных по регуляции транскрипции (более 80% от имеющихся в открытом доступе экспериментальных данных перечисленных выше типов для человека и мыши); 2) одновременное использование нескольких методов анализа NGS данных и последующий мета-анализ с целью наиболее достоверного выявления регуляторных элементов. Например, для выявления ССТФ по данным ChIP-seq экспериментов будут использоваться методы MACS, GEM, SISSRs, PICS и последующий мета-анализ полученных ими результатов. Для поиска участков открытого хроматина будут применены: Hotspot2, MACS2 и F-Seq. В последующем предсказании ССТФ по данным DNAse-seq экспериментов будут использоваться методы: Wellington и HINT. Также будет проведен мета-анализ полученных результатов. 3) интеграция результатов из различных типов NGS экспериментов в контексте заданного клеточного типа и условий. В рамках проекта это будет использоваться для 3 целей: а) Уточнение результатов за счет совместного (мета-анализа) данных. б) Создание метода для предсказания ССТФ для заданного клеточного типа и условий в случае отсутствия соответствующих ChIP-seq экспериментов (в этих клеточных типах и условиях). Метод будет основываться на других типах экспериментов (доступность хроматина, гистоновые модификации и др.) проведенных в этих условиях и будет использовать методы машинного обучения. в) как входные данные для машинного обучения для предсказания эффекта SNV на регуляцию транскрипции. 4) Автоматический анализ интегрированных NGS данных по регуляции транскрипции, вышеописанными методами, и сохранение результатов в базе данных GTRD. Данный подход повторяет идеологию проекта ENSEMBL, которая объединяет как экспериментальные данные по аннотации генома, так и компьютерные предсказания. Таким образом, GTRD должна стать аналогом EnsEMBL, но в плане регуляции транскрипции. Предсказание влияния SNV на транскрипцию может быть как качественным так и количественным. В первом случае оценивается значимость (вероятность) влияния SNV на экспрессию соответствующего гена. Во втором - как изменится уровень транскрипции соответствующего гена. В этом случае необходимо построение модели регуляции на основе методов машинного обучения. Предсказание экспрессии - как метод валидации насколько мы понимаем механизмы регуляции транскрипции. Участники проекта уже имеют существенный задел. Ими разработана и поддерживается база данных GTRD - Gene Transcription Regulation Database (http://gtrd.biouml.org/) - крупнейшая в мире база данных ССТФ, построенная на основе унифицированно обработанных данных ChIP-seq экспериментов. Для построения сценариев анализа данных используется платформа BioUML (http://www.biouml.org/), которая разработана и развивается авторами данного проекта с 2001 года для поддержки научных исследований в области системной биологии и биоинформатики.