Работа со статистическими данными в R.
»
Обсуждения
R + DAVID + R + REViGO = функциональная классификация генов
мар 20, 2012 | 00:03
По роду деятельности мне в последнее время приходилось часто иметь дело с анализом данных, полученных при помощи технологии микрочипов (см., например, здесь). Эта технология позволяет одновременно измерить уровни экспресии тысяч генов и сравнить их в образцах из разных условий (например, у больных и здоровых людей, или в культурах клеток, обработанных и не обработанных каким-то лекарственным средством, и т.п.).
Входные данные такого типа обычно представляют собой огромную таблицу, строки которой соответствуют генам (несколько десятков тысяч), а столбцы — исследуемым образцам. На пересечениях строк и столбцов находятся числа, соответствующие уровням экспрессии генов. Типичная задача, которая обычно ставится перед аналитиком — выявить гены, уровни экспрессии которых различаются в экспериментальных группах. Уже несколько лет как de facto стандартом для выполнения подобного анализа является программное обеспечение, написанное на языке R. Речь, в частности, идет о большом количестве пакетов для R, созданных в рамках проекта Bioconductor. Отсюда первая буква R в названии этого сообщения — R используется для анализа изменения экспрессии генов. Примеры того, как имено это делается, я планирую привести в будущих сообщениях. Здесь же я хочу рассмотреть небольшие примеры того, что можно сделать со списками дифференциально экспрессированных генов уже после их обнаружения.
Читать дальше...
Входные данные такого типа обычно представляют собой огромную таблицу, строки которой соответствуют генам (несколько десятков тысяч), а столбцы — исследуемым образцам. На пересечениях строк и столбцов находятся числа, соответствующие уровням экспрессии генов. Типичная задача, которая обычно ставится перед аналитиком — выявить гены, уровни экспрессии которых различаются в экспериментальных группах. Уже несколько лет как de facto стандартом для выполнения подобного анализа является программное обеспечение, написанное на языке R. Речь, в частности, идет о большом количестве пакетов для R, созданных в рамках проекта Bioconductor. Отсюда первая буква R в названии этого сообщения — R используется для анализа изменения экспрессии генов. Примеры того, как имено это делается, я планирую привести в будущих сообщениях. Здесь же я хочу рассмотреть небольшие примеры того, что можно сделать со списками дифференциально экспрессированных генов уже после их обнаружения.
Читать дальше...