Работа со статистическими данными в R.
»
Обсуждения
R. Начало.
Опубликую здесь анонсы статей из своего блога. Может кому пригодится.
Любое биомедицинское научное исследование требует проведения статистического анализа. Для этого нам необходимы специальные инструменты. На сегодняшний день это компьютер и специализированный софт.
Последнее время, широко используются такие прекрасные программные пакеты как Statistica и SPSS. Эти монстры позволяют ученым делать с цифрами то, что непосвященному человеку и в страшном сне не привидится. Не меньшим кошмаром оказываются и цены на подобные программы. Но можно ли получить всю мощь профессионального статистического инструмента бесплатно? Оказывается можно. Этот инструмент называется R.
R – язык программирования для статобработки данных и работы с графикой. Это свободная программная среда с открытым исходным кодом. Во многих дистрибутивах Linux есть эта великолепная штука. Не забыты и пользователи Windows и MacOS X.
Как видим, R — свободный и бесплатный программный продукт, но в чем еще его отличие от привычных многим приложений? Здесь нет графического интерфейса. Да-да, того самого всеми любимого кликодрома, в R просто нет. И это является его преимуществом. Утомительное нажимание разнообразных кнопочек — это непродуктивный путь работы. Конечно, существуют сторонние приложения, реализующие графический пользовательский интерфейс, но о них я сейчас рассказывать не буду. По моему мнению, для статистической программы они практически не нужны.
Ядро R — это интерпретируемый язык программирования позволяющий применять циклы, ветвления, а так же создавать свои собственные функции. Язык R был создан Ross Ihaka и Robert Gentleman (Оклендский университет в Новой Зеландии) как некоммерческий вариант языка S, который используется в статистическом пакете S-PLUS.
Дистрибутив R содержит необходимые функции для выполнения большого числа статистических процедур. Во всяком случае, для биомедицинских исследований хватит с лихвой, и даже если не хватит, всегда можно написать свою функцию либо пакет. Правда, вряд ли эта возможность вам когда-нибудь понадобится.
R представляет собой комплексный, интерактивный пакет для управления данными и анализа, который включает в себя функции для стандартной описательной статистики (средние, дисперсии, разброс значений и пр.), а также включает в себя необходимые инструменты для разведывательного анализа данных. Кроме того он имеет много разновидностей обобщенной линейной модели, включая однофакторный и многофакторный дисперсионный анализ. Дополнительные возможности включают пакеты для многомерного анализа и кластерного анализа. Кроме того, пользователям доступны нейронные сети, деревья решений, бутстреп и многое другое.
На сегодняшний день, во многих университетах мира R используется для обучения статистике. Его применяют ученые в самых разных областях науки. Надежность этого инструмента подтверждает и то, что специалисты в Google, Facebook и других крупных компаниях успешно применяют его в своей работе (ссылка).
Таким образом, абсолютно бесплатно мы получаем всю мощность, гибкость и надежность профессионального статистического приложения. Но как с ним работать? Об этом я напишу в следующих статьях. Сейчас дам только ссылки на несколько ресурсов в сети на эту тему.