Работа со статистическими данными в R. » Обсуждения


Bookmark and Share




R. Начало.

Июн 18, 2009 | 11:06

Опубликую здесь анонсы статей из своего блога. Может кому пригодится.

Логотип RЛюбое биомедицинское научное исследование требует проведения статистического анализа. Для этого нам необходимы специальные инструменты. На сегодняшний день это компьютер и специализированный софт.

Последнее время, широко используются такие прекрасные программные пакеты как Statistica и SPSS. Эти монстры позволяют ученым делать с цифрами то, что непосвященному человеку и в страшном сне не привидится. Не меньшим кошмаром оказываются и цены на подобные программы. Но можно ли получить всю мощь профессионального статистического инструмента бесплатно? Оказывается можно. Этот инструмент называется R.

R – язык программирования для статобработки данных и работы с графикой. Это свободная программная среда с открытым исходным кодом. Во многих дистрибутивах Linux есть эта великолепная штука. Не забыты и пользователи Windows и MacOS X.

Как видим, R — свободный и бесплатный программный продукт, но в чем еще его отличие от привычных многим приложений? Здесь нет графического интерфейса. Да-да, того самого всеми любимого кликодрома, в R просто нет. И это является его преимуществом. Утомительное нажимание разнообразных кнопочек — это непродуктивный путь работы. Конечно, существуют сторонние приложения, реализующие графический пользовательский интерфейс, но о них я сейчас рассказывать не буду. По моему мнению, для статистической программы они практически не нужны.

Ядро R — это интерпретируемый язык программирования позволяющий применять циклы, ветвления, а так же создавать свои собственные функции. Язык R был создан Ross Ihaka и Robert Gentleman (Оклендский университет в Новой Зеландии) как некоммерческий вариант языка S, который используется в статистическом пакете S-PLUS.

Дистрибутив R содержит необходимые функции для выполнения большого числа статистических процедур. Во всяком случае, для биомедицинских исследований хватит с лихвой, и даже если не хватит, всегда можно написать свою функцию либо пакет. Правда, вряд ли эта возможность вам когда-нибудь понадобится.

R представляет собой комплексный, интерактивный пакет для управления данными и анализа, который включает в себя функции для стандартной описательной статистики (средние, дисперсии, разброс значений и пр.), а также включает в себя необходимые инструменты для разведывательного анализа данных. Кроме того он имеет много разновидностей обобщенной линейной модели, включая однофакторный и многофакторный дисперсионный анализ. Дополнительные возможности включают пакеты для многомерного анализа и кластерного анализа. Кроме того, пользователям доступны нейронные сети, деревья решений, бутстреп и многое другое.

На сегодняшний день, во многих университетах мира R используется для обучения статистике. Его применяют ученые в самых разных областях науки. Надежность этого инструмента подтверждает и то, что специалисты в Google, Facebook и других крупных компаниях успешно применяют его в своей работе (ссылка).

Таким образом, абсолютно бесплатно мы получаем всю мощность, гибкость и надежность профессионального статистического приложения. Но как с ним работать? Об этом я напишу в следующих статьях. Сейчас дам только ссылки на несколько ресурсов в сети на эту тему.


Комментарии  

Вам необходимо зайти или зарегистрироваться для комментирования
Я бы добавил, что Statistica и SPSS обновляется в разы медленне , чем R. Большинство коммерческих продуктов отстаают от развития стат. методов на 10 - 15 лет, жалко ссылку не могу вспомнитьт, кто обзор проводил...
2009-12-02 10:36:30 · Ответить · · Ссылка
Да, а к ссылкам я бы добавил вот эту: http://www.biw.kuleuven.be/vakken/statisticsbyR/index.htm основу R за несколько дней освоил, просто поигравшись с предложенными там упражнениями. Удобно, что можно использовать данные уже доступные из интернета, отдельно скачивать ничего не нужно.
2009-12-02 10:57:49 · Ответить · · Ссылка