jueves, 16 de abril de 2015

Programación R en Minería de Datos

LENGUAJE R

R es un lenguaje y un entorno de programación, creado en 1993 por Ross Ihaka y Robert Gentleman del Departamento de Estadística de la Universidad de Auckland, cuya característica principal es:

  • ØFormar un entorno de análisis estadístico para la manipulación de datos.
  • Ø  Cálculo y la creación de gráficos.
  • Ø  Lenguaje orientado a objetos.
  • Ø  Se implementa de forma libre e independiente del lenguaje de programación.
Su aspecto R se considerara como otra implementación del lenguaje de programación S, con la particularidad de que es un software GNU, General Public Licenc (conjunto de programas desarrollados por la Free Software Foundation), es de uso libre.
Entre otras características dispone de:
  • Ø  Almacenamiento y manipulación de datos.
  • Ø  Operadores para cálculo sobre variables indexadas (Arrays), en particular matrices.
  • Ø  Herramientas para análisis de datos.
  • Ø  Posibilidades gráficas para análisis de datos.

El termino entorno lo caracteriza como un sistema completamente diseñado y coherente de análisis de datos.
Como tal es muy dinámico y las diferentes versiones no siempre son totalmente compatibles con las anteriores. 
Se utiliza el lenguaje R como un sistema estadístico, aunque la descripción más precisa es un entorno en el que se han implementado muchas técnicas estadísticas.

Algunas están incluidas en el entorno base de R y otras se acompañan en forma de bibliotecas (packages). 
Una diferencia fundamental de la filosofía de R, y también de la de S, con el resto del software estadístico es el uso de “objetos” (variables, variables indexadas, cadenas de caracteres, funciones, etc.) como entidad básica.

Cualquier expresión evaluada por R se realiza en una serie de pasos, con unos resultados intermedios que se van almacenando en objetos, para poder ser observados o analizados posteriormente, de tal manera que se puede hacer un análisis sin necesidad de mostrar un resultado, inmediatamente produciendo una salida mínima.

Cada objeto pertenece a una clase, de forma que las funciones pueden tener comportamientos diferentes en función de la clase a la que pertenece su objeto argumento.
Por ejemplo no se comporta igual una función cuando su argumento es un vector que cuando es un fichero de datos u otra función.

TIPOS DE OBJETOS EN R

 Los objetos primitivos o atómicos de R son:

VARIABLES:

ü  Numéricas (integer, double, complex).

ü  De caracteres. 
ü  Lógicas

VECTORES:

Un vector es una colección ordenada de datos del mismo tipo. Utiliza la función c () y 
el operador: ,para generar vectores.

MATRICES:

Es considerada la función matrix()para entender el uso de funciones en R.