About: Programación con datos masivos en R

La programación con datos masivos en R (pbdR, a partir del inglés Programming with Big Data in R) es una serie de paquetes R y un entorno para el cálculo estadístico con grandes volúmenes de datos mediante el uso de la programación de alto rendimiento estadístico. La pbdR utiliza el mismo lenguaje de programación que R con clases y métodos S3/S4 los cuales son usados entre los estadísticos y la minería de datos para el desarrollo de software estadístico. La diferencia significativa entre pbdR y el código R es que pbdR se centra principalmente en la memoria distribuida de los sistemas, donde los datos son distribuidos a través de varios procesadores y analizados en un modo por lotes, mientras que las comunicaciones entre procesadores se basan en MPI que se utiliza con gran facilidad en si

Property	Value
dbo:abstract	La programación con datos masivos en R (pbdR, a partir del inglés Programming with Big Data in R) es una serie de paquetes R y un entorno para el cálculo estadístico con grandes volúmenes de datos mediante el uso de la programación de alto rendimiento estadístico. La pbdR utiliza el mismo lenguaje de programación que R con clases y métodos S3/S4 los cuales son usados entre los estadísticos y la minería de datos para el desarrollo de software estadístico. La diferencia significativa entre pbdR y el código R es que pbdR se centra principalmente en la memoria distribuida de los sistemas, donde los datos son distribuidos a través de varios procesadores y analizados en un modo por lotes, mientras que las comunicaciones entre procesadores se basan en MPI que se utiliza con gran facilidad en sistemas de computación de alto rendimiento (HPC). El sistema R se centra principalmente en máquinas simples multi-núcleo para el análisis de datos a través de un modo interactivo, tal como la interfaz gráfica de usuario. Las dos implementaciones principales en R utilizando MPI son Rmpi y pbdMPI de la pbdR. * La pbdR construida sobre pbdMPI utiliza paralelismo SPMD donde cada procesador se considera como esclavo y posee partes de los datos. El paralelismo SPMD introducido a mediados de 1980 es particularmente eficaz en entornos de cómputo homogéneos para datos de gran tamaño, por ejemplo, realizar la descomposición de valores singulares en una matriz grande, o realizar el análisis de clustering en grandes cantidades de datos de alta dimensión. Por otro lado, no hay ninguna restricción para utilizar paralelismo maestro/esclavo en entornos de paralelismo SPMD * El Rmpi utiliza paralelismo maestro/esclavo donde un procesador principal (maestro) sirve como el control de los otros procesadores (esclavos). El paralelismo maestro/esclavo introducido a principios del 2000 es particularmente eficaz para tareas grandes en clusters pequeños, por ejemplo, el método bootstrap y la simulación Monte Carlo en estadística aplicada desde probabilidades i.i.d. es generalmente más utilizada en análisis estadístico. En particular, el paralelismo de extracción de tareas tiene mejor rendimiento para Rmpi en entornos de cómputo heterogéneos. La idea del paralelismo PMD es para dejar que cada procesador haga la misma cantidad de trabajo, pero en partes diferentes de un conjunto grande de datos. Por ejemplo, un moderno GPU es una colección grande de co-procesadores más lento que pueden simplemente aplicar el mismo cálculo en partes diferentes sobre datos relativamente más pequeños, pero el paralelismo SPMD acaba con una manera eficaz de obtener soluciones finales (es decir, cronometrar que la solución sea más corta). Es claro que pbdR no es sólo propio para clusters pequeños, sino también más estable para analizar grandes volúmenes de datos y más escalable para supercomputadoras. En resumen, pbdR * No le gusta el RMPI, ni paquetes paralelos en R, * No se centra en programación interactiva ni maestros/esclavos, * Pero es capaz de utilizar ambos paralelismos SPMD y de tarea. (es) La programación con datos masivos en R (pbdR, a partir del inglés Programming with Big Data in R) es una serie de paquetes R y un entorno para el cálculo estadístico con grandes volúmenes de datos mediante el uso de la programación de alto rendimiento estadístico. La pbdR utiliza el mismo lenguaje de programación que R con clases y métodos S3/S4 los cuales son usados entre los estadísticos y la minería de datos para el desarrollo de software estadístico. La diferencia significativa entre pbdR y el código R es que pbdR se centra principalmente en la memoria distribuida de los sistemas, donde los datos son distribuidos a través de varios procesadores y analizados en un modo por lotes, mientras que las comunicaciones entre procesadores se basan en MPI que se utiliza con gran facilidad en sistemas de computación de alto rendimiento (HPC). El sistema R se centra principalmente en máquinas simples multi-núcleo para el análisis de datos a través de un modo interactivo, tal como la interfaz gráfica de usuario. Las dos implementaciones principales en R utilizando MPI son Rmpi y pbdMPI de la pbdR. * La pbdR construida sobre pbdMPI utiliza paralelismo SPMD donde cada procesador se considera como esclavo y posee partes de los datos. El paralelismo SPMD introducido a mediados de 1980 es particularmente eficaz en entornos de cómputo homogéneos para datos de gran tamaño, por ejemplo, realizar la descomposición de valores singulares en una matriz grande, o realizar el análisis de clustering en grandes cantidades de datos de alta dimensión. Por otro lado, no hay ninguna restricción para utilizar paralelismo maestro/esclavo en entornos de paralelismo SPMD * El Rmpi utiliza paralelismo maestro/esclavo donde un procesador principal (maestro) sirve como el control de los otros procesadores (esclavos). El paralelismo maestro/esclavo introducido a principios del 2000 es particularmente eficaz para tareas grandes en clusters pequeños, por ejemplo, el método bootstrap y la simulación Monte Carlo en estadística aplicada desde probabilidades i.i.d. es generalmente más utilizada en análisis estadístico. En particular, el paralelismo de extracción de tareas tiene mejor rendimiento para Rmpi en entornos de cómputo heterogéneos. La idea del paralelismo PMD es para dejar que cada procesador haga la misma cantidad de trabajo, pero en partes diferentes de un conjunto grande de datos. Por ejemplo, un moderno GPU es una colección grande de co-procesadores más lento que pueden simplemente aplicar el mismo cálculo en partes diferentes sobre datos relativamente más pequeños, pero el paralelismo SPMD acaba con una manera eficaz de obtener soluciones finales (es decir, cronometrar que la solución sea más corta). Es claro que pbdR no es sólo propio para clusters pequeños, sino también más estable para analizar grandes volúmenes de datos y más escalable para supercomputadoras. En resumen, pbdR * No le gusta el RMPI, ni paquetes paralelos en R, * No se centra en programación interactiva ni maestros/esclavos, * Pero es capaz de utilizar ambos paralelismos SPMD y de tarea. (es)
dbo:wikiPageExternalLink	http://rpubs.com/wush978/pbdMPI-linux-pilot http://www.r-bloggers.com/r-at-12000-cores/ http://userpages.umbc.edu/~gobbert/papers/REU2013Team1.pdf http://userpages.umbc.edu/~gobbert/papers/REU2013Team2.pdf http://userpages.umbc.edu/~gobbert/papers/pbdRtara2013.pdf https://cran.r-project.org/web/views/HighPerformanceComputing.html http://www.r-pbd.org https://www.youtube.com/watch%3Fv=m1vtPESsFqM https://archive.today/20130629095333/http:/rwiki.sciviews.org/doku.php%3Fid=developers:projects:gsoc2013:mpiprofiler.%3C/cite%3E%3Cspan
dbo:wikiPageID	7534950 (xsd:integer)
dbo:wikiPageLength	14437 (xsd:integer)
dbo:wikiPageRevisionID	128884642 (xsd:integer)
dct:subject	category-es:Lenguajes_de_programación category-es:Paquetes_de_software_estadístico category-es:Software_libre_multiplataforma category-es:Lenguajes_funcionales
rdfs:comment	La programación con datos masivos en R (pbdR, a partir del inglés Programming with Big Data in R) es una serie de paquetes R y un entorno para el cálculo estadístico con grandes volúmenes de datos mediante el uso de la programación de alto rendimiento estadístico. La pbdR utiliza el mismo lenguaje de programación que R con clases y métodos S3/S4 los cuales son usados entre los estadísticos y la minería de datos para el desarrollo de software estadístico. La diferencia significativa entre pbdR y el código R es que pbdR se centra principalmente en la memoria distribuida de los sistemas, donde los datos son distribuidos a través de varios procesadores y analizados en un modo por lotes, mientras que las comunicaciones entre procesadores se basan en MPI que se utiliza con gran facilidad en si (es) La programación con datos masivos en R (pbdR, a partir del inglés Programming with Big Data in R) es una serie de paquetes R y un entorno para el cálculo estadístico con grandes volúmenes de datos mediante el uso de la programación de alto rendimiento estadístico. La pbdR utiliza el mismo lenguaje de programación que R con clases y métodos S3/S4 los cuales son usados entre los estadísticos y la minería de datos para el desarrollo de software estadístico. La diferencia significativa entre pbdR y el código R es que pbdR se centra principalmente en la memoria distribuida de los sistemas, donde los datos son distribuidos a través de varios procesadores y analizados en un modo por lotes, mientras que las comunicaciones entre procesadores se basan en MPI que se utiliza con gran facilidad en si (es)
rdfs:label	Programación con datos masivos en R (es) Programación con datos masivos en R (es)
prov:wasDerivedFrom	wikipedia-es:Programación_con_datos_masivos_en_R?oldid=128884642&ns=0
foaf:homepage	http://www.r-pbd.org
foaf:isPrimaryTopicOf	wikipedia-es:Programación_con_datos_masivos_en_R
is owl:sameAs of	dbr:Programación con datos masivos en R
is foaf:primaryTopic of	wikipedia-es:Programación_con_datos_masivos_en_R