RevoScaleR - RevoScaleR

RevoScaleR
Autor (es) original (is) Microsoft
lançamento inicial 2016 ; 5 anos atrás ( 2016 )
Escrito em Pitão
Plataforma Windows , Linux
Disponível em R
Local na rede Internet docs .microsoft .com / en-us / machine-learning-server / r-reference / revoscaler / revoscaler

RevoScaleR é um pacote de aprendizado de máquina em R criado pela Microsoft . Ele está disponível como parte do Machine Learning Server, Microsoft R Client e Machine Learning Services no Microsoft SQL Server 2016.

O pacote contém funções para a criação de modelo linear , regressão logística , floresta aleatória , árvore de decisão e árvore de decisão impulsionada e K-means , além de algumas funções de resumo para inspecionar e visualizar dados.

Ele tem uma contraparte do pacote Python chamada revoscalepy . Outro pacote intimamente relacionado é o MicrosoftML, que contém algoritmos de aprendizado de máquina que o RevoScaleR não possui, como rede neural e SVM .

Em junho de 2021, a Microsoft anunciou o código-fonte dos pacotes RevoScaleR e revoscalepy, tornando-os disponíveis gratuitamente sob a licença MIT .

Conceitos

Muitos pacotes R são projetados para analisar dados que podem caber na memória da máquina e geralmente não fazem uso de processamento paralelo. O RevoScaleR foi projetado para lidar com essas limitações. As funções no RevoScaleR se orientam em torno de três conceitos de abstração principais que os usuários podem especificar para processar uma grande quantidade de dados que podem não caber na memória e explorar recursos paralelos para acelerar a análise.

Contextos de computação

Um contexto de computação refere-se ao local onde ocorre o cálculo dos dados. Pode ser "local" (na máquina cliente) ou "remoto" (em uma plataforma de dados como um servidor SQL ou Spark ). Enviar a computação para um servidor remoto permite que as pessoas aproveitem os maiores recursos de computação que uma máquina remota pode ter. Se os dados que estão sendo analisados ​​residirem na mesma máquina, o uso de um contexto de computação remota também elimina a necessidade de puxar os dados da rede para a máquina cliente.

Fonte de dados

A fonte de dados define de onde vêm os dados. Existem várias fontes de dados disponíveis no RevoScaleR, como dados de texto, dados Xdf, dados em SQL e um dataframe spark. As pessoas podem agrupar seus dados em um objeto de origem de dados e usá-lo para executar análises em diferentes contextos de computação. Diferentes fontes de dados estão disponíveis em diferentes contextos de computação. Por exemplo, se o contexto de computação for definido como servidor SQL, a única fonte de dados que se pode usar seria uma fonte de dados em SQL.

Analytics

As funções analíticas no RevoScaleR levam no objeto de fonte de dados, um contexto de computação e os outros parâmetros necessários para construir o modelo específico, como a fórmula para a regressão logística ou o número de árvores em uma árvore de decisão. Além desses parâmetros, também é possível especificar o nível de paralelismo, como o tamanho do bloco de dados para cada processo ou o número de processos para construir o modelo. No entanto, o paralelismo está disponível apenas na edição não expressa.

Limitações

O pacote deve ser usado principalmente com um servidor SQL ou outras máquinas remotas. Para aproveitar totalmente as abstrações que ele usa para processar um grande conjunto de dados, é necessário um servidor remoto e uma edição gratuita não Express do pacote. Ele não pode ser facilmente instalado executando "install.packages (" RevoScaleR ")" como a maioria dos pacotes R de código aberto. Ele está disponível apenas por meio do Microsoft R Client, uma distribuição de R para ciência de dados, ou Microsoft Machine Learning Server (autônomo sem nenhum servidor SQL conectado) ou Microsoft Machine Learning Services (um serviço de servidor SQL). No entanto, ainda é possível usar as funções analíticas em uma versão Express, gratuita do pacote.

Veja também

Referências

links externos