Análise do Impacto da Replicação de Dados Implementada pelo Apache Hadoop no Balanceamento de Carga

Rhauani Weber Aita Fazul, Paulo Vinicius Cardoso, Patrıcia Pitthan Barcelos

Resumo


Ferramentas especializadas em Big Data, como o Apache Hadoop, devem portar meios que garantam a integridade e a disponibilidade dos dados. Para tal, o HDFS, sistema de arquivos distribu´ıdo do Hadoop, faz uso de diversas técnicas de tolerância a falhas, dentre elas a replicação de dados. Tratando-se de clusters altamente escal´aveis, há a preocupação em verificar se a distribuição dos dados replicados ocorre de forma homogênea. Este trabalho analisa experimentalmente o comportamento do HDFS em cenários com e sem a ocorrência de falhas, avaliando o desbalanceamento de carga resultante do processo de replicação de dados implementado pelo Apache Hadoop. Experimentos adicionais medem o desempenho alcançado ao balancear um cluster.


Texto completo:

PDF

Apontamentos

  • Não há apontamentos.