Navegando por Palavras-chave "Hadoop"
Agora exibindo 1 - 2 de 2
Resultados por página
Opções de Ordenação
- ItemAcesso aberto (Open Access)Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos(Universidade Federal de São Paulo, 2019-12-11) Yassef, Yasmin; Musa, Daniela Leal; http://lattes.cnpq.br/8606503911561836"Os avanços tecnológicos da era digital vem contribuindo para o crescimento exponencial do volume de dados gerado pelo estilo de vida moderno, tornando relevante o estudo de Big Data e seus métodos e técnicas. A Bioinformática segue o mesmo comportamento, visto que as grandes revoluções tecnológicas na área vem facilitando a geração de diversos dados genômicos e biológicos, se tornando uma ramificação da área de Big Data. A manutenção e gerenciamento desse grande volume de dados muitas vezes extrapola a capacidade de processamento das tecnologias tradicionais, fazendo com que se torne necessário o estudo de novas tecnologias para processamento de dados, utilizando por exemplo sistemas distribuídos. Tendo em vista essas questões, o estudo framework Apache Hadoop para melhoria de performance de consultas a bases de dados biológicos em relação a bancos de dados relacionais, através da realização de consultas em dados de anotações de polimorfismo de nucleotídeo único em um sistema distribuído simulado. Para o volume e tipo de dados utilizado, verificou-se que o overhead operacional e dificuldade de gerenciamento do sistema distribuído acarretaram uma lentidão significativa de tempo de execução em relação a essas mesmas operações sendo realizadas num banco relacional tradicional (PostgreSQL). Porém, aumentando-se a escala do problema, foi possível avaliar que para o volume adequado de dados a aplicação de Hadoop se torna mais vantajosa do que bancos relacionais, mas é preciso avaliar as condições da aplicação em questão para escolher a tecnologia que possa trazer mais benefícios."
- ItemAcesso aberto (Open Access)Implementação de uma arquitetura de data lakehouse utilizando pentaho data integration e hadoop(Universidade Federal de São Paulo, 2023-07-12) Silva, Pedro Gabriel da [UNIFESP]; Musa, Daniela Leal [UNIFESP]; http://lattes.cnpq.br/8606503911561836Perante a crescente e vertiginosa ampliação do volume de dados na era contemporânea, tornam-se imprescindíveis estruturas capazes de armazenar e manipular os dados provenientes das tecnologias de Big Data, adaptando-os para atender às demandas de Business Intelligence. Diante desse contexto, o presente trabalho almeja a concepção de uma arquitetura personalizada, fundamentada nas tecnologias Hadoop e Pentaho Data Integration, perante a adaptação do modelo lambda retratado na literatura de Data Lake para o contexto de Data Lakehouse. Tal desenvolvimento englobou a consolidação das camadas iniciais de ingestão e armazenamento de dados brutos e apurados, empregados através do fluxo de dados em lote, assim como a análise das tecnologias a serem utilizadas para extensão do desenvolvimento entre as camadas subsequentes de dados em tempo real, seguindo um modelo de código aberto de ponta a ponta para ingestão, armazenamento e visualização dos dados. Por fim, foram coligidas informações referentes ao produto desenvolvido, assim como realizadas as devidas análises para validar o êxito do projeto.