Navegando por Palavras-chave "Aprendizagem de máquina"
Agora exibindo 1 - 4 de 4
Resultados por página
Opções de Ordenação
- ItemEmbargoIntegrando traços fenotípicos na filogeografia de insetos neotropicais(Universidade Federal de São Paulo, 2024-06-25) Machado, João Roberto Fentanes [UNIFESP]; Bonatelli, Isabel Aparecida da Silva [UNIFESP]; http://lattes.cnpq.br/9946082913752883; http://lattes.cnpq.br/0617686174913175O entendimento da distribuição das espécies ao longo do tempo é fundamental para a compreensão dos processos evolutivos que moldaram a biodiversidade em uma região. Alterações na distribuição das populações são frequentemente associadas a eventos geológicos e climáticos. Em especial, as oscilações climáticas do Pleistoceno parecem ter causado alterações significativas a nível global na distribuição das espécies. Porém, o número de estudos com invertebrados na região Neotropical é escasso. Diversos estudos na região evidenciaram que espécies que habitam biomas úmidos comumente apresentam respostas concordantes a alterações climáticas do passado, enquanto espécies de biomas secos e abertos exibem respostas idiossincráticas a esses mesmos eventos. Os padrões discordantes parecem não ser explicados somente por fatores ambientais. A integração de fatores bióticos e abióticos que moldam as respostas dos organismos representa uma maneira robusta para explorar as diferentes dimensões que contribuem para o estabelecimento de padrões demográficos. No presente trabalho, foi aplicada uma abordagem de filogeografia preditiva para identificar as respostas demográficas de espécies de insetos durante as mudanças climáticas do Pleistoceno e investigar a associação das respostas com diferentes traços biológicos das espécies. Foram analisadas 53 espécies, distribuídas em um total de 8 biomas neotropicais (31 exclusivas de biomas úmidos, 6 exclusivas de biomas secos e 16 generalistas) da classe Insecta (Coleoptera, Diptera, Lepidoptera, Odonata e Trichoptera). A metodologia do trabalho envolveu quatro atividades principais: (i) delimitação de linhagens pelo método bGMYC (Bayesian generalized mixed yule-coalescent model); (ii) teste de modelos demográficos (i.e. expansão, retração ou estabilidade) por computação Bayesiana aproximada; (iii) identificação de variáveis preditoras das diferentes respostas por aprendizagem de máquina com o método Random Forest; (iv) estimativa de alterações na distribuição das espécies por modelagem de nicho ecológico. Como resultado do ABC, 8 espécies mostraram sinal de estabilidade durante as alterações climáticas do Pleistoceno, 3 parecem ter sofrido retrações e 17 expandiram. Como resultado da modelagem de nicho, ao se comparar o período do Último Máximo Glacial com o presente, observou-se uma maior adequabilidade nas condições climáticas atuais, sugerindo uma expansão de 75% das espécies estudadas para o presente. As variáveis biológicas com maior capacidade de predição da resposta demográfica foram o nível taxonômico de família, período de atividade, tipo de habitat das espécies e nível trófico. Com base nos resultados obtidos, fica evidente que as alterações climáticas impactaram a classe Insecta na região Neotropical, resultando predominantemente em respostas demográficas de expansão para o presente. Além disso, os tipos de respostas das espécies às mudanças climáticas do Pleistoceno parecem estar associados a características biológicas das espécies.
- ItemAcesso aberto (Open Access)Um método de seleção de causas básicas de óbito por meio das distribuições de diagnósticos mencionados(Universidade Federal de São Paulo, 2024-03-26) Tardelli, Adalberto Otranto [UNIFESP]; Paiva, Paulo Bandiera [UNIFESP]; Anção, Meide Silva [UNIFESP]; http://lattes.cnpq.br/6032967315336358; http://lattes.cnpq.br/0947654602498462; http://lattes.cnpq.br/6610160613904119Introdução: As estatísticas de mortalidade são produzidas na maioria dos países, segundo as regras definidas pela OMS nas sucessivas revisões da Classificação Estatística Internacional de Doenças e Problemas Relacionados à Saúde, atualmente em sua 10ª Revisão (CID-10). Têm como eixo principal a chamada Causa Básica do óbito, selecionadas de acordo com as Regras Internacionais de Seleção de Causas Básicas, cuja interpretação demanda conhecimento de relações causais entre doenças e uma considerável capacidade técnica para aplicá-las correta e sistematicamente. Objetivo: O estudo propôs identificar os conjuntos de diagnósticos informados nos dados das Declarações de Óbito processadas pelo Sistema de Informações de Mortalidade (SIM) brasileiro, associá-los com as correspondentes causas básicas selecionadas e avaliar o grau de acurácia de um método estatístico de previsão destas. Métodos: Os dados das Declarações de Óbito (DO) do SIM com os dados do Estado de São Paulo ocorridos no período de 2000 a 2018 foram carregados num Repositório de dados de acesso aberto, especificado e desenvolvido com a capacidade de recuperação de dados requerida pelo estudo. Foram selecionados os casos com os códigos de causa básica de óbito (CB) e de cada diagnóstico mencionado (DM) considerados válidos segundo a lista de códigos CID-10 distribuída na página de transferência de arquivos do SIM e com um mínimo de 2 e um máximo de 6 DMs. Foram identificados todos os conjuntos de DMs dos dados relativos aos períodos 2009-2013 e 2014-2018, representando-os, para cada DO, em seis tipos de conjuntos de DMs, com os quais criaram-se regras quantitativas associando cada conjunto de DMs às correspondentes CBs (Regras MD=>UCD) a partir das respectivas distribuições proporcionais. As Regras do período 2009-2013 foram, então, aplicadas a cada DO dos óbitos ocorridos no período 2014 a 2018. E vice-versa. Por fim, as causas básicas previstas pelo método foram comparadas às selecionadas pelo SIM. Resultados: Nos dados de 2009-2013, foram selecionados 5218 distintos códigos de causas básicas. Foram identificados os seguintes conjuntos de diagnósticos mencionados: i) 635.995 conjuntos distintos de DMs considerando as linhas do chamado atestado de óbito e a ordem onde foram mencionados; ii) 596.544 desconsiderando a posição, iii) 535.212 desconsiderando também a ordem das menções; iv) 336.119 combinações de pares de DMs; v) 270.698 pares distintos quando desconsiderada a ordem das menções; e vi) 7.430 distintos códigos de diagnósticos. Combinados com as respectivas CBs, ocorreram 4.315.054 distintos conjuntos de DMs x CBs, sendo 637.196, 611.208, 558.017, 1.196.629, 1.081.936 e 230.068 correspondentes a esses seis tipos de conjuntos de DMs. Ao aplicar as Regras MD=>UCD do período 2009-2013 aos dados de 2014-2018, foram atribuídas causas básicas a 99,99% dos casos com 89.99% de acerto, ao nível de Subcategoria CID-10. Com as Regras MD=>UCD do período 2014-2018 aplicadas aos dados de 2009-2013, foram atribuídas causas básicas a 99,99% dos casos com 90.36% de acerto, igualmente ao nível de Subcategoria CID-10. Conclusão: Foi disponibilizado um Repositório de dados das Declarações de Óbito registradas no Brasil ao longo dos anos 2000 a 2018, em acesso aberto e com capacidade de recuperação de dados adequada também a estudos de causas múltiplas de morte. O estudo concluiu que a causa básica de morte de uma DO está fortemente associada não apenas com a informação contida na representação estruturada dos diagnósticos mencionados, mas também com outras representações destes, tais como sequências e pares de DM, ainda que desconsiderando a posição e/ou a ordem em que foram declarados na DO: causas básicas de óbito foram previstas com considerável grau de acurácia, simplesmente por meio das distribuições proporcionais das sequências, pares e unidades de diagnósticos mencionados e suas correspondentes causas básicas. As causas básicas “previstas” poderão servir de guia para verificação manual das causas básicas selecionadas nos sistemas de informação de mortalidade e podem ser úteis para revelar casos que exigem especial atenção – inclusive nas tabelas de decisão dos sistemas automatizados de seleção de causas de morte.
- ItemAcesso aberto (Open Access)Modelo de aprendizado de máquina para predição de Diabetes tipo 2 por meio de variáveis de fácil acesso(Universidade Federal de São Paulo, 2023-03-10) Silva, Leonardo Fernandes [UNIFESP]; Caranti, Danielle Arisa [UNIFESP]; http://lattes.cnpq.br/4760019839583649; http://lattes.cnpq.br/7376085574661825; Universidade Federal de São Paulo (UNIFESP)Objetivo: Validar um modelo preditivo de diabetes do tipo 2 utilizando aprendizagem de máquina através de variáveis de fácil acesso e comparar os resultados dos bancos de dados VIGITEL e NHANES para validação da metodologia. Métodos: Após a seleção dos bancos de dados VIGITEL (2015) e NHANES (2014,15,16,17), foi aplicado critérios de inclusão e exclusão, aqueles que foram diagnosticados acima dos 30 anos e dados não faltantes, em cima dos indivíduos finais foi utilizado o método de balanceamento SMOTE para melhor aplicação dos algoritmos. Uma vez balanceado, foram aplicados os algoritmos “árvore de decisão”, “Floresta Aleatória” e “floresta de isolamento”. Resultados: O modelo de predição de diabetes tipo 2 apresentou melhor desempenho em todas as métricas em comparação com as outras duas doenças crônicas (dislipidemia e hipertensão arterial) no conjunto de dados do NHANES. No VIGITEL, o diabetes teve melhor desempenho em sensibilidade (73,25%) em comparação com as outras duas doenças, a hipertensão também teve alto desempenho em especificidade e acurácia (79,51% e 73,63%). Entre os dois conjuntos de dados, o NHANES teve melhor desempenho em todas as métricas em diabetes e hipertensão. Conclusões: O presente estudo apresentou evidências para a criação de um modelo preditivo através da utilização de aprendizagem de máquina para auxiliar no diagnóstico precoce de doenças crônicas através de variáveis de fácil acesso.
- ItemAcesso aberto (Open Access)Predição de trocas de carbono entre a biosfera e a atmosfera na FLONA-Tapajós a partir de variáveis ambientais(Universidade Federal de São Paulo, 2022-11-25) Bauer, Lucas de Oliveira [UNIFESP]; Rizzo, Luciana Varanda [UNIFESP]; Corrêa, Pedro Luiz Pizzigatti; http://lattes.cnpq.br/3640608958277159; http://lattes.cnpq.br/5924114866857244; https://lattes.cnpq.br/9092857659970079A floresta Amazônica desempenha um papel importante no balanço de carbono terrestre, atuando como um sumidouro de carbono através da atividade fotossintética, e, ao mesmo tempo, como fonte de carbono por meio das emissões por queimadas, áreas alagadas e processos metabólicos terrestres. As trocas de CO2 entre a floresta e a atmosfera podem ser estimadas a partir de observações diretas na superfície, pela técnica de covariância de vórtices turbulentos. Porém, tais observações possuem uma representatividade espacial pequena, que não pode ser extrapolada para toda a Amazônia devido à heterogeneidade do balanço de carbono na floresta. O uso de estratégias de Ciência dos Dados pode ser uma alternativa para ampliar a escala espacial das estimativas de balanço de carbono, desde que sejam conhecidas as relações entre os fluxos de CO2 e variáveis ambientais, que muitas vezes são relações não-lineares. Este trabalho tem como objetivo construir modelos de aprendizagem de máquina para prever as seguintes métricas de balanço de CO2: troca líquida de CO2 (NEE entre a floresta e a atmosfera), produtividade primária bruta (GPP) e respiração (Re). Para isso, foram utilizados dados diários de fluxos turbulentos e de variáveis ambientais monitoradas entre 2002 e 2005 na Floresta Nacional dos Tapajós (FLONA-Tapajós), na Amazônia. Como preditores, foram consideradas variáveis meteorológicas de superfície, fluxos de calor sensível e latente, espessura óptica de aerossóis e índice de área foliar. Foram desenvolvidos modelos de regressão por Random Forest (RF) e Redes Neurais Artificiais (RNA). Também foram construídos modelos para a classificação de cenários de fonte de carbono, sumidouro e condição neutra. Os modelos de regressão tiveram coeficientes de determinação (R2) entre 0,33 e 0,65 para os modelos de RF, e entre 0,44 e 0,58 para os modelos de RNA. O modelo de regressão de NEE por RNA reproduziu corretamente o comportamento sazonal e os valores extremos. Apesar da variável GPP ter alcançado os maiores valores de R2, ambos modelos de RF e RNA falharam na previsão dos valores extremos dessa variável. A acurácia dos modelos de classificação variou entre 61% e 70%, sendo que o método de RF apresentou melhor desempenho. Dentre as variáveis preditoras, aquelas que apresentaram maior relevância nos modelos construídos incluem: radiação incidente no topo da atmosfera, fluxos de calor, índice de área foliar e temperatura. Os resultados obtidos sugerem a viabilidade de predição de fluxos de carbono na Amazônia a partir de variáveis ambientais, constituindo o primeiro passo para a extrapolação de observações de fluxo locais para a escala regional. Já os modelos de classificação permitiram identificar as condições ambientais que favorecem a ocorrência de diferentes cenários de balanço de carbono e produtividade primária.