Reconhecimento de entidades mencionadas para auxílio na descoberta de conhecimento em laudos de biópsia renal escritos em texto livre
Data
2014-07-30
Tipo
Dissertação de mestrado
Título da Revista
ISSN da Revista
Título de Volume
Resumo
Introduction: The health area is currently experiencing a great need for acquisition of knowledge, particularly from patient health records. This demand has caused techniques for natural language processing and text mining become indispensable resources for processing information. Objective: Thus, this study aimed to recognize named entities in renal biopsy reports, using text mining techniques supported by NLP and machine learning. Secondary objectives were to group the terms, characterizing sections of reports and create a specific vocabulary to renal biopsy area, aiming a future establishment of an ontology and support the knowledge discovery. Methods: To achieve the main goal, we used text mining techniques and tools, and we create an automatic terms recognizer based on the four vocabularies in Portuguese in the UMLS: DeCS, MedDRA, WHO and ICPC. In a complementary manner, we use techniques of machine learning and statistical analysis to classify and characterize the sections of the reports in accordance with the terms DeCS automatically recognized. Results: The recognizer was applied to the pre-processed reports, using the four vocabularies in Portuguese, also pre-processed. The best performance was achieved with DeCS while the worst was with ICPC. The number of terms that was automatically recognized was small, which was confirmed in the validation, after manual recognition of terms held for six volunteer doctors. This result is due to the scarcity of vocabularies in Portuguese, neither of which specifically covers the renal area. Conclusion: Thus, we conclude that the text mining techniques and term extraction tools were satisfactory, but because of the lack of vocabularies in Portuguese, in renal area, we couldn’t recognize a lot of terms automatically, generating differences between the terms that were automatically recognized and the terms that were recognized by doctors. Based on the intersection of these two results we create a vocabulary for renal biopsy that will be used to creating ontology and decision support systems, and assist in knowledge discovery. As complementary activities, we grouped the terms DeCS recognized in sections, using ML classifiers and we characterized the sections of reports based on the connections between DeCS terms, using statistical analyses.
aquisição de conhecimento novo, principalmente a partir de registros de saúde do paciente. Essa demanda fez com que técnicas de processamento de linguagem natural e mineração de textos se tornassem recursos indispensáveis para o processamento de informações. Objetivo: Assim, o presente trabalho objetivou reconhecer entidades mencionadas em laudos de biópsia renal, utilizando técnicas de mineração de texto apoiadas por PLN e aprendizado de máquina. Os objetivos secundários foram agrupar os termos, caracterizar as seções dos laudos e criar um vocabulário específico para a área de biópsia renal, visando a criação futura de uma ontologia que auxiliará na descoberta de conhecimento de biópsia renal. Métodos: Para atingir o objetivo principal, utilizamos técnicas e ferramentas de mineração de textos e criamos um reconhecedor automático de termos baseado nos quatro vocabulários em português que compões o UMLS: DeCS, MedDRA, ICPC e WHO. De maneira complementar, utilizamos técnicas de AM e análises estatísticas para classificar e caracterizar as seções dos laudos de acordo com os termos DeCS reconhecidos automaticamente. Resultados: O reconhecedor foi aplicado aos laudos pré-processados, utilizando como base os vocabulários em português, também pré-processados. O melhor desempenho foi alcançado com o DeCS enquanto o pior foi utilizando o ICPC. A quantidade de termos reconhecidos automaticamente foi pequena, o que foi comprovado na validação, após o reconhecimento manual dos termos, realizada por seis médicos voluntários. Esse resultado é devido à escassez de vocabulários em português, sendo que nenhum deles abrange especificamente a área renal. Conclusão: Assim, concluímos que as técnicas e ferramentas de mineração de textos e extração de termos foram satisfatórias, porém a falta de vocabulários em português, e na área renal, impediu que uma grande quantidade de termos fossem reconhecidos automaticamente e gerando divergências entre os termos que foram reconhecidos automaticamente e os que foram reconhecidos pelos médicos. Baseado na intersecção desses dois resultados criamos um vocabulário para biópsia renal que será utilizado futuramente na criação de uma ontologia e sistemas de apoia à decisão e auxiliará na descoberta de conhecimento. Como atividades complementares, agrupamos os termos DeCS reconhecidos em seções, utilizando classificadores de AM e conseguimos caracterizar as seções dos laudos baseado nas ligações entre os termos DeCS que as compõe, utilizando entre outros recursos, análises estatísticas.
aquisição de conhecimento novo, principalmente a partir de registros de saúde do paciente. Essa demanda fez com que técnicas de processamento de linguagem natural e mineração de textos se tornassem recursos indispensáveis para o processamento de informações. Objetivo: Assim, o presente trabalho objetivou reconhecer entidades mencionadas em laudos de biópsia renal, utilizando técnicas de mineração de texto apoiadas por PLN e aprendizado de máquina. Os objetivos secundários foram agrupar os termos, caracterizar as seções dos laudos e criar um vocabulário específico para a área de biópsia renal, visando a criação futura de uma ontologia que auxiliará na descoberta de conhecimento de biópsia renal. Métodos: Para atingir o objetivo principal, utilizamos técnicas e ferramentas de mineração de textos e criamos um reconhecedor automático de termos baseado nos quatro vocabulários em português que compões o UMLS: DeCS, MedDRA, ICPC e WHO. De maneira complementar, utilizamos técnicas de AM e análises estatísticas para classificar e caracterizar as seções dos laudos de acordo com os termos DeCS reconhecidos automaticamente. Resultados: O reconhecedor foi aplicado aos laudos pré-processados, utilizando como base os vocabulários em português, também pré-processados. O melhor desempenho foi alcançado com o DeCS enquanto o pior foi utilizando o ICPC. A quantidade de termos reconhecidos automaticamente foi pequena, o que foi comprovado na validação, após o reconhecimento manual dos termos, realizada por seis médicos voluntários. Esse resultado é devido à escassez de vocabulários em português, sendo que nenhum deles abrange especificamente a área renal. Conclusão: Assim, concluímos que as técnicas e ferramentas de mineração de textos e extração de termos foram satisfatórias, porém a falta de vocabulários em português, e na área renal, impediu que uma grande quantidade de termos fossem reconhecidos automaticamente e gerando divergências entre os termos que foram reconhecidos automaticamente e os que foram reconhecidos pelos médicos. Baseado na intersecção desses dois resultados criamos um vocabulário para biópsia renal que será utilizado futuramente na criação de uma ontologia e sistemas de apoia à decisão e auxiliará na descoberta de conhecimento. Como atividades complementares, agrupamos os termos DeCS reconhecidos em seções, utilizando classificadores de AM e conseguimos caracterizar as seções dos laudos baseado nas ligações entre os termos DeCS que as compõe, utilizando entre outros recursos, análises estatísticas.
Descrição
Citação
NICOLAS, Flavia Pena. Reconhecimento de entidades mencionadas para auxílio na descoberta de conhecimento em laudos de biópsia renal escritos em texto livre. 2014. 63 f. Dissertação (Mestrado) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP), São Paulo, 2014.