Detecção de Doenças do Sangue Usando Machine Learning
Como usar machine learning para detectar doenças no sangue.
A análise sanguínea é um indicador essencial para muitas doenças; contém vários parâmetros que são um sinal para doenças específicas do sangue. Para prever a doença de acordo com análise do sangue, padrões que levam à identificação da doença devem ser reconhecidos precisamente.
Machine Learning é o campo responsável por criar modelos para prever a produção com base em dados anteriores. A precisão dos algoritmos de aprendizado de máquina é com base na qualidade dos dados coletados para o processo de aprendizagem; esta pesquisa apresenta um novo conjunto de dados de referência que contém 668 registros.
O conjunto de dados é coletado e verificado por especialistas médicos de fontes altamente confiáveis. Várias algoritmos de machine learning foram testados e alcançaram resultados promissores.
I – INTRODUÇÃO
O sangue tem muitos segredos que afetam a vida humana. É o
carteiro que circula pelo corpo e visita todos os órgãos [1].
O crescimento da idade deve refletir-se no sangue. Essa mudança pode ser detectado pelos valores dos parâmetros no sangue testes de análise [2]. Dependendo de vários atributos, como idade, gênero, sintomas e quaisquer condições de saúde, o médico pode escolher os exames de sangue específicos para diagnosticar a doença. Muitos exames de sangue são padrão e essenciais para que todos possam fazer.
Os exames de sangue são generalizados por causa disso; a maioria dos médicos pode recomendar exames de sangue para prever o nível de saúde da corpo do paciente [3] [4].
A maioria dos exames de sangue não precisa de condições especiais, como
em jejum de 8 a 12 horas antes do teste ou impedindo tipos de medicamentos [5]. Ao testar o fluido, diferentes parâmetros na van de sangue ser medido. Os resultados ajudam a identificar problemas de saúde nos estágios iniciais ou doenças previsíveis [6] Médicos não conseguem diagnosticar doenças e problemas de saúde apenas com exames de sangue. No entanto, eles podem usá-los como um fator para confirmar um diagnóstico. Esses fatores podem incluir alguns sinais e sintomas, que poderiam ser integrados com outros sinais vitais para diagnosticar as doenças [7]. A doença está diagnosticando e processo de previsão é um processo necessário que se baseia no qualidade dos dados e experiência do médico. Aplicação moderna ferramentas tecnológicas para ajudar os médicos a melhorar a precisão do diagnóstico da doença, torne-se um dos tópicos mais importantes de pesquisa, especialmente aprendizado de máquina e artificial algoritmos de inteligência [8].
O aprendizado de máquina é uma tecnologia de análise de dados que ensina computadores para agir como seres humanos. Ele usa métodos computacionais para extrair informações diretamente dos dados [8]. O desempenho de o algoritmo de aprendizado de máquina é aprimorado de acordo com o qualidade dos dados, além de melhorar a previsão da doença
processo [9].
O principal objetivo desta pesquisa é usar máquinas técnicas de aprendizagem para detectar doenças do sangue de acordo com os valores dos exames de sangue; várias técnicas são realizadas para encontrar o algoritmo mais adequado que maximize a precisão de previsão [9]. O restante deste artigo está organizado como segue. A Seção II apresenta informações básicas sobre as técnicas utilizadas. A Seção III apresenta os diferentes métodos na previsão de doenças do sangue usando classificadores ML. A Seção IV descreve o conjunto de dados e os atributos do exame de sangue. A seção V mostra os resultados dos experimentos. Finalmente, seção VI apresenta a conclusão e o trabalho futuro da pesquisa.
II – CONHECIMENTO
O aprendizado de máquina é um ramo da ciência da computação que é responsável pelo desenvolvimento de sistemas de computador que possam aprender e mudar suas reações de acordo com a situação [9].
A metodologia de aprendizado de máquina depende do aprendizado de entradas de dados e avaliar os resultados do modelo e tentar otimizar a saída [10]. Também é usado na análise de dados para fazendo previsões sobre os dados. A Figura 1 mostra um resumo da máquina Atividade de aprendizagem. O aprendizado de máquina consiste em 3 modelos principais [11]:
- Aprendizado supervisionado: o computador é treinado com as entradas e as saídas desejadas, para prever a produção de insumos futuros.
- Aprendizado não supervisionado: o computador é apresentado com entradas sem saídas desejadas.
- Aprendizado por reforço: o computador interage com o ambiente e deve executar uma meta específica sem treinamento.
As técnicas de aprendizado de máquina tornam-se uma ferramenta essencial para previsão e tomada de decisão em muitas disciplinas [12]. A disponibilidade de dados clínicos leva o aprendizado de máquina a papel crítico na tomada de decisões médicas. Serve como um valioso auxiliar na identificação de uma doença para melhorar as decisões clínicas e escolha de procedimentos médicos adequados.
Utilizamos os seguintes classificadores para classificar os pacientes com base em conjuntos de dados de aprendizagem; esses classificadores são:
- Naive Bayes: é baseado no teorema de Bayes. Ele considera que cada atributo na tupla X não classificada é condicionalmente independente [13].
P (C1 | X) é a probabilidade da tupla X pertencer à classe 1, P (C1) a probabilidade da classe 1 que existe no conjunto de treinamento,
e a produção de cada atributo na Tupla X pertence à classe 1. A classificação é feita calculando a probabilidade da tupla X para cada classe rotulada e a tupla serão classificados para a classe com a máxima probabilidade [13] Esse algoritmo precisa de uma pequena quantidade de dados de treinamento para estimando os parâmetros vitais que fizeram o algoritmo extremamente rápido em comparação com métodos mais sofisticados.
- Uma rede bayesiana: é uma abordagem probabilística modelo gráfico acíclico; (DAG), representa um conjunto de variáveis e suas condições dependem de um direcionado gráfico acíclico. É ideal para lidar com um evento que ocorreu e prevendo a probabilidade de qualquer um várias possíveis causas conhecidas [14].
- Um perceptron multicamada: é um neural feedforward rede. Consiste em três camadas de nós ou mais: um camada de entrada, uma camada oculta e uma camada de saída. Cada nó é um neurônio que usa uma função de ativação. Usa técnica de aprendizado supervisionado por retropropagação; Treinamento; ele pode distinguir dados que não são aprendidos antes [15].
- Logit Boost: é um dos algoritmos de impulso; Está O objetivo principal é prever classes básicas de proteínas. Isto executa a classificação usando a regressão como base aluno, que pode lidar com problemas de várias classes [16].
- Classificador de florestas aleatórias: é um método de aprendizado de banda para classificação que opera construindo um múltiplas árvores de decisão treinando registros com seus classes rotuladas. Depois de construir a árvore, o desconhecido registros podem ser classificados [17].
- Máquina de vetores de suporte: representa os dados de treinamento como pontos em um espaço plano e separado por uma lacuna aparente. Novos exemplos são mapeados no espaço com a previsão categoria com base em que lado da lacuna eles caem [18].
- K-vizinho mais próximo (KNN): classifica o objeto com base na distância entre o novo objeto e o objetos definidos. O objeto é atribuído à classe k que tem a menor distância para a classe k definida como o vizinho mais próximo [19].
- Análise de regressão: é um processo para classificar os relações entre variáveis. Inclui muitos técnicas para modelar e analisar várias variáveis para encontrar a relação entre um dependente variável e uma ou mais variáveis independentes. Depois de encontrando a relação, os valores ausentes da variável poderia ser previsto com alta precisão [20].
- Árvore de Decisão: modela os atributos e seus valores com decisões na árvore; onde os nós contêm atributos com seus valores e folhas contêm decisões. O algoritmo considera todos os recursos e faz um binário dividir sobre eles. Ele ordena os atributos na árvore de acordo com o valor do ganho de informação em ordem. Após a construção da árvore, novas tuplas serão classificados de acordo com seus valores, atravessando a árvore até atingir a folha que contém a classe [21].
Todos esses classificadores são utilizados na predição de doenças processo para melhorar a tomada de decisão clínica e para minimizar os erros médicos, na próxima seção, listamos as pesquisas recentes que usando o aprendizado de máquina no sangue análise de doenças.
III – TRABALHOS RELACIONADOS
Existem muitos estudos na área de aprendizado de máquina técnicas de detecção de doenças, mas alguns deles interessado na detecção de doenças do sangue. Gregor Gunčar [22] e outros co-autores escrevem uma das pesquisas mais recentes que trabalhou na detecção de doenças do sangue usando aprendizado de máquina técnicas. Eles usaram algoritmos de aprendizado de máquina baseados em resultados de exames de sangue. Eles construíram dois modelos para prever o sangue doença. O primeiro é um modelo preditivo usado a maior parte do sangue parâmetros de teste, e o segundo usou apenas um conjunto reduzido isso é a internação mais comum [22]. Os dois modelos alcançaram bons resultados; eles obtêm 88% de precisão no primeiro modelo, 59% no segundo. O ponto chave deste estudo mostra que um modelo preditivo de aprendizado de máquina baseado em sangue testes podem prever com precisão hematológica. Essa pesquisa contém algumas limitações; alguns parâmetros não foram calculados como medidas f e recordar que pode levar a melhores resultados [22].
David Martinez [23] e outros co-autores também são interessados na detecção de doenças do sangue, mas eles se concentram em o conteúdo textual dos relatórios clínicos, além dos valores dos parâmetros de análise de sangue. Eles coletaram tomografia computadorizada de texto livre (TC)
período específico de hospitalização (2003-2011); esta coleção contém 264 doenças fúngicas invasivas (IFDs) e 289 controle pacientes. Eles trabalharam com métodos de mineração de texto e no nível de sentença [23]. Eles testaram uma variedade de Machine Learning, sistemas baseados em regras e híbridos. Além disso, extrai os sacos de palavras, sacos de frases e sacos de conceitos. O proposto modelo utilizou Support Vector Machines e alcançou um alto recall e precisão de 95% a 71%, respectivamente. O núcleo de este modelo é a alta qualidade dos documentos coletados e a extração de informações de relatórios e usos textuais na predição da doença [24].
IV – CONJUNTO DE DADOS DAS ANÁLISES DE SANGUE
Esta pesquisa apresenta um novo conjunto de dados de referência; contém 668 análises de sangue do paciente. Cada análise de sangue contém 28 parâmetros; esses parâmetros são apresentados na tabela I.
O conjunto de dados contém quatro classes principais relacionadas a quatro
diferentes doenças do sangue:
- Trombocitopenia: trata-se da falta de plaquetas. isto não é tão perigoso, mas às vezes leva a sangrar também muito [25].
- Leucocitose: causa aumento de glóbulos brancos acima o intervalo normal no sangue. Isso pode causar certas infecções parasitárias ou tumores ósseos, bem como leucemia [26].
- Anemia: é uma diminuição na quantidade de hemoglobina ou glóbulos vermelhos no sangue. Pode causar vagas e pode incluir sensação de cansaço, falta de ar ou fraqueza [27].
- Normal: nesta classe, cujos valores de todos os parâmetros são normal e não há notificações essenciais no análise de sangue.
Cada registro no conjunto de dados proposto é rotulado com sua classe relacionada; esta classificação é realizada manualmente por médicos especialistas.
V – RESULTADOS DO EXPERIMENTO E DISCUSSÃO
Usando a ferramenta Weka, um aprendizado de máquina clássico algoritmos são aplicados em 668 registros que pertencem a quatro classes diferentes, conforme descrito na seção do conjunto de dados. 10 vezes a validação cruzada é usada para todas as experiências após executando os módulos de pré-processamento necessários apresentados em Figura 1. A validação cruzada é um método estatístico de avaliação e comparando classificadores de aprendizado dividindo dados em dois segmentos: um usado para aprender ou treinar um modelo e o outro usado para validar o modelo. Os conjuntos de treinamento e validação devem cruzamento em rodadas sucessivas, de modo que cada ponto de dados tenha uma chance de ser validado.
Para cada classificador, várias métricas foram medidas para determinar a precisão. Além disso, os valores dos parâmetros de cada classificador foram alterados de acordo com as especificações de cada classificador. A tabela II apresenta as métricas de avaliação usadas nas experiências e sua descrição. A tabela III mostra a resultados de experimentos. A precisão de todos os classificadores é variada entre 71,2% e 98,16%. O classificador LogitBoost possui o maior precisão, onde o classificador Support Vector Machine possui o menor valor. A Tabela IV mostra a precisão dos classificadores em ordem decrescente. Os resultados gerais comprovam o sucesso de aplicação dos algoritmos clássicos de aprendizado de máquina processo de previsão de doenças do sangue.
VI – CONCLUSÃO E TRABALHOS FUTUROS
O aprendizado de máquina se torna uma técnica essencial para modelar o processo humano em muitas disciplinas, especialmente em no campo médico, devido à alta disponibilidade de dados. 1 um dos detectores essenciais de doenças é a análise de sangue; como contém muitos parâmetros com valores diferentes que indicam prova definitiva da existência da doença. A máquina A precisão do algoritmo de aprendizagem depende principalmente da qualidade do conjunto de dados; por esse motivo, um conjunto de dados de alta qualidade é coletado e verificado por médicos especialistas. Este conjunto de dados é usado para treinando os classificadores para obter alta precisão. Nós testamos classificadores e alcançou precisão de até 98,16%, o que realizar o objetivo da pesquisa, que está ajudando os médicos prever as doenças do sangue de acordo com o exame geral de sangue.
O trabalho futuro se concentrará em testar o conjunto de dados proposto usando diferentes algoritmos de aprendizado profundo para comparar abordagens de aprendizagem clássica e profunda nesta área de pesquisa. Além disso, um aplicativo on-line da Internet das Coisas (IOT) será implementado para coletar e testar mais dados de sangue.
REFERÊNCIAS
[1] Lewontin, Richard C. It ain’t necessarily so: The dream of the human genome and other illusions. New York Review of Books, 2001.
[2] Feldman, Eric A., Eric Feldman, and Ronald Bayer, eds. Blood feuds: AIDS, blood, and the politics of medical disaster. Oxford University Press, USA, 1999.
[3] Fekkes, Minne, et al. “Do bullied children get ill, or do ill children get bullied? A prospective cohort study on the relationship between bullying and health-related symptoms.” Pediatrics 117.5 ;2006: 1568-1574.
[4] ESHRE, The Rotterdam, and ASRM-Sponsored PCOS Consensus Workshop Group. “Revised 2003 consensus on diagnostic criteria and long-term health risks related to polycystic ovary syndrome.” Fertility and sterility 81.1 ;2004: 19-25.
[5] Schalm, Oscar William, Nemi Chand Jain, and Edward James Carroll. Veterinary hematology. No. 3rd edition. Lea & Febiger., 1975.
[6] Allison, James E., et al. “A comparison of fecal occult-blood tests for colorectal-cancer screening.” New England Journal of Medicine 334.3;1996: 155-160.
[7] Park, Sang Hyuk, et al. “Establishment of age-and gender-specific reference ranges for 36 routine and 57 cell population data items in a new automated blood cell analyzer, Sysmex XN-2000.” Annals of laboratory medicine 36.3 ;2016: 244-249.
[8] Cabitza, Federico, Raffaele Rasoini, and Gian Franco Gensini. “Unintended consequences of machine learning in medicine.” Jama 318.6 ;2017: 517-518.
[9] Darcy, Alison M., Alan K. Louie, and Laura Weiss Roberts. “Machine
learning and the profession of medicine.” Jama 315.6 ;2016: 551-552.
[10] Jiang, Min, et al. “A study of machine-learning-based approaches to extract clinical entities and their assertions from discharge summaries.” Journal of the American Medical Informatics Association 18.5 ;2011:
601-606.
[11] Lison, Pierre. “An introduction to machine learning.” ;2015.
[12] Michalski, Ryszard S., and Yves Kodratoff. “Research in machine learning: Recent progress, classification of methods, and future directions.” Machine learning. Morgan Kaufmann, 1990. 3-30.
[13] Rish, Irina. “An empirical study of the naive Bayes classifier.” IJCAI 2001 workshop on empirical methods in artificial intelligence. Vol. 3. No. 22. 2001.
[14] Friedman, Nir, Dan Geiger, and Moises Goldszmidt. “Bayesian network classifiers.” Machine learning 29.2-3 ;1997: 131-163.
[15] Ruck, Dennis W., et al. “The multilayer perceptron as an approximation to a Bayes optimal discriminant function.” IEEE Transactions on Neural Networks 1.4 ;1990: 296-298.
[16] Otero, José, and Luciano Sánchez. “Induction of descriptive fuzzy classifiers with the Logitboost algorithm.” Soft Computing 10.9 ;2006:825-835.
[17] Breiman, Leo. “Random forests.” Machine learning 45.1 ;2001: 5-32.
[18] Suykens, Johan AK, and Joos Vandewalle. “Least squares support vector machine classifiers” Neural processing letters 9.3 ;1999: 293-300.
[19] Keller, James M., Michael R. Gray, and James A. Givens. “A fuzzy knearest neighbor algorithm.” IEEE transactions on systems, man, and
cybernetics 4 ;1985: 580-585.
[20] Seber, George AF, and Alan J. Lee. Linear regression analysis. Vol. 329. John Wiley & Sons, 2012.
[21] Safavian, S. Rasoul, and David Landgrebe. “A survey of decision tree classifier methodology.” IEEE transactions on systems, man, and cybernetics 21.3 ;1991: 660-674.
[22] Gunčar, Gregor, et al. “An application of machine learning to haematological diagnosis.” Scientific reports 8.1 ;2018: 411.
[23] Martinez, David, et al. “Automatic detection of patients with invasive fungal disease from free-text computed tomography (CT) scans.” Journal of biomedical informatics 53 ;2015: 251-260.
[24] Pekelharing, J. M., et al. “Haematology reference intervals for established and novel parameters in healthy adults.” Sysmex Journal International 20.1 ;2010: 1-9.
[25] Warkentin, Theodore E., and John G. Kelton. “A 14-year study of heparin-induced thrombocytopenia.” The American journal of medicine 101.5 ;1996: 502-507.
[26] Shopsin, Baron, Richard Friedmann, and Samuel Gershon. “Lithium and leukocytosis” Clinical Pharmacology & Therapeutics 12.6;1971:923-928.
[27] Weiss, Guenter, and Lawrence T. Goodnough. “Anemia of chronic disease.” New England Journal of Medicine 352.10 ;2005: 1011-1023.
[28] Ragab, Abdul Hamid M., et al. “A comparative analysis of classification algorithms for students college enrollment approval using data mining.” Proceedings of the 2014 Workshop on Interaction Design in Educational Environments. ACM, 2014.
Artigo traduzido do (IJACSA) International Journal of Advanced Computer Science and Applications, Vol. 10, No. 7, 2019.