TÉCNICAS DE EXTRAÇÃO DE CONHECIMENTO POR MEIO DE DADOS FALTANTES E MINERAÇÃO DE DADOS SOBRE AS VÍTIMAS DO CÉSIO-137: Uso De Imputação Múltipla Para Obtenção De Modelos Acurados.
DOI:
https://doi.org/10.33837/msj.v1i7.195Keywords:
dosimetria citogenética, imputação múltipla, modelos mais acurados, mineração de dados, regressão linear.Abstract
Lidar com dados massivos sem perda ou distorção de resultados requer a aplicação de técnicas aprimoradas de mineração de dados (Witten, Frank, & Hall, 2011). O problema não tratado dos dados faltantes distorce a realidade gerando modelos tendenciosos (Haukoos & Newgard, 2007). Aqui é exposto um ensaio sobre o problema de dados faltantes em pesquisas clínicas mediante técnicas de mineração de dados, métodos estatísticos de regressão linear e múltipla imputação. Foram analisados relatórios de dosimetria citogenética, dos acidentados com o Césio-137 em Goiânia, divididos quanto ao índice de dermatites apresentadas em: Grupo I e Grupo II. O Grupo I, apresentou percentagem de dados faltantes de quase vinte e oito por cento, já o Grupo II, apresentou falta de dados de cerca de sessenta e dois por cento, havendo assim nos dois casos, a degradação da amostra. Para os dois grupos foram aplicados métodos de regressão linear pré- e pós-imputação. O estudo exposto neste trabalho, mostra que a preocupação de pesquisadores, quanto à coleta de dados (Haukoos & Newgard, 2007), é realmente relevante. A imputação múltipla revela-se uma excelente escolha para o tratamento de dados faltantes, culminando na realização de modelos mais acurados, dirimindo deste modo, problemas de degradação da amostra.
References
Allison, P. D. (February de 2000). Multiple Imputation for Missing Data: A Cautionary Tale. Sociological Methods & Research, 28(3), 201-209. doi:10.1177/0049124100028003003
Allison, P. D. (2001). Missing Data (7th ed., Vol. 136). (D. Santoyo, Ed.) Thousand Oaks, California, EUA: SAGE Publications, Inc.
Baneshi, M. R., & Talei, A. R. (21 de June de 2010). Impact of Imputation of Missing Data on Estimation of Survival Rates: An Example in Breast Cancer. Iranian Journal of Cancer Prevention, 3(3), pp. 127-131.
Brown, M. L., & Kros, J. F. (2003). Data Mining and the impact of missing data. Industrial Management & Data Systems, 103(8), 611-621. doi:10.1108/02635570310497657
Donders, A. R., Heijden, G. J., Stijnen, T., & Moons, K. G. (10 de January de 2006). Review: A gentle introduction to imputation of missing values. Journal of Clinical Epidemiology, 59(10), 1087-1091. doi:10.1016/j.jclinepi.2006.01.014
Freels, S., & Sinha, K. (1 de September de 2008). R-squared for general regression models in the presence of sampling weights. Statistics and Probability Letters, 78(12), 1671–1672. doi:10.1016/j.spl.2008.01.010
Fuini, S. C., Souto, R., Amaral, G. F., & Amaral, R. G. (julho de 2013). Qualidade de vida dos indivíduos expostos ao césio-137, em Goiânia, Goiás, Brasil. Cad. Saúde Pública, 1301-1310.
Galvão, S. D. (2007). A Seleção de Atributos e o Aprendizado Supervisionado de Redes Bayesianas no Contexto da Mineração de Dados. Dissertação, Universidade Federal de São Carlos, São Carlos.
Goeij, M. C., Diepen, M. v., Jager, K. J., Tripepi, G., Zoccali, C., & Dekker, F. W. (31 de May de 2013). Multiple imputation: dealing with missing data. Nephrol Dial Transplant(28), 2415–2420. doi:10.1093/ndt/gft221
Haukoos, J. S., & Newgard, C. D. (July de 2007). Advanced Statistics: Missing Data in Clinical Research - Part 1: An Introduction and Conceptual Framework. (R. J. Lewis, Ed.) Academic Emergency Medicine, 14(7), 662-668. doi:10.1197/j.aem.2006.11.037
Heus, P. d. (March de 2012). R squared effect-size measures and overlap between direct and indirect effect in mediation analysis. Behavior Research Methods, 44(1), 213-221. doi:10.3758/s13428-011-0141-5
King, G. (1996). Stochastic variation: A comment on Lewis-Beck and Skalaban's "The R-Square". Political Analysis, 6(1), 1-36. doi:10.1093/pan/6.1.1
Newgard, C. D., & Haukoos, J. S. (July de 2007). Advanced Statistics: Missing Data in Clinical Research—Part 2: Multiple Imputation. Academic Emergency Medicine, 14(7), 669–678. doi:10.1197/j.aem.2006.11.038
Nunes, L. N., Klück, M. M., & Fachel, J. M. (fevereiro de 2009). Uso da imputação múltipla de dados faltantes: uma simulação utilizando dados epidemiológicos. Cad. Saúde Pública, 25(2), 270-278. doi:10.1590/S0102-311X2009000200005
Nunes, L. N., Klück, M. M., & Fachel, J. M. (dezembro de 2010). Comparação de métodos de imputação única e múltipla usando como exemplo um modelo de risco para mortalidade cirúrgica. Rev. Bras. Epidemiol., 13(4), 595-606. doi:10.1590/S1415-790X2010000400005
Osborne, J. W. (2013). DEALING WITH MISSING DATA OR INCOMPLETE DATA: Debunking The Mith of Emptiness. Em J. W. Osborne, Best Practices in Data Cleaning: A Complete Guide to Everything You Need to Do Before and After Collecting Your Data (p. 296). Los Angeles, California, USA: SAGE Publications, Inc.
Preacher, K. J., & Kelley, K. (2011). Effect Size Measures for Mediation Models: Quantitative Strategies for Communicating Indirect Effects. Psychological Methods, 16(2), 93–115. doi:10.1037/a0022658
SAS Institute Inc. (2012). Step-by-Step Programming with Base SAS® (2nd ed.). Cary, North Carolina, United States of America: SAS Institute Inc.
SAS Institute Inc. (2013). Introduction to Regression Procedures. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 67-104). Cary: SAS Institute Inc.
SAS Institute Inc. (2013). SAS/STAT® 13.1 User’s Guide. (A. Baxter, & E. Huddleston, Eds.) Cary, NC, USA: SAS Institute Inc.
SAS Institute Inc. (2013). The MCMC Procedure. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 4729-4994). Cary: SAS Institute Inc.
SAS Institute Inc. (2013). The MI Procedure. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 5033-5170). Cary: SAS Institute Inc.
SAS Institute Inc. (2013). The MIANALYZE Procedure. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 5171-5232). Cary: SAS Institute Inc.
SAS Institute Inc. (2013). The REG Procedure. Em S. I. Inc., A. Baxter, & E. Huddleston (Eds.), SAS/STAT® 13.1 User’s Guide (pp. 7019-7206). Cary: SAS Institute Inc.
Schafer, J. L. (February de 1999). Multiple imputation: a primer. Statistical Methods in Medical Research, 8(1), 3-15. doi:10.1177/096228029900800102
Spratt, M., Carpenter, J., Sterne, J. A., Carlin, J. B., Heron, J., Henderson, J., & Tilling, K. (8 de July de 2010). Strategies for Multiple Imputation in Longitudinal Studies. American Journal of Epidemiology, 172(4), 478–487. doi:10.1093/aje/kwq137
Taugourdeau, S., Villerd, J., Plantureux, S., Huguenin-Elie, O., & Amiaud, B. (26 de January de 2014). Filling the gap in functional trait databases: use of ecological hypotheses to replace missing data. Ecology and
Evolution, 4(7), pp. 944-958. doi:10.1002/ece3.989
van Buuren, S. (June de 2007). Multiple imputation of discrete and continuous data by fully conditional specification. Statistical Methods in Medical Research, 16(3), 219-242. doi:10.1177/0962280206074463
Witten, I. H., Frank, E., & Hall, M. A. (2011). DATA MINING: Practical Machine Learning Tools and Techniques (3rd ed.). Burlington, MA, USA: Elsevier.
Downloads
Published
How to Cite
Issue
Section
License
Authors who publish in this journal agree to the following terms:
a) The Authors retain the copyright and grant the journal the right to first publication, with the work simultaneously licensed under the Creative Commons Attribution License that allows the sharing of the work with acknowledgment of authorship and initial publication in this journal.
b) Authors are authorized to assume additional contracts separately, for non-exclusive distribution of the version of the work published in this journal (eg, publishing in institutional repository or as a book chapter), with acknowledgment of authorship and initial publication in this journal.
c) Authors are allowed and encouraged to publish and distribute their work online (eg in institutional repositories or on their personal page) at any point before or during the editorial process, as this can generate productive changes, as well as increase impact and citation of the published work.