Abstract
RESUMO O objetivo deste trabalho foi desenvolver uma metodologia baseada em técnicas de mineração de dados para selecionar os principais marcadores SNP (Single Nucleotide Polymorphism) para as raças de ovinos: Crioula, Morada Nova e Santa Inês. Os dados utilizados foram obtidos do Consórcio Internacional de Ovinos e são compostos por 72 animais das raças citadas, e cada animal possui 49.034 marcadores SNP. Considerando que o número de atributos (marcadores) é muito maior que o de observações (animais), foram aplicadas as técnicas de predição LASSO (Least Absolute Shrinkage and Selection Operator), Random Forest e Boosting para a geração de modelos preditivos que incorporam métodos de seleção de atributos. Os resultados revelaram que os modelos preditivos selecionaram os principais marcadores SNP para identificação das raças estudadas. O modelo LASSO selecionou um total de 29 marcadores relevantes. A partir dos modelos Random Forest e Boosting, foram obtidos 27 e 20 marcadores importantes, respectivamente. Por meio da intersecção dos modelos gerados, identificou-se um subconjunto de 18 marcadores com maior potencial de identificação das raças.ABSTRACT This study aimed at developing a method based on data mining techniques to select key SNP markers (Single Nucleotide Polymorphism) for the sheep breeds Crioula, Morada Nova and Santa Inês. We gathered data from the International Sheep Consortium of 72 animals belonging to the aforementioned breeds; each animal has 49,034 SNP markers. Whereas the number of attributes (markers) is much greater than observations (animals), the LASSO (Least Absolute Shrinkage and Selection Operator), Random Forest and Boosting prediction methods were used to generate predictive models, incorporating selection methods and attributes. The results revealed that the predictive models selected the main SNP markers for sheep breed identification. The LASSO technique selected 29 relevant markers. Yet from Random Forest and Boosting selected 27 and 20 major markers, respectively. By intersecting the generated models, we could identify a subset of 18 markers with major potential for sheep breed identification.
Cite
CITATION STYLE
Vieira, F. D., Oliveira, S. R. de M., & Paiva, S. R. (2015). Metodologia baseada em técnicas de mineração de dados para suporte à certificação de raças de ovinos. Engenharia Agrícola, 35(6), 1172–1186. https://doi.org/10.1590/1809-4430-eng.agric.v35n6p1172-1186/2015
Register to see more suggestions
Mendeley helps you to discover research relevant for your work.