Abstract
La hipertensión arterial (HTA) ha sido considerada un reto en la salud debido a su impacto en la morbimortalidad cardiovascular y a su frecuente diagnóstico tardío. Se abordó el problema mediante el desarrollo de un modelo de clasificación predictiva basado en Random Forest, con el objetivo de identificar individuos en riesgo de hipertensión a partir de variables clínicas, demográficas y metabólicas. Se utilizó una base de datos proveniente de pacientes en México; mediante la técnica SMOTE-Tomek fue sometida a procesos de limpieza, normalización y balanceo. Se entrenó el modelo con el 70% de los datos y se validó con el 30% restante, aplicando validación cruzada k-fold (k=10). Se evaluó el rendimiento del modelo mediante métricas como precisión, sensibilidad, puntaje F1 y matriz de confusión. Se comparó el modelo con otros métodos como KNN y Decisión Tree. Se alcanzó una exactitud del 98% con el modelo optimizado (127 árboles, profundidad 20) destacando como predictores claves el índice de masa corporal, la presión arterial, la actividad física, el peso y la circunferencia de cintura. Aunque también se evaluaron biomarcadores metabólicos, estos presentaron menor relevancia en la clasificación frente a los predictores antropométricos. Los resultados obtenidos confirman que Random Forest es una herramienta robusta y precisa para la detección temprana del riesgo de hipertensión. Gracias a su integración mediante una API y un formulario interactivo, el modelo resulta accesible incluso para usuarios sin formación técnica, lo que contribuye a estrategias preventivas de salud públicaArterial hypertension (AH) has been considered a major public health concern due to its impact on cardiovascular morbidity and mortality and its frequent late diagnosis. This study addresses the problem by developing a predictive classification model based on the Random Forest algorithm, aiming to identify individuals at risk of hypertension using clinical, demographic, and metabolic variables. A dataset from patients in Mexico was used and processed through cleaning, normalization, and balancing with the SMOTE-Tomek technique. The model was trained with 70% of the data and validated with the remaining 30%, using 10-fold cross-validation. Its performance was evaluated through metrics such as precision, recall, F1-score, and confusion matrix. The model was compared with other methods such as KNN and Decision Tree. The optimized model (127 trees, depth 20) achieved an accuracy of 98% with body mass index, blood pressure, physical activity, weight, and waist circumference identified as the most relevant predictors. Although metabolic biomarkers were also evaluated, they were less relevant in the classification compared to anthropometric variables. The results confirm that Random Forest is a robust and accurate tool for the early detection of hypertension risk. Thanks to its integration via an API and an interactive form, the model is accessible even to not-technical users, contributing to preventive strategies in public health.
Cite
CITATION STYLE
Lévano Rodriguez, D., Cerdán León, F. E., Lopez Rodriguez, J. I., Alaluna Godinez, M. A., Valladares Salas, S. D., & Pereira Sartori, D. (2025). Hipertensión arterial en adultos: análisis de riesgo y clasificación predictiva mediante Random Forest. C&T Riqchary Revista de Investigación En Ciencia y Tecnología, 7(2), 1–8. https://doi.org/10.57166/riqchary.v7.n2.2025.1
Register to see more suggestions
Mendeley helps you to discover research relevant for your work.