Practical implementation of an existing smoking detection pipeline and reduced support vector machine training corpus requirements

Richard Khor; Wai Kuan Yip; Mathias Bresse; William Rose; Gillian Duchesne; Farshad Foroudi

Journal ArticleOPEN ACCESS

Practical implementation of an existing smoking detection pipeline and reduced support vector machine training corpus requirements

Journal of the American Medical Informatics Association (2014) 21(1) 27-30

DOI: 10.1136/amiajnl-2013-002090

11Citations

45Readers

Abstract

This study aimed to reduce reliance on large training datasets in support vector machine (SVM)-based clinical text analysis by categorizing keyword features. An enhanced Mayo smoking status detection pipeline was deployed. We used a corpus of 709 annotated patient narratives. The pipeline was optimized for local data entry practice and lexicon. SVM classifier retraining used a grouped keyword approach for better efficiency. Accuracy, precision, and F-measure of the unaltered and optimized pipelines were evaluated using k-fold crossvalidation. Initial accuracy of the clinical Text Analysis and Knowledge Extraction System (cTAKES) package was 0.69. Localization and keyword grouping improved system accuracy to 0.9 and 0.92, respectively. F-measures for current and past smoker classes improved from 0.43 to 0.81 and 0.71 to 0.91, respectively. Non-smoker and unknown-class F-measures were 0.96 and 0.98, respectively. Keyword grouping had no negative effect on performance, and decreased training time. Grouping keywords is a practical method to reduce training corpus size.

Cite

CITATION STYLE

APA

Khor, R., Yip, W. K., Bresse, M., Rose, W., Duchesne, G., & Foroudi, F. (2014). Practical implementation of an existing smoking detection pipeline and reduced support vector machine training corpus requirements. Journal of the American Medical Informatics Association, 21(1), 27–30. https://doi.org/10.1136/amiajnl-2013-002090

Practical implementation of an existing smoking detection pipeline and reduced support vector machine training corpus requirements

Abstract

Cite

Register to see more suggestions