Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying

Ali Soroush; Benjamin S. Glicksberg; Eyal Zimlichman; Yiftach Barash; Robert Freeman; Alexander W. Charney; Girish N Nadkarni; Eyal Klang

Journal ArticleOPEN ACCESS

Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying

Soroush A
Glicksberg B
Zimlichman E
et al.

NEJM AI (2024) 1(5)

DOI: 10.1056/aidbp2300040

N/ACitations

53Readers

Abstract

Tokenization algorithms may to be blame when generative large language models inconsistently match medical billing codes to their preferred code descriptions.

Cite

CITATION STYLE

APA

Soroush, A., Glicksberg, B. S., Zimlichman, E., Barash, Y., Freeman, R., Charney, A. W., … Klang, E. (2024). Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying. NEJM AI, 1(5). https://doi.org/10.1056/aidbp2300040

Large Language Models Are Poor Medical Coders — Benchmarking of Medical Code Querying

Abstract

Cite

Register to see more suggestions