コンピュータを使用した専門用語自動抽出は,従来,対象とする専門分野のテキストコーパスのみをデータとして行っているものが多かった.しかし,専門用語の特徴として,対象分野のコーパスに頻出し,対象分野以外の他分野コーパスにはあまり多く出現しない点が挙げられる.そこで本研究では,対象分野コーパスと他分野コーパスとの用語の出現率の差を考慮した手法を提案する.実験では,女性学のテキストを対象分野のコーパスとして使用し,他分野のコーパスとして39分野のテキストを使用した.実験の結果,従来の代表的手法よりもかなり高い精度で用語が抽出できることが明らかとなった.また39分野のテキストから任意のテキストを選び他分野コーパスとして用いてコーパスの規模を縮小できるか実験を行った.その結果,対象分野と類似した分野のテキストを用いることで,39分野すべてのテキストを用いた場合の抽出精度・再現率に近づけることができた.
CITATION STYLE
KUBO, J., TSUJI, K., & SUGIMOTO, S. (2010). Automatic Term Recognition Using the Corpora of the Different Academic Areas. Joho Chishiki Gakkaishi, 20(1), 15–31. https://doi.org/10.2964/jsik.19-320
Mendeley helps you to discover research relevant for your work.