A Texture-based Method for Document Segmentation and Classification

Ming-Wei Lin; Jules-Raymond Tapamo; Baird Ndovie

Journal ArticleOPEN ACCESS

A Texture-based Method for Document Segmentation and Classification

Lin M
Tapamo J
Ndovie B

Revue Africaine de Recherche en Informatique et Mathématiques Appliquées (2007) Volume 6, april 2007, joint...

DOI: 10.46298/arima.1878

N/ACitations

35Readers

Abstract

In this paper we present a hybrid approach to segment and classify contents of document images. A Document Image is segmented into three types of regions: Graphics, Text and Space. The image of a document is subdivided into blocks and for each block five GLCM (Grey Level Co-occurrence Matrix) features are extracted. Based on these features, blocks are then clustered into three groups using K-Means algorithm; connected blocks that belong to the same group are merged. The classification of groups is done using pre-learned heuristic rules. Experiments were conducted on scanned newspapers and images from MediaTeam Document DatabaseDans cet article nous présentons un modèle hybride de segmentation et classification du contenu d'images de documents. Chaque image est segmentée en trois types de régions: graphiques, textes et espaces. L'image de chaque document est subdivisée en blocs; pour chacun de ces blocs, cinq caractéristiques sont extraites de leur Matrice de Co-occurrence de leur niveaux de gris. Les blocs sont ensuite regroupés en trois classes en utilisant l'algorithme du K-means. Les blocs connectés sont fusionnés pour former un ensemble de régions homogènes. Des règles heuristiques sont ensuite utilisées pour donner un label à chacune des trois classes. Des expérimentations ont été effectuées avec des images scannées de journaux et des images de la base de données documentaire MediaTeam

Cite

CITATION STYLE

APA

Lin, M.-W., Tapamo, J.-R., & Ndovie, B. (2007). A Texture-based Method for Document Segmentation and Classification. Revue Africaine de Recherche En Informatique et Mathématiques Appliquées, Volume 6, april 2007, joint... https://doi.org/10.46298/arima.1878

A Texture-based Method for Document Segmentation and Classification

Abstract

Cite

Register to see more suggestions