Abstract
In this paper we present a hybrid approach to segment and classify contents of document images. A Document Image is segmented into three types of regions: Graphics, Text and Space. The image of a document is subdivided into blocks and for each block five GLCM (Grey Level Co-occurrence Matrix) features are extracted. Based on these features, blocks are then clustered into three groups using K-Means algorithm; connected blocks that belong to the same group are merged. The classification of groups is done using pre-learned heuristic rules. Experiments were conducted on scanned newspapers and images from MediaTeam Document DatabaseDans cet article nous présentons un modèle hybride de segmentation et classification du contenu d'images de documents. Chaque image est segmentée en trois types de régions: graphiques, textes et espaces. L'image de chaque document est subdivisée en blocs; pour chacun de ces blocs, cinq caractéristiques sont extraites de leur Matrice de Co-occurrence de leur niveaux de gris. Les blocs sont ensuite regroupés en trois classes en utilisant l'algorithme du K-means. Les blocs connectés sont fusionnés pour former un ensemble de régions homogènes. Des règles heuristiques sont ensuite utilisées pour donner un label à chacune des trois classes. Des expérimentations ont été effectuées avec des images scannées de journaux et des images de la base de données documentaire MediaTeam
Cite
CITATION STYLE
Lin, M.-W., Tapamo, J.-R., & Ndovie, B. (2007). A Texture-based Method for Document Segmentation and Classification. Revue Africaine de Recherche En Informatique et Mathématiques Appliquées, Volume 6, april 2007, joint... https://doi.org/10.46298/arima.1878
Register to see more suggestions
Mendeley helps you to discover research relevant for your work.