viernes, 20 de junio de 2014

Conversión de archivos PDF y WORD a fragmentos en TXT en Java

Este mes estuve trabajando en una librería customizada en java la cual debía convertir ciertos documentos, algunos con extensión PDF y otros en WORD (.doc), en archivos de texto plano TXT, aparte de esta tarea se requería fragmentar los archivos TXT según ciertos indicadores de corte (TOKENS).



Todo este proceso aparentemente sin sentido era necesario pues existe una arquitectura de búsqueda de IBM denominada Content Analytics que realiza la tarea de una manera mas óptima y para lo cual requiere la fragmentación.



La parte de extracción de texto plano ,la desarrolle basandome en las siguientes API's: para PDF use iText (anteriormente denominada lowagie) y para WORD use Apache POI. Añadí finalmente un archivo de configuración (config.properties) en donde se especifica una ruta de entrada para PDF, una ruta de entrada para WORD y una sola ruta de exportación para ambos, aparte también añadí un vector de tokens para PDF separado por comas y otro vector de tokens para WORD, también separado por comas.Existen en la solución dos archivos demo.java uno es para PDF y otro es para WORD. Espero les sirva, les dejo aquí el link del drive, hasta la próxima!


No hay comentarios:

Publicar un comentario