Un grupo de periodistas han anunciado el lanzamiento de DocHive, una innovadora solución de software libre para el problema que muchos escritores y periodistas tienen a la hora de obtener datos o imágenes de archivos PDF.
La solución permite convertir de forma fácil los datos en formato Hoja de Cálculo u otros medios diferentes.
El editor Charles Duncan Pardo y su equipo se encontraban a diario el típico problema que ocurre en muchas pequeñas salas de redacción; no disponen del personal suficiente para hacer la entrada de datos de cientos de páginas de información, ni el presupuesto para contratar a algún estudiante universitario que pueda hacerlo por ellos.
Así que Duncan creó junto con su hermano Edward -programador informático- una solución llamada DocHive. Esta herramienta utiliza XML para romper una página en pequeñas secciones, separando cada una en su propio archivo.
A continuación, se utiliza una tecnología de reconocimiento óptico de caracteres (OCR) para leer las palabras o los números e insertarlos en un archivo de texto.
DocHive será lanzado oficialmente el 28 de febrero. El código estará en GitHub y se creará un Wiki en el servidor para compartir plantillas y documentación. La elección de licencia de uso es lo que aún no se ha determinado.
Esta es sin duda una gran noticia para periodistas y escritores, que tendrán así una manera fácil y rápida de convertir los datos en información estructurada.
Más información – El Software Libre y su influencia en el mercado de trabajo en Estados Unidos
Fuente - opensource.com
El artículo DocHive, Software Libre para extraer datos de PDFs ha sido originalmente publicado en Linux Adictos.