Como acceder desde Java a contenidos de celdas en Excel


Lo cierto es puede que  en  ocasiones necesitemos procesar ficheros excel u otro tipo de hojas de cálculo de   forma automatizada, por ejemplo  para extraer  información  de determinadas celdas, manipular estas , generar ficheros de metadatos que  sigan ciertas reglas , etc

En este caso nos vamos a centrar en los documentos OLE 2 de Microsoft, que manipularemos  usando la libreria  Apache POI – the Java API for Microsoft Documents, que nos proporciona acceso a los diferentes tipos de ficheros de Microsoft que utilizan esta estructura como:  Excel Word o  Powerpoint, también hay otros proyectos dentro de esta API para Visio y Publisher por ejemplo

Como se  puede   imaginar de todos estos el más desarrollado es Excel Workbooks y es precisamente el tipo de fichero elegido para este ejemplo.

Antes de empezar  usaremos  la librería POI-HSSF and POI-XSSF – Java API To Access Microsoft, donde HSSF es el proyecto POI de implementación total en Java para ficheros excel.Esta libreria usa cuatro componentes fundamentalmente:

  • HSSFWorkbook: Representación de alto nivel de un libro (Workbook) que será nuestra documento excel. Es el primer objeto que construiremos si vamos a leer o escribir una hoja excel.
  • HSSFSheet: representación de alto nivel de una hoja excel, podemos elegir la hoja de la excel usando el HSSFWorkBook.
  • HSSFRow: representación de celda de una fila de la hoja excel, solo las filas que tienen filas se pueden añadir a la hoja.
  • HSSFCell: representación de una celda en una fila de la un hoja de la excel, la utilizaremos para manejar el contenido de la celda.

Bien, sin más  dilaciones,  empezamos  a  ver como podemos procesar ficheros de Tipo Excel  

Paso 1: Descargar librería Apache Poi Java API

Antes de nada, tenemos que descargar la librería API Apache Poi Java, para añadirla a nuestro proyecto, voy a explicar cómo hacerlo en el IDE que estoy usando para este ejemplo: Netbeans, en otros IDES será similar la forma de integración de las librerías.

En nuestro proyecto buscamos la carpeta Libraries nos colocamos encima y seleccionamos Add Library, no tiene mucho que explicar así que te lo mostraré en imágenes:

La librería es  https://www.apache.org/dyn/closer.lua/poi/release/bin/poi-bin-4.1.0-20190412.zip

 

 

 

 

Paso 2-Registro de la librería en nuestro proyecto

Una vez  descargada y descomprimida, nos iremos a Properties del proyecto , después a   Java Build Path y   pincharemos en la pestaña  Libraries

Aquí  pulsaremos Add External JARs  seleccionando “poi-4.01.jar” desde al ruta donde la hayamos dejado esta librería.

 

 

Paso 3-Incluir las librerías

Ahora toca pasarse  a  programar, pero antes , no debemos olvidar importar las  cuatro librerias  que comentaabamos al principio

  • HSSFRow: representación de celda de una fila de la hoja excel, solo las filas que tienen filas se pueden añadir a la hoja.
  • HSSFWorkbook: Representación de alto nivel de un libro (Workbook) que será nuestra documento excel. Es el primer objeto que construiremos si vamos a leer o escribir una hoja excel.
  • HSSFSheet: representación de alto nivel de una hoja excel, podemos elegir la hoja de la excel usando el HSSFWorkBook.
  • HSSFCell: representación de una celda en una fila de la un hoja de la excel, la utilizaremos para manejar el contenido de la celda

Visto asi , adjuntando otras librerias utiles , la cabecera de importaciones de librerias quedaria  asi: 

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;


import java.io.FileInputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.util.Iterator;
import java.util.ArrayList;
import java.util.List;

import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hssf.usermodel.HSSFSheet;

import java.io.FileDescriptor;

import org.apache.poi.ss.usermodel.Cell;

 

Paso 4-Convertir al menos a  formato excel97  o superior

Antes de proseguir , en caso de tener ficheros excel en formato muy antiguos( por ejemplo Excel 95) .  deberemos  convertir estos   al menos al  formato excel 97,  para ello, en caso de que el formato sea de excel 95 deberemos abrir dicho fichero e irnos  a la opción   Guardar como seleccionamos   “libro de Excel 97-2003(*.xls)”

 

 

 

5-Pasemos al código

Una vez salvada  la hoja en formato excel 97 o superior  veamos un simple ejemplo de cómo capturar  los valores contenidos en las celdas

 

                      ——

      FileInputStream file = new FileInputStream(new File("C:\\prueba.xls"));

    // Crear el objeto que tendrá el libro de Excel

      XSSFWorkbook workbook = new XSSFWorkbook(file);

      /** Obtenemos la primera pestaña a la que se quiera procesar indicando el indice.

     * Una vez obtenida la hoja excel con las filas que se quieren leer obtenemos el iterator

      * que nos permite recorrer cada una de las filas que contiene.

      */



      XSSFSheet sheet = workbook.getSheetAt(0);

      Iterator<Row> rowIterator = sheet.iterator();

      Row row;

    // Recorremos todas las filas para mostrar el contenido de cada celda

      while (rowIterator.hasNext()){

          row = rowIterator.next();

         // Obtenemos el iterator que permite recorres todas las celdas de una fila

          Iterator<Cell> cellIterator = row.cellIterator();

          Cell celda;

          while (cellIterator.hasNext()){

            celda = cellIterator.next();

            // Dependiendo del formato de la celda el valor se debe mostrar como String, Fecha, boolean, entero...

            switch(celda.getCellType()) {

            case Cell.CELL_TYPE_NUMERIC:

                if( DateUtil.isCellDateFormatted(celda) ){

                   System.out.println(celda.getDateCellValue());

                }else{

                   System.out.println(celda.getNumericCellValue());

                }

                break;

            case Cell.CELL_TYPE_STRING:

                System.out.println(celda.getStringCellValue());

                break;

            case Cell.CELL_TYPE_BOOLEAN:

                System.out.println(celda.getBooleanCellValue());

                break;

            }

          }

      }


   // cerramos el libro excel

      workbook.close();


Como vemos en el ejemplo anterior , crearemos el objeto que tendrá el libro de Excel(FileInputStream file = new FileInputStream(new File(“xxx..) y obtenemos la primera pestaña a la que se quiera procesar indicando el indice 0 (  XSSFSheet sheet = workbook.getSheetAt(0);

Una vez obtenida la hoja excel con las filas que se quieren leer ,obtenemos el iterator que nos permite recorrer cada una de las filas que contiene. (  Iterator<Row> rowIterator = sheet.iterator()😉

Y  ya bastaría ir recorriendo todas las filas con un bucle  while ( while (cellIterator.hasNext()))  ,  lo cual nos  va  a permitir  procesar  el contenido de cada celda

Obtenemos el iterator(  row = rowIterator.next(); ) que permite recorrer todas las celdas de una fila y salvar el objeto en la variable row

Ahora ya dependiendo del formato de la celda de la variable   row  ,  el valor se debe mostrar como String, Fecha, boolean, entero

El programa tras recorrer todas las filas acaba cerrando el libro excel

 

 

Como ejemplo más elaborado , vamos a ver como procesar  una hoja excel s donde cada fila representa los diferentes metadatos , por lo que con el programa  iremos capturando dicha información diferente  celda a celda para cada fila , para ir componiendo una fila de texto con los diferentes metadatos  capturados   y  que separaremos por el carácter almohadilla ( #) .

Finalmente veamos  pues el ejemplo cuya finalidad es extraer de un excel un fichero csv de un modo automático via el siguiente programa en java;

 

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;


import java.io.FileInputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.util.Iterator;
import java.util.ArrayList;
import java.util.List;

import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.hssf.usermodel.HSSFSheet;

import java.io.FileDescriptor;

import org.apache.poi.ss.usermodel.Cell;

 

 

public class Main {

//private static String nombre;

public static void main(final String[] args) throws IOException {

String lineaslog=””;
String lineaslog2=”\r\n”;

//fichero de log
File filelog = new File(“d://ficherolog.txt”);
FileOutputStream fos2log = new FileOutputStream(filelog);

 


//añadimos 4 ceros la contador y generamos nuevo nombre
nfichero= “salida.txt”;
System.out.println(“Nuevo nombre fichero salida:” + nfichero);
lineaslog=”Nuevo nombre fichero salida:” + nfichero;
fos2log.write(lineaslog.getBytes());
fos2log.write(lineaslog2.getBytes());
//Procesar el excel a txt


//Creamos nuevo fichero de metadatos del tipo texto
File file = new File(nfichero);
FileOutputStream fos1 = new FileOutputStream(file);
FileDescriptor fd = fos1.getFD();


FileOutputStream fos2 = new FileOutputStream(fd);

String rutaArchivo=files22[ i ] ; //directorio3;
System.out.println (“Leyendo archivo :” + rutaArchivo );
lineaslog=”Leyendo archivo :” + rutaArchivo ;
fos2log.write(lineaslog.getBytes());
fos2log.write(lineaslog2.getBytes());

System.out.println (“NOMBRE HOJA :”+ hoja);
lineaslog=”NOMBRE HOJA :”+ hoja;
fos2log.write(lineaslog.getBytes());
fos2log.write(lineaslog2.getBytes());



try (FileInputStream fileexcel = new FileInputStream(new File(rutaArchivo)))

{
System.out.println(“Leer archivo Excel “);
lineaslog=”Leer archivo Excel “;
fos2log.write(lineaslog.getBytes());
fos2log.write(lineaslog2.getBytes());

// leer archivo excel97
HSSFWorkbook worbook = new HSSFWorkbook(fileexcel);

System.out.println(“Leyendo la hoja del fichero excel”);
lineaslog=”Leyendo la hoja del fichero excel”;
fos2log.write(lineaslog.getBytes());
fos2log.write(lineaslog2.getBytes());

//obtener la hoja que se va leer
HSSFSheet sheet = worbook.getSheetAt(0);

System.out.println(“Obtener las hojas del fichero excel”);
lineaslog=”Obtener las hojas del fichero excel”;
fos2log.write(lineaslog.getBytes());
fos2log.write(lineaslog2.getBytes());
//obtener todas las filas de la hoja excel
Iterator<Row> rowIterator = sheet.iterator();

Row row;

System.out.println(“La ruta del fichero excel es rutaarchivo :”+rutaArchivo);
lineaslog=”La ruta del fichero excel es rutaarchiv:”+rutaArchivo;
fos2log.write(lineaslog.getBytes());
fos2log.write(lineaslog2.getBytes());


Integer nm3=0;

while (rowIterator.hasNext()) // se recorre cada fila hasta el final

{

//System.out.println(“linea1”);

row = rowIterator.next();
nm3=nm3+1;

//se obtiene las celdas por fila
Iterator<Cell> cellIterator = row.cellIterator();
Cell cell;

//se recorre cada celda
int indice=0;
while (cellIterator.hasNext()) {

// se obtiene la celda en específico y se la imprime
cell = cellIterator.next();

//System.out.print(“(i”+i +”)=”+ cell.getStringCellValue()+” | “);

switch (indice) //tomaremos diferentes columnas del fichero excel
{

case 0:
{
nombre_fichero=cell.getStringCellValue();
}
case 1:
{
boletin=cell.getStringCellValue();
}
case 2:
{
telefono=cell.getStringCellValue();
}

case 3: // cif o nif
{
ncif=cell.getStringCellValue();
}

case 4: //valor del cif
{
cif=cell.getStringCellValue();
}

case 8:
{
fecha=cell.getStringCellValue();
}
case 9:
{
hora=cell.getStringCellValue();
}
}



linea= linea + cell.getStringCellValue() +”#”;

indice=indice+1;

}


lineas=boletin +”#” +telefono +”#”+ncif+”#” + cif+”#”+tipo +”#” +fecha+” “+hora+”#” +”#” +”#” +”#”+ nombre_fichero+ “#”+ nombre_fichero+”#”;


fos2.write(lineas.getBytes());

//System.out.println();

lineas=”\r\n”;

fos2.write(lineas.getBytes());

}

worbook.close();


linearesumen= directorio+”;”+ hoja +”;”+directorio22+ “P5_”+ fechaok+String.format(“%05d”, contador) +”;”+nm3;

fos3.write(linearesumen.getBytes());

linearesumen=”\r\n”;

fos3.write(linearesumen.getBytes());

nm3=0;

}
catch (Exception e)

{

e.getMessage();
System.out.println(e.getMessage());
lineaslog=e.getMessage();
fos2log.write(lineaslog.getBytes());
fos2log.write(lineaslog2.getBytes());

}

fos1.close();
fos2.close();

System.out.println(“Fin de generacion del txt de metadatos desde excel a txt”);
lineaslog=”Fin de generacion del txt de metadatos desde excel a txt”;
fos2log.write(lineaslog.getBytes());
fos2log.write(lineaslog2.getBytes());

}

Anuncios

Extracción de datos de un pdf desde Java


A veces  necesitamos  extraer información de texto procedente de  ficheros  en formato pdf   por ejemplo  para automatizar la extracción de determinada información  relevante que contengan o simplemente porque deseamos guardar la información editable  en  otro formato mas amigable. En realidad es realmente interesante    intentar   automatizar esta  tarea  pues así nos   evitamos  manipulaciones manuales   y tediosas lo cual seguramente nos hagan perder mucho tiempo  con la gran escasez de este elemento de la vida moderna del que  tampoco disponemos

Vamos  a ver dos métodos  para hacerlo  usando el IDE  de  Eclipse y el lenguaje Java

Método 1; mediante un paso intermedio con conversión previa de los ficheros pdf a ficheros de texto

PDF to TXT Converter es una aplicación de Windows para convertir archivos pdf a archivos de formato de texto sin formato en modo batch. Este programa también admite la conversión de rango de páginas específicas a archivos txt  de modo que después de la conversión, obtendrá el texto editable del documento PDF original

PDF to TXT Converter

Esta  utilidad la podemos descargar   desde  aqui

Hay una pequeña pega con este programa, pues dado que es shareware en la versión gratuita   tiene  bastantes limitaciones ,entre ellas que no se procesaran más de 200 documentos de un sola vez  ( si se intenta con más de esa cantidad   el programa pierde el control)

Un punto a su favor es que permite convertir automáticamente directorios enteros  con contenido de ficheros pdf y de este modo no necesitamos seleccionar  uno a uno cuál de ellos queremos convertir ( pero no olvide que, a no ser que compre la version completa, solo debería contener como máximo 200  ficheros)

Como vemos ,lo interesante de este programa  es que permite convertir los  ficheros pdf a texto  lo cual nos facilitara  procesar estos  muy fácilmente desde   java

Ahora    vamos a   ver un ejemplo    cómo extraer  los metadatos de un documento  de tipo texto obtenido usando el programa anterior

La idea es que a partir de los pdf convertidos previamente a txt , es que iremos  leyendo el contenidos de cada fichero txt e  interpretando las cadenas extraidas de los pdf para buscar  por ejemplo cuatro  meta-datos que necesitamos , haciendo  cuenta del orden en el que aparecen asi como las palabras justo anteriors:
-meta1,
-meta2
-meta3
-meta4:

En esta búsqueda tiene sentido el número de orden en el que aparecen las cadenas anteriores a  la busqueda  pues según el orden en que aparezca corresponderá a un meta-dato u otro.

En este caso meta2 hay que buscarlo dos veces , pero según este orden la cadena siguiente es meta2 o meta4

Veamos el ejemplo;

//*******************************************************
//BLOQUE PRINCIPAL PARA EXTRAER  4 METADATOS de un fichero
//*******************************************************

//abre el fichero
Scanner in =null;
DecimalFormat formateador = new DecimalFormat(“####################”);
Integer contador=0;

//solo procesaremos los ficheros con la extrension txt
if (sub.matches(tipofichero)) try{

in = new Scanner(new FileReader(nombreFichero));
in.useLocale(Locale.ENGLISH);

//lee el fichero palabra a palabra

while (in.hasNext())
{
//lee primera palabra
String palabra = in.next();
caa=palabra;

if (procesa==true)
{
//System.out.println(“Palabra:”+palabra+ “contador=”+contador);

if (contador==1)
{instalacion=palabra;
}
if (contador==5)
{nif=palabra;
}

procesa=false;
contador++;

}

if (caa.matches(“pedido:”))
{
// System.out.println(“<<<Palabra pedido: ENCONTRADA:>>>”);
procesan=true;
contador++;
}

if (caa.matches(“instalación:”))
{
//System.out.println(“<<<<Palabra instalación: ENCONTRADA:>>>>”);//fecha
procesa=true;
contador++;
}

if (caa.matches(“NIF/NIE/Pasaporte:”))
{
// System.out.println(“<<<<Palabra NIF/NIE/Pasaporte: ENCONTRADA>>>>”);
procesa=true;
contador++;
}

//lee números
while (in.hasNextDouble())
{
// lee un double

double d = in.nextDouble();

if (procesan==true)
{
//System.out.println(“Número:”+formateador.format(d)+”contador=”+contador);
if (contador==3)
{pedido=d;
}
if (contador==7)
{linea=d;
}
procesan=false;
contador++;
}

}

} // while (in.hasNext())

//resumen de datos capturados del pdf convertidos en txt y capturada en 4 campos que necesitamos

System.out.println(“Instalacion:”+instalacion); //fecha
System.out.println(“Pedido:”+formateador.format(pedido));
System.out.println(“NIF:”+nif);
System.out.println(“Telefono:”+formateador.format(linea));

….

 

Método 2  directo usando la Liberia ItextPDF

iText es una biblioteca Open Source para crear y manipular archivos PDFRTF, y HTML en Java. Fue escrita por Bruno LowagiePaulo Soares, y otros; está distribuida bajo la Affero General Public License.

El mismo documento puede ser exportado en múltiples formatos, o múltiples instancias del mismo formato. Los datos pueden ser escritos a un fichero o, por ejemplo, desde un servlet a un navegador web.

Más recientemente, ha sido extendida a una biblioteca PDF de propósito general, capaz de rellenar formularios, mover páginas de un PDF a otro, y otras cosas. Estas extensiones son a menudo mutuamente excluyentes. Una clase te permite rellenar en formularios, mientras una clase diferente e incompatible hace posible copiar páginas de un PDF a otro.

El soporte de PDF de iText es, sin embargo, bastante extensivo. Esto soporta firmas basadas en PKI de PDF, cifrado de 40-bit y 128-bit, corrección de colores, PDF/X, gestión de colores por perfiles ICC, y es anfitriona de otras característica

Podemos descargar el fichero itextpdf-5.1.0.jar  desde el respositorio de Maven   o de esta web  http://www.java2s.com/Code/Jar/i/Downloaditextpdf510jar.htm

No debemos olvidar importar el jar desde el Ide  del  Eclipse   en propiedades del proyecto-->Java Build Path–>libraries –>Add External   JARs

Este es un ejemplo  de captura sencilla   de como procesar un pdf directaeente

import java.io.IOException;

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class prueba {

/**
* @param args
*/
public static void main(String[] args) {
try {

PdfReader reader = new PdfReader(“d:/ttttt.pdf”);

System.out.println(“This PDF has “+reader.getNumberOfPages()+” pages.”);
String page = PdfTextExtractor.getTextFromPage(reader, 1);
System.out.println(“Page Content:\n\n”+page+”\n\n”);
System.out.println(“Is this document tampered: “+reader.isTampered());
System.out.println(“Is this document encrypted: “+reader.isEncrypted());

reader.close();
} catch (IOException e) {
e.printStackTrace();
}

}

}

Es importante la sentencia String page = PdfTextExtractor.getTextFromPage(reader, 1);  porque si ponemos 0 o un valor superior daría error

Como   gracias  a la librería podemos capturar la informacion del   fichero pdf y aplicar la clase Sacanne para analizar las cadenas     para buscar determinada  informacion  que queremos catalogar vamos a  ver   el ejemplo anterior  usando los mismos campos  y con la misma casuitica:

Este seria el mismo ejemplo de la  primer parte  , pero usando directamente los fichero pdf sin convertir a pdf:

import java.awt.Rectangle;
import java.awt.print.PageFormat;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintStream;
import java.io.PrintWriter;
import java.text.DecimalFormat;
import java.util.List;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;

import java.io.IOException;

import java.io.FileReader;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.Scanner;
import java.util.Locale;
import java.io.FileNotFoundException;
import java.nio.charset.StandardCharsets;
import java.text.DecimalFormat;

import java.io.StringReader;

import java.util.Locale;
import java.util.Scanner;

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class Main {

/**
* @param args
*/

public static void main(final String[] args) throws IOException {

String instalacion=””;
String nif=””;
double pedido=0;
double linea=0;
boolean procesa=false;
boolean procesan=false;
String tipofichero=”pdf”; // solo tomaremos ficheros con esta extension
String caa = substring(20);

String ruta = “D:\temp\ficheros\”;
String ficherox=”28348758018_20181201000002.pdf”;
String fichero=ruta+ ficherox;
System.out.println(“Fichero a analizar =” +ficherox);

int numero=ficherox.length()-3; //calcula donde empieza la extension del fichero
// System.out.println(“numero=”+numero);
String sub =ficherox.substring( numero); //calcula la extension del fichero
System.out.println(“Extension del fichero :”+sub);

//abrimos el PDF
PdfReader reader = new PdfReader(fichero);
int pages = reader.getNumberOfPages();
System.out.println(“Este PDF tiene “+pages+” paginas.”);

//empezamos la coversion a pdf
String page = PdfTextExtractor.getTextFromPage(reader, 1); ////<———————————————–aqui da errror
System.out.println(“Contenido del documento de la pagina “+pages);
System.out.println(“\n\n”+page+”\n\n”);

/////////////////////////////////////////////////////////////////////
//solo procesaremos los ficheros con la extrension pdf
////////////////////////////////////////////////////////////////////

if (sub.matches(tipofichero))

/// try

{

//para procesar el texto lo copiamos a una cadena
String nombreFichero = page ; //Fichero;

System.out.println(“Convertido salida del conversor a un String “);

//borra el scanner
// Scanner in =null;

//formatos de numeros
DecimalFormat formateador = new DecimalFormat(“####################”);

//inicializa conatdor
int contador=0;

//in = new Scanner(new FileReader(nombreFichero));///AQUI ESTA EL PROBLEMA PUES SCANNER NO EST ACEPTADNO EL STRING

Scanner in = new Scanner(nombreFichero);

in.useLocale(Locale.ENGLISH);
System.out.println(“Es correcto el pdfl Convertido salida del conversor a un String “);
//lee el fichero palabra a palabra

while (in.hasNext()) //leemos toda la cadena
{
//lee primera palabra
String palabra = in.next();
caa=palabra;

if (procesa==true)
{
//System.out.println(“Palabra:”+palabra+ “contador=”+contador);

if (contador==1)
{instalacion=palabra;
}
if (contador==5)
{nif=palabra;
}

procesa=false;
contador++;

}

if (caa.matches(“pedido:”))
{
// System.out.println(“<<<Palabra pedido: ENCONTRADA:>>>”);
procesan=true;
contador++;
}

if (caa.matches(“instalación:”))
{
//System.out.println(“<<<<Palabra instalación: ENCONTRADA:>>>>”);//fecha
procesa=true;
contador++;
}

if (caa.matches(“NIF/NIE/Pasaporte:”))
{
// System.out.println(“<<<<Palabra NIF/NIE/Pasaporte: ENCONTRADA>>>>”);
procesa=true;
contador++;
}

//lee números
while (in.hasNextDouble())
{
// lee un double

double d = in.nextDouble();

if (procesan==true)
{
//System.out.println(“Número:”+formateador.format(d)+”contador=”+contador);
if (contador==3)
{pedido=d;
}
if (contador==7)
{linea=d;
}
procesan=false;
contador++;
}

}

} // while (in.hasNext())
in.close();

//resumen de datos capturados del pdf convertido en txt

System.out.println(“Instalacion:”+instalacion); //fecha
System.out.println(“Pedido:”+formateador.format(pedido));
System.out.println(“NIF:”+nif);
System.out.println(“Telefono:”+formateador.format(linea));

//fin de metatados de un documento INDIVIDUAL en el xml

}

}

private static String substring(int i) {
// TODO Auto-generated method stub
return null;
}//CLASS
}

 

 

Con esta librería como vemos  podemos procesar  de un modo relativamente sencilllo   cualquier contenido de un fichero  pdf    de un modo muy potente  como acabamos de ver .

Como cambiar el idioma a español en el SonarQube


Sonar nació para ser utilizada en desarrollos Java, pero actualmente soporta más de 20 lenguajes incluyendo Java, C#, JavaScript, TypeScript, C/C++, COBOL  y mas   integrándose  con  Maven, Ant y herramientas de integración continua como Atlassian Bamboo y Jenkins.

SonarQube es pues  una potente herramienta open software  que permite analizar el código fuente  informándonos ,entre otras cosas, sobre código duplicado, estándares de codificación, pruebas unitarias, cobertura de código, complejidad ciclomática y mucho mas.

 

Instalación  automática plugins

SonarQube puede extender su funcionalidad por medio de la instalación de los famosos  plugins, los cuales atienden  a funcionalidades ampliadas  como pueden ser lenguajes soportados ( los mas normales son c#, java y js), otras herramientas de desarrollo,integración y gobierno así como otros  Idiomas soportados para el interfaz de Sonar

De  forma general  siempre que queramos instalar un plugin debemos asegurarnos que dicho plugin está disponible para la versión de SonarQube que estamos usando   comprobándolo antes en la  matriz de versiones para cerciorarnos de que dicho plugin es compatible con nuestra versión

Para instalar un plugin  de  forma automática por medio del Update Center  solamente hay que ir  Administration –> System  –>Update Center

En el caso de querer instalar el  idioma español el plugin se llama Spanish Pack 

Pulsaremos Install  sobre la opción Spanish  Pack el lado derecho    y luego realizada la descarga     no  olvidemos pulsar  el boton   Restart  en la parte superior y

 

Instalación manual de Plugins

Para instalar un plugin de forma manual  basta con ubicar el archivo JAR en la carpeta
\sonarqube-XXXX\extensions\plugins y en el siguiente inicio de Sonar ya se contará con el plugin.

En caso de no tener el archivo JAR tendremos que ejecutar un mvn package, mover el jar al directorio de plugins  y reiniciar el Sonar, procedimiento que podemos seguir por ejemplo  para cambiar el idioma del Sonar a esapañol .

Para  instalar el  plugin para tener Sonar en Castellano  podemos seguir los siguientes pasos:

1-Comprobamos también  antes en la  matriz de versiones para cerciorarnos de que dicho plugin es compatible con nuestra versión  pudiéndose instalar éstos  tanto de forma automática por medio del Update Center como de forma manual.

En el caso de idioma español el plugin como hemos dicho , se llama Spanish Pack  y es compatible con todas las versiones del Sonar:

spanishpack.PNG

2- En la matriz de plugin  citada pulsamos en el link de Spanish Pack lo que nos lleva al repositorio de GitHub del siguiente pantallazo.
Obtenemos asi la URL en la parte inferior derecha para, mediante git, clonar el repositorio. La  url del Git  seria:https://github.com/SonarQubeCommunity/sonar-l10n-es 

github.PNG

3-  Descargaremos el  archivo   ZIP   ,   descomprimiendo después el fichero en un directorio del ordenador

4-Ahora , desde una ventana de comandos nos iremos al directorio donde los descargamos y  ejecutamos:  mvn  package

consola

Al finalizar el proceso , que como vemos tarda unos 13 minutos , en la carpeta target dentro de la  carpeta que descomprimimos, ya    tendremos el archivo JAR

español.PNG

Ahora  solo nos toca  copiar   dicho ficjero jar al directorio de Plugins  del sonnar  , y ya nos  servirá como plugin para modificar el idioma en cuanto se reinicie.

sonarplugins

Si esta el sonar ejecutándose sobre Windows habría que matar los procesos  java relacionados con el Sonar  o si no nos importa reiniciamos el equipo , y  volvemos a lanzar el Sonar

 

Tanto si lo hace de forma automática como si hace la instalación del  plugin de forma manual al reiniciar ya debería tener el idioma español:

 

Mas información  en  SonarQube,org

Cambiar permisos en Solaris desde java


Como es sabido , hay 3 atributos básicos en Unix  para archivos simples: lectura, escritura y ejecutar.

  •  R  , es decir permiso de lectura (read):Si tiene permiso de lectura de un archivo, puede ver su contenido.
  • W , es decir  permiso de escritura (write):Si tiene permiso de escritura de un archivo, puede modificar el archivo. Puede agregar, sobrescribir o borrar su contenido.
  • X, es decir permiso de ejecución (execute):Si el archivo tiene permiso de ejecución, entonces puedes decirle al sistema operativo que lo ejecute como si fuera un programa. Si es un programa llamado “foo” lo podremos ejecutar como cualquier comando.

En este punto es muy interesante saber que un script en Cshell  (interprete) necesitara permisos de lectura y ejecución para poderlo lanzar, pero sin embargo un programa compilado  en java( por ejemplo en un jar) solo necesitara permisos de lectura  .

Para  cambiar los permisos tanto en directorios como en ficheros en todas las versiones de unix y variantes   usamos el comando  chmod (change mode)  pudiéndose agregar o remover permisos a uno o mas archivos con + (mas) o – (menos)

La representación octal de chmod es muy sencilla:

  • Lectura tiene el valor de 4
  • Escritura tiene el valor de 2
  • Ejecución tiene el valor de 1

Entonces:

 rwx | 7 | Lectura, escritura y ejecución |
rw- | 6 | Lectura, escritura |
r-x | 5 | Lectura y ejecución |
r– | 4 | Lectura |
-wx | 3 | Escritura y ejecución |
-w- | 2 | Escritura |
–x | 1 | Ejecución |
— | 0 | Sin permisos |

Por lo tanto:

chmod u=rwx,g=rwx,o=rwx | chmod 777 |
chmod u=rwx,g=rx,o= | chmod 760 |
chmod u=rw,g=r,o=r | chmod 644 |
chmod u=rw,g=r,o= | chmod 640 |
chmod u=rw,go= | chmod 600 |
chmod u=rwx,go= | chmod 700 |

Es decir para asignar a  un fichero o directorio permisos totales usaremos  el comando

chmod 777  fichero

Es una tarea habitual  que  nuestras aplicaciones java necesiten cambiar permisos  en el sistema de ficheros no solo windows sino tambien en la maquina donde se ejecutaran ( Solaris, Unix,etc)

La forma tradicional de hacerlo a partir de Jr6   es mediante las primitivas  setReadable, setExecutable  o setWritable  del   objeto fichero (file)

Por ejemplo para dar permisos totales (777) sobre un objeto file,   esta es  la sintaxis a usar:

     file.setReadable(true, false);

     file.setExecutable(true, false);

     file.setWritable(true, false);

Por  desgracia   aunque podamos compilar código java mediante las primitivas  setReadable, setExecutable  o setWritable ,por ejemplo para dar permisos totales (777) sobre un objeto file ,   puede que en la maquina donde se ejecute  nos falle  porque tenga otra versión de java inferior

 

Una solución bastante potente que  resuelve el problema es usar  el metodo untime.getRuntime().exec     que nos permite invocar  a otro programa java o incluso comandos del sistema operativo ( en nuestro  caso chmod 77)

 

Como ejemplo ,  os  muestro una clase que cambia los permisos a 777 un fichero o directorio que se le pase como parámetro:

public static void permisos777 (final String pathname)
{

Process theProcess = null;

//intentamos cambiar los permisos del fichero recien creado
System.out.println(“Cambiamos permisos 777 a “+pathname);
try
{
theProcess = Runtime.getRuntime().exec(“chmod 777 “+ pathname);
}
catch(IOException e)
{
System.out.println(“Error en el método exec()”);
}
//fin de cambio de permisos

}