Por qué extraer datos de PDFS sigue siendo una pesadilla para expertos en datos

0
digitizing_a_book_header_3-1152x648.jpg


Sin embargo, estas afirmaciones promocionales no siempre coinciden con el rendimiento del mundo actual, según pruebas recientes. «Por lo basic, soy un gran admirador de los modelos Mistral, pero el nuevo específico de OCR que lanzaron la semana pasada realmente funcionó mal», señaló Willis.

«Un colega enviado este pdf y me preguntó si podía ayudarlo a analizar la mesa que contenía «, cube Willis.» Es un documento antiguo con una mesa que tiene algunos elementos de diseño complejos. El nuevo modelo específico (Mistral) OCR realmente desempeñó malrepitiendo los nombres de las ciudades y fallando muchos de los números «.

El desarrollador de aplicaciones de IA, Alexander Doria, también señaló recientemente en X una falla con la capacidad de Mistral OCR para comprender la escritura a mano, escribiendo«Desafortunadamente, Mistral-OCR sigue siendo la maldición VLM routine: con manuscritos desafiantes, alucina por completo».

Según Willis, Google actualmente lidera el campo en los modelos de IA que pueden leer documentos: «En este momento, para mí el líder claro es Géminis 2.0 de Google Flash Professional Experimental. Manejó el PDF que Mistral no con un pequeño número de errores, y he ejecutado múltiples PDF desordenados a través de él con éxito, incluidos aquellos con contenido escrito a mano «.

El rendimiento de Gemini se deriva en gran medida de su capacidad para procesar documentos expansivos (en un tipo de memoria a corto plazo llamada «ventana de contexto»), que Willis señala específicamente como una ventaja clave: «El tamaño de su ventana de contexto también ayuda, ya que puedo cargar documentos grandes y trabajar a través de ellos en las partes». Esta capacidad, combinada con un manejo más robusto de contenido escrito a mano, aparentemente le da al modelo de Google una ventaja práctica sobre los competidores en tareas de procesamiento de documentos del mundo actual por ahora.

Los inconvenientes del OCR basado en LLM

A pesar de su promesa, los LLM presentan varios problemas nuevos para documentar el procesamiento. Entre ellos, pueden introducir confabulaciones o alucinaciones (información de sonido believable pero incorrecta), seguir accidentalmente las instrucciones en el texto (pensando que son parte de un mensaje de usuario), o simplemente malinterpretan los datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *