Para la recuperacion de la información hay que tomar en cuenta como predecir que documentos de la colección son relevantes para una determinada búsqueda de información.
En algunos casos las premisas de predicción de relevancia son cuantitativas , permitiendo establecer un orden de presunta relevancia entre documentos seleccionados.
En algunos casos las premisas de predicción de relevancia son cuantitativas , permitiendo establecer un orden de presunta relevancia entre documentos seleccionados.
Modelos de búsqueda por texto libre:
No se mantienen índices, por lo que ocupa el mínimo espacio y la formación, una vez introducida, esta directamente accesible. Las interrogaciones al sistema se llevan a cabo por medio del emparejamiento de cadenas de caracteres o por expresiones regulares.
El modelo booleano:
La recuperación se basa en obtener aquellos documentos que cumplan la función lógica expresada en la consulta realizada por el usuario.
Para ello utiliza los operadores propios del álgebra de Boole (AND, OR y NOT) y ficheros de índices invertidos que contienen en sus entradas los documentos que contienen dicho término.
Para ello utiliza los operadores propios del álgebra de Boole (AND, OR y NOT) y ficheros de índices invertidos que contienen en sus entradas los documentos que contienen dicho término.
Ejemplo:
-Una palabra: contiene la palabra.
-A and B: contiene las palabras A y B.
-A or B: Contiene A ó B.
-A AND NOT B: Contiene A y no B.

Booleano extendido:
El modelo booleno es simple y elegante, pero al no permitir pesos, no se puede hacer ranking. El tamaño del conjunto respuesta es demasiado grande o demasiado pequeño. Como consecuencia, ya no se usa.
El uso del modelo booleano con pesos y relevancia parcial permite evitar alguno de estos problemas (combinación booleano – vectorial).
El uso del modelo booleano con pesos y relevancia parcial permite evitar alguno de estos problemas (combinación booleano – vectorial).
Modelo de espacio Vectorial
En el modelo vectorial un documento se enmarca dentro de una colección que tiene unas determinadas características. Así pues, un documento puede considerarse formalmente como un vector que expresa la relación del documento con cada una de sus m características.
La resolución de la consulta consiste en un proceso de establecer el grado de semejanza entre el vector consulta y el vector de cada uno de los documentos.
La resolución de la consulta consiste en un proceso de establecer el grado de semejanza entre el vector consulta y el vector de cada uno de los documentos.
Modelo basado en el lenguaje natural:
En la actualidad están en desarrollo modelos basados en el procesamiento del lenguaje natural, en los cuales una base de conocimientos intentaría interpretar documentos textuales y generar listas de descriptores de forma automática.El lenguaje natural es demasiado ambiguo para que el contenido de los documentos sea extraído de forma automática.
De la misma forma, para describir el contenido de los documentos Web se han desarrollado diferentes estrategias: metadatos, lenguajes semánticos XML, RDF, OWL para indizar los documentos y representar el conocimiento que contienen, etc.
No hay comentarios:
Publicar un comentario