English   español  
Por favor, use este identificador para citar o enlazar a este item: http://hdl.handle.net/10261/4290
Compartir / Impacto:
Estadísticas
Add this article to your Mendeley library MendeleyBASE
Ver citas en Google académico
Visualizar otros formatos: MARC | Dublin Core | RDF | ORE | MODS | METS | DIDL
Exportar otros formatos: Exportar EndNote (RIS)Exportar EndNote (RIS)Exportar EndNote (RIS)
Título : Evaluación de sistemas españoles de recuperación de información distribuída en Internet
Autor : Amat, Carlos B.
Director: Cueva, Alejandro de la; Canet, Josep Lluís
Palabras clave : Search Engines
Web search
Retrieval evaluation
Fecha de publicación : 2005
Editor: Universidad de Valencia
Resumen: [EN] The set of information spaces collectively referred as Internet poses serious problems to information retrieval tasks. Content evolution of Internet spaces and documents is reviewed and distinctive features of web documents are empathized. Web search engines are classified according to their scope, functionalities and retrieval philosophy. A chapter is devoted to the characterization of Spanish web though the study of a random set of web sites, their quantitative composition and their qualitative features.
The analysis of search engines of the Spanish web begins with a study of coverage, methods of crawling, data schema and indexing mechanisms. Finally, eight search engines (AltaVista, EnlaWeb, Lycos, Olé/Terra, Ozú, Sol, Ya and Yahoo) were evaluated in retrieving information from Spanish web space. Indicators chosen were their relative coverage, specific offering, proportion of dead links and accessibility of Spanish websites. Performance was determined by relative recall and precision in retrieval during the first quarter in 2003. Search topics and relevance of results were determined by the end users. 12,4% of the searches led to dead links and 76% of the pages were returned by only a single system. System performance, expressed in terms of recall ranged from 7% (AltaVista) to 14% (Ozú) and precision between 9% (Sol) and 30% (Ozú). Only Yahoo displayed typical inverse relationship between recall and precision figures. The rest of the systems invariably showed an increase in precision figures starting with the second or third search result, suggesting problems with the sorting algorithm.
[ES] El conjunto de espacios informativos que, colectivamente, se denomina Internet, plantea serios desafíos desde el punto de vista de la documentación y la recuperación de información. Parece conveniente introducir este conjunto de problemas con una revisión de la evolución de Internet que, más que centrarse en los desarrollos técnicos, atienda a la progresiva configuración de su contenido informativo. Desde este punto de vista, Internet parece haber evolucionado en sentido centrífugo desde un estado de homogeneidad temática hasta un universo de gran heterogeneidad. Este acercamiento permite caracterizar de forma conveniente el universo documental que alberga y sus propiedades, que lo diferencian mucho del universo documental tradicional, alrededor de documentos y fuentes de información estructurados. Tras esta revisión, se examinan los sistemas para la recuperación de la información distribuida desarrollados en cada uno de los espacios que han venido integrándose en Internet y, especialmente, los del espacio Web. Más que disponerlos en orden cronológico, se propone una clasificación funcional de estos sistemas y se atiende a las ventajas e inconvenientes de cada modelo. Por último, se revisan los trabajos que han intentado evaluar los sistemas de recuperación de información distribuida como paso previo a establecer un plan de trabajo que permita evaluar los sistemas españoles de recuperación de información en Internet.
El examen de la evolución de Internet, el análisis de las características de la información y los documentos que contiene, el establecimiento de una taxonomía de sistemas para su recuperación y los métodos de evaluación de estos mismos sistemas se basan en una revisión de la literatura amplia, pero especialmente centrada en las aportaciones más recientes y procedentes con frecuencia de campos no estrictamente relacionados con la documentación tradicional.
Descripción : Tesis doctoral, Universidad de Valencia, Departamento de Historia de la Ciencia y Documentación.-- Fecha de defensa: 14/02/2005.
URI : http://hdl.handle.net/10261/4290
Aparece en las colecciones: (IATA) Tesis
Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TesisCBAmat.pdf3,54 MBAdobe PDFVista previa
Visualizar/Abrir
Mostrar el registro completo
 


NOTA: Los ítems de Digital.CSIC están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.