lunes, 7 de mayo de 2012

Práctica11. Evaluación de algoritmos de clasificación

La evaluación de sistemas de información y usuarios tiene una aplicación muy clara en el apartado de los algoritmos de recuperación y clasificación de contenidos. En este sentido, la práctica propuesta pone al alumno en el caso real del proceso de evaluación de un algoritmo de clasificación por precisión. A cada alumno se le asignará una serie de categorías temáticas que comprenden unas páginas web de resultados. Se deberá comprobar que los contenidos clasificados bajo el paraguas de la categoría temática asignada, lo están correctamente. Esto es determinar distintos valores:
  • Botón Marcar Relevante - Relevancia del 100% significa que el contenido está conforme con la categoría asignada automáticamente por el sistema.
  • Botón Marcar Irrelevante - Relevancia del 0% significa que el contenido es completamente opuesto a la categoría asignada automaticamente por el sistema.
  • Botón Marcar Grado de Relevancia - Relevancia del 80% - 60% - 40% y 20% significa que se ha considerado un documento parcialmente relevante en la medida porcentual que se indica.
Se recomienda hacer click en un único botón. En caso de equivocación, marcar seguidamente el botón correcto. Esto deshará la operación anterior y validará como buena la última efectuada. También se advierte, que según se evalua el contenido, automáticamente los botones cambian de color, permitiendo al evaluador distinguir fácilmente los resultados que quedan por evaluar.

El proceso de evaluación se registra automáticamente en la base de datos, de tal manera que posteriormente se pueda comprobar si el algoritmo de clasificación acertó o no en la categorización de los contenidos en todas las áreas de conocimiento o por contrario falló en algunas, así como determinar porqué pudo fallar. Esto significa que no es necesario enviar ninguna práctica por correo, ya que según se lleva a cabo se va completando.

El alumno tiene una responsabilidad importante en la consecución de este trabajo, ya que su supervisión y evaluación servirá para determinar el grado de corrección y precisión con que el sistema de información actuó, por ello se solicita la mayor concentración posible durante este proceso.

A continuación se muestra la relación de categorías temáticas asignadas:

Listas de asignación
Ángeles Arroyo

Vida política. Págs.1,2

Germán Navarro

Vida política. Págs.3,4

Esteban Gorgojo

Vida política. Págs.5,6

Silvia Linares

Vida política. Págs.7,8

Fernando Sánchez

Rel. int. Págs.9,10

María Jiménez

Rel. int. Págs.11,12

Covadonga Blanco

Derecho. Págs.13,14

Ana Isabel de la Fuente

Derecho. Págs.15,16

Ivan Vivanco

Derecho. Págs.17,18

Pilar Poveda

Derecho. Págs.19
Vida económica. Págs.20

María Teresa Pérez

Vida económica. Págs.21
Vida económica. Págs.22

Ana Zubicoa

Vida económica. Págs.23
Vida económica. Págs.24

María Ángeles Rodríguez

Vida económica. Págs.25
Int.econ.com. Págs.26

Sorimar Carrero

Int.econ.com. Págs.27
Int.econ.com. Págs.28

martes, 24 de abril de 2012

Práctica 10.- Tabulación de resultados del cuestionario

Después de preparar y publicar los cuestionarios para la evaluación y mejora de la biblioteca, se procederá a la tabulación de los resultados obtenidos para cada formulario. Este proceso se llevará a cabo desde los grupos formados en la asignatura para tal efecto. El objetivo de la tabulación es preparar un cuadro en hoja de cálculo que permita poner de relieve los aspectos más significativos de la respuestas del usuario.

12.- Evaluación avanzada de usuarios a través de sus consultas: Los Query Logs

Qué es un Query Log
Un archivo de tipo Query Log o Registro de Consultas se compone de identificador anónimo correlativo de las consultas que han efectuado los usuarios del sistema, la cadena de consulta propiamente dicha, la fecha de registro, la posición en la que se ha encontrado el resultado y la URL del enlace en el que se ha hecho clic (CLAIR. 2006).

Ejemplos de Query Log

Típico registro de consultas
Qué aspectos evaluativos se tienen en cuenta durante el análisis del archivo Query Log
  • Tiempo de consulta.
  • Tiempo de permanencia en las páginas de resultados.
  • Cluster de consultas que agrupan términos o palabras de una determinada categoría o temática recurrente de consulta.
  • Coeficiente de clustering.
  • Recursividad de las consultas.
  • Número de nodos y relaciones entre palabras de las distintas consultas o clusters.
  • Porcentaje de resultados encontrados en las primeras posiciones ante una determinada consulta.

Bibliografía

BAEZA YATES, R.; HURTADO, C.; MENDOZA, M. 2004. Query Recommendation using Query Logs in Search Engines. Disponible en:  http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=0E34DE0EC5DD449088D826C5FC6103A0?doi=10.1.1.85.8688&rep=rep1&type=pdf

BAEZA YATES, R. 2006. Applications of Query Mining. Disponible en: http://videolectures.net/fws06_yates_aqm/

BAEZA YATES, R. 2007a. Extracting Semantic Relations from Query Logs. Disponible en: http://videolectures.net/kdd07_baeza_yates_esr/

BAEZA YATES, R. 2007b. Mining Queries. Disponible en: http://videolectures.net/ecml07_baeza_yates_mwq/

CLAIR. 2006. Web Search Engine Query Log Analysis. Computational Linguistics And Information Retrieval: University of Michigan. Disponible en: http://tangra.si.umich.edu/clair/clair/qla.html

CUI,H.; WEN,J.R.; NIE,J.Y.; MA,W.Y. 2002. Probabilistic Query Expansion Using Query Logs. Disponible en: http://www2002.org/CDROM/refereed/558/

MISHRA,N.; SAHA-ROY,R.; GANGULY,N.; LAXMAN,S.; CHOUDHURY,M. 2011. Unsupervised Query Segmentation Using only Query Logs. Disponible en: http://www.www2011india.com/proceeding/companion/p91.pdf

TEEVAN,J.; ADAR,E.; JONES,R.; POTTS,M. 2005. History Repeats Itself: Repeat Queries in Yahoo’s Logs. Disponible en: http://people.csail.mit.edu/teevan/work/publications/posters/sigir06.pdf

TYLER, S.K.; TEEVAN,J. 2011. Large Scale Query Log Analysis of Re-Finding. Disponible en: http://people.csail.mit.edu/teevan/work/publications/papers/wsdm10.pdf

martes, 17 de abril de 2012

Práctica 9: Evaluando recursos electrónicos

Teniendo en cuenta el método de evaluación propuesto para los recursos electrónicos, selecciona 2 recursos de cada lista que se presenta a continuación. La primera lista corresponde contiene las URL de la página de portada de las escuelas de negocios mejor posicionadas en el ranking de webometrics. El segundo listado corresponde a direcciones URL de artículos de la revista DLIB (Digital Library Research) especializada en Biblioteconomía y Documentación.


Lista2 :: Artículos de la revista DLIB

Una vez elegidos los recursos, aplica la ficha de evaluación propuesta en el artículo anterior, atendiendo a las distintas categorías y puntuaciones. Para llevar a cabo el análisis de los siguientes aspectos es recomendable consultar los siguientes recursos:

Aspectos
Herramientas de análisis
Calcular PageRank
Calcular Alexa
Recursos similares
Operador de Google related:http://recurso-analizado
Enlaces externos a nuestro recurso
Operador de Google link:http://recurso-analizado
Cuantitativo de contenidos

BLÁZQUEZ OCHANDO, M. 2011. Primeras pruebas del mbot webcrawler. Disponible en: http://www.mblazquez.es/documents/articulo-pruebas1-mbot.html

Validación HTML-XHTML del W3C
Test de accesibilidad TAW Nivel AA

Una vez se ha analizado cada recurso con la ficha evaluativa propuesta, se deberá obtener la suma de los resultados en una tabla tipo que contendrá el nombre del recurso, la suma de todos los puntos, la relación de caracteres y palabras, la relación de enlaces externos y enlaces internos, la relación de Pagerank-Alexa y la suma de archivos del análisis cibermétrico cuantitativo de contenidos incluyendo el número de documentos, archivos multimedia e imágenes. Utiliza la plantilla disponible para responder la práctica: Descargar Práctica9

Nota:
Debido a la casuística del servidor que aloja el webcrawler mbot, no se pueden ampliar más los tiempos de respuesta y ejecución de scripts, lo que limita en ciertos casos la obtención de datos para llevar a cabo la práctica. Esta circunstancia, significa que el programa funciona correctamente y cualquier resultado en blanco no es achacable a su funcionamiento si no al entorno de ejecución. Por ello y para facilitar la actividad a los alumnos se han obtenido todos los datos cuantitativos derivados del análisis de los recursos de las listas 1 y 2, facilitados en el siguiente: Descargar Cibermétrico de Práctica9