Clasificación de Web Spam
En el grupo de investigación en el que trabajo en la Università di Roma "La Sapienza", entre otras cosas investigamos algoritmos de detección de Web Spam. El Web Spam o Spamdexing son todos los trucos maliciosos hechos para atraer o desviar tráfico de las máquinas de búsqueda.
Ahora estamos creando una colección de referencia pública para que distintos grupos de investigación puedan comparar distintas técnicas. Existen varias colecciones estándar para probar programas de detección de spam por e-mail pero hasta el momento ninguna colección pública para programas de detección de Web Spam. Para crear esta colección usamos una interfaz Web en que voluntarios etiquetan manualmente un grupo de 200 dominios como spam, no spam, o sospechoso.
Nosotros proveemos de líneamientos para clasificar páginas y de una interfaz Web fácil de usar:
http://aeserver.dis.uniroma1.it/webspam/
Estamos pidiendo a los voluntarios interesados clasificar un mínimo de 200 dominios, esto son de 2 a 4 horas de trabajo a completar durante las siguientes dos semanas. Buscamos gente que pueda leer en inglés y con experiencia en el tema Web. Hasta el momento hemos contactado más de 20 voluntarios de todo el mundo.
Bueno, si les interesa el tema vean la página, es interesante todo el abanico de trucos que se pueden usar. Y si alguno de los presentes quiere ayudar, por favor envíeme un mensaje antes del Viernes 21 de Julio del 2006 (la fase de etiquetación dura hasta el Viernes 28 de Julio del 2006). ¡Grazie mille!
- blog de ChaTo
- 1494 lecturas



Comentarios recientes
hace 1 día 6 horas
hace 2 días 6 horas
hace 2 días 6 horas
hace 4 días 12 horas
hace 5 días 4 horas
hace 1 semana 2 horas
hace 1 semana 7 horas
hace 1 semana 11 horas
hace 1 semana 2 días
hace 2 semanas 6 horas