Expertos del IPN ganan primer lugar con "software" antiplagio

El modelo desarrollado, superó a competidores de otras naciones, como Chile, Estados Unidos, España, Alemania, China y Reino Unido.
Miguel Ángel Sánchez Pérez es estudiante de doctorado en el IPN.
Miguel Ángel Sánchez Pérez es estudiante de doctorado en el IPN. (Especial)

México

El alumno de doctorado, Miguel Ángel Sánchez Pérez y los investigadores Alexander Gelbukh y Grigori Sidorov, del Centro de Investigación en Computación (CIC) del Instituto Politécnico Nacional (IPN), desarrollaron un modelo de detección de plagio que permite identificar textos producto de la piratería.

Con ese software, los politécnicos obtuvieron el primer lugar en la categoría de Alineación de Textos de la 11 edición del Evaluation Lab on Uncovering Plagiarism, Authorship, and Social Software Misuse (conocido como PAN) celebrado en la Universidad de Sheffield, Inglaterra.

El modelo, desarrollado por Sánchez con la asesoría de Gelbukh y Sidorov para obtener el grado de maestro en Ciencias de la Computación, superó en el certamen a trabajos desarrollados por competidores de otros países, como Chile, Estados Unidos, España, Alemania, China y Reino Unido.

Por la aportación tecnológica, con ese mismo modelo, el estudiante politécnico recientemente obtuvo el segundo lugar nacional en el Concurso de Mejor Tesis en Inteligencia Artificial, organizado por la Sociedad Mexicana de Inteligencia Artificial (SMIA).

Sánchez señaló que descubrir un plagio implica la búsqueda y conocimiento de una amplia cantidad de textos en fuentes originales, por ello científicos de todo el mundo centran sus investigaciones en la generación de modelos para la detección automática de plagio.

Explicó que la localización de fragmentos de texto que son semejantes entre dos documentos se le denomina alineación. Por ejemplo, si el primer párrafo del texto corresponde al tercer párrafo de otro escrito. “Ése es el objetivo del modelo”, apuntó el estudiante.

Para competir, el modelo debía llevarse a un sistema o software con alto grado de eficiencia, porque se evalúan miles de documentos, se hace un gran número de comparaciones entre textos en busca de fragmentos plagiados. “En el certamen se proporciona a los equipos competidores una base de datos aproximado de 5 mil pares de documentos a comparar, los cuales pueden o no contener plagio”, señaló.

Sánchez  también comentó que el proceso del concurso consiste en encontrar con el modelo desarrollado los fragmentos similares entre un par de documentos que les fueron proporcionados.

“Para evaluar qué tan bien encontramos un par de fragmentos similares, las medidas usadas son precisión y exhaustividad. Precisión se refiere a cuántos caracteres del texto que detecté realmente fueron plagiados, mientras que exhaustividad se refiere a cuántos, de la cantidad de caracteres que fueron plagiados, detecté. La combinación de esos dos parámetros nos permitió ganar el concurso”, expresó el galardonado.

Después de que PAN evaluó el modelo y resultó ser el mejor, Sánchez se dio cuenta de que el modelo puede tener alcances importantes. “El sistema podría usarse, por ejemplo, en un administrador de bases de datos de Scopus o de Thomson & Reuters. Cuando se publica un documento el sistema es capaz de decir a qué se parece y solicitar al editor que lo verifique”, agregó.

El politécnico señaló que es difícil que un sistema de este tipo tenga una certeza de 100 por ciento.

“Hace falta la intervención de un humano, pero el sistema puede ayudarle a encontrar textos que quizá no había considerado y con fragmentos específicos para hacerlo más rápido”, subrayó.

Sánchez dijo que además de la detección de plagio, el modelo puede ayudar a la construcción de sitios de contenido colectivo, como Wikipedia, donde muchas personas escriben artículos, pero se elaboran numerosos contenidos sobre el mismo tema; el modelo podría informar al que escribe si su texto es único o posee similitudes que le permitirían integrarse a otro.

Señaló que a diferencia de otros participantes que no dan a conocer la forma en que obtienen sus resultados, “nosotros tenemos el código abierto en una página del doctor Alexander Gelbukh, por lo que cualquier persona puede acceder y usarlo, solo tiene que citar el artículo”.