Cómo no implementar un filtro de correo

Publicado el en Reflexiones, Curiosidades por Jaime Gómez Obregón.

Habida cuenta de la gran cantidad de correo basura (spam) que hoy en día circula por Internet, hoy practicamente todo el mundo utiliza algún filtro de correo para separar los mensajes legítimos de entre todos los demás que llegan al buzón. Hay tanto spam en Internet que aunque tú no utilices expresamente un filtro, seguramente tu proveedor de correo lo estará usando por ti. Son grandes filtros anti-spam Spamassassin, ahora como proyecto en el seno de la Fundación Apache, el Bogofilter o el excelente Dspam, que es mi preferido y uno de los más robustos. Todas estas son alternativas libremente copiables, modificables y distribuibles, en unos grados de libertad iguales o parecidos a las libertades GPL, una licencia de software similar al Copyleft.

Desde luego, la gracia de un buen sistema de correo es filtrar los mensajes en el lado del servidor. Una vez recibido el mensaje se comprueba contra una lista de palabras o reglas "malditas", en función de las cuales se determinará su inocuidad -entregándose en la bandeja de entrada-, o su estatus de correo basura -en cuyo caso se enviará a la papelera, en el mejor de los casos-.

Hoy, navegando por Internet a raíz del cierre de la satírica "Frikipedia" como consecuencia de una demanda judicial de la SGAE, llegué al sitio de esta entidad sin ánimo de lucro y estuve, como hago muchas veces, echando un vistazo al código del sitio web. Esto es muy interesante ya que a veces aparecen, naufragados en la Red, comentarios perdidos que un programador dejó a otro y que luego olvidó borrar, o directamente "grandes chapuzas temporales" que llegaron para quedarse y nunca nadie corrigió después.

El caso es que en la web de la SGAE hay ambas cosas, y también una de las peores implementaciones posibles para un sistema de filtrado de mensajes, como es filtrar en el lado del cliente con Javascript, desde el navegador web del usuario. El funcionamiento es tal que cada usuario que accede al sitio web de la SGAE descarga -sin saberlo- una ristra de palabras malsonantes. Si utilizas el formulario de contacto de este sitio web (en la sección "Contacto") para enviar un mensaje a esta entidad de gestión, tu propio navegador comparará el texto escrito con cada una de las palabras prohibidas, a través de una curiosa función Javascript con el divertido nombre de pasapalabra(). Esta función será la encargada de "censurar" -en su caso- el mensaje enviado al aplicar al mensaje un código identificativo especial (257).

Filtrado de mensajes en la web de la SGAE

Al margen de los motivos que puedan llevar a una Sociedad como la SGAE -sin ánimo de lucro- a tener que filtrar los mensajes con insultos de los internautas, y al margen también del tremendo error que supone implementar el filtro en Javascript y en el lado del cliente (con lo que queda visible para todo el mundo, amén de resultar muy sencillo reconocer y saltar la protección), hay una cosa adicional que llama mucho la atención en la lista de "palabras malditas", de insultos, y de vocablos malsonantes que son censurados en el formulario de contacto:

Palabras malditas en los mensajes a la SGAE

El caso es que incluyen al sistema operativo del pingüino, GNU/Linux, como palabra prohibida a evitar en los comentarios enviados, más o menos entre jodienda y marica, y al mismo nivel que cretino, puta, imbécil, truño y cabrones, por citar sólo los más suaves.

Lo que la SGAE no sabe es que GNU/Linux es un sistema operativo libre, de código abierto, independiente de cualquier empresa o iniciativa comercial, tecnológicamente neutral, multiplataforma y multiusuario, desarrollado de manera solidaria y colaborativa por miles de programadores distribuidos por Internet y que cualquiera puede copiar y utilizar. O quizás sí lo saben y por eso lo censuran en su formulario de contacto, aunque -por otra parte- lo estén usando con profusión en algunos de los sitios web que ellos mismos gestionan y promocionan.

Actualización [07/02/06 17:25]. Varios medios de comunicación como elmundo.es, 20minutos.es, santanderciudadviva.com, todo-linux.com, bandaancha.st se han hecho eco de este artículo, que también está circulando por muchos sitios de la blogosfera, como barrapunto.com, microsiervos.com, escolar.net (y II) o javimoya.com. Hace unas horas, la SGAE cerraba de manera provisional el formulario de contacto motivo de la polémica y retiraba los scripts aquí señalados, de los que -no obstante- existen todavías copias.