🥇 ▷ El sector público tiene mucho que ganar con el web scraping

Por qué las instituciones públicas, el mundo académico y las ONG deberían emplear soluciones de recopilación de datos

El web scraping, una tecnología que facilita la recopilación de grandes cantidades de datos web públicos, se asocia principalmente con grandes empresas globales. Sin embargo, las instituciones públicas, el mundo académico y las ONG no deberían hacer la vista gorda ante esto, sostiene Ovidijus Balkauskas, ingeniero de sistemas Linux en Oxylabs. Compartirá más consejos sobre el uso del web scraping para causas públicas en la conferencia gratuita sobre recopilación de datos. OxyConque tendrá lugar en línea los días 7 y 8 de septiembre.

¿Cómo podrías explicar el web scraping en términos simples para aquellos que no han oído hablar de él?

El web scraping se puede utilizar en cualquier momento cuando sea necesario recopilar grandes cantidades de información en línea disponible públicamente. Imagine tener que revisar miles de páginas web manualmente para su investigación: el web scraping lo automatiza. Entonces, en lugar de concentrarse en obtener información, puede pasar a la parte que genera más valor: analizar y extraer conocimientos.

El sector público puede utilizar la tecnología para realizar investigaciones, monitorear la evolución económica, recopilar estadísticas, etc. Un gran ejemplo es el Banco de Japónque utiliza activamente el web scraping para evaluar las condiciones económicas para llevar a cabo la política monetaria.

¿Por qué cree que el sector público tarda en adoptar el web scraping?

Hay varias razones, pero la más destacada es la falta de conocimiento sobre qué es el web scraping y de qué es capaz esta tecnología.

Los usos comerciales del web scraping están bien establecidos. Por ejemplo, la mayoría de las empresas que operan en la industria del comercio electrónico saben que pueden utilizarlo para controlar los precios y analizar la competencia. Los creadores de herramientas de SEO dependen de él para la investigación de palabras clave. Mientras tanto, los usos para el sector público suelen estar más aislados y no tan bien comunicados.

En segundo lugar, el web scraping se considera una tecnología especializada y complicada, por lo que las organizaciones temen no poder utilizarla con sus recursos limitados. Sin embargo, hoy en día existen muchas soluciones fáciles de usar, como nuestra API de raspadorque requieren sólo conocimientos básicos de programación.

Teniendo estas cuestiones en mente, creemos que es importante hablar sobre la tecnología, su uso y sus beneficios para audiencias más amplias que solo nuestros clientes comerciales.

Como parte de nuestros esfuerzos, recientemente lanzamos un nuevo programa pro bono Proyecto 4ß. Oxylabs proporcionará conocimientos, infraestructura y recursos de forma gratuita a instituciones académicas, investigadores y organizaciones a través del programa. El objetivo es ayudarlos a emplear el web scraping para resolver importantes problemas y cuestiones sociales y, al mismo tiempo, crear conciencia sobre el impacto que puede tener esta tecnología.

¿Tiene alguna historia de éxito para compartir?

Estoy feliz de haber trabajado en un proyecto pro bono, en el que nos asociamos con la Autoridad Reguladora de Comunicaciones de Lituania (RRT). Entre otros objetivos, su misión consiste en salvaguardar el espacio de Internet lituano de contenidos ilegales, como el abuso infantil y la pornografía. RRT consideró que no tenían suficiente proactividad en esta misión, ya que dependerían principalmente de la buena voluntad de los usuarios de Internet que denunciarían contenidos ilegales a la línea directa.

RRT presentó este dilema en un hackathon local de GovTech y lo vimos como el desafío perfecto para nosotros. Combinando tecnologías de reconocimiento de inteligencia artificial y raspado web, creamos una herramienta dedicada que escanea el espacio web lituano en busca de imágenes potencialmente dañinas. Luego se envían para que los revisen los especialistas del RRT.

Si bien todavía hay margen de mejora, la herramienta ya está operativa. Sólo durante los primeros meses de su uso, se identificaron 19 sitios web como infractores de las leyes nacionales o de la UE, se presentaron ocho denuncias policiales y se iniciaron dos investigaciones previas al juicio. Además, los especialistas del RRT sintieron que ahora estaban tomando la delantera en el proceso.

Presentaré en profundidad la solución que creamos para RRT durante mi presentación en OxyCon.

¿Qué crees que podría fomentar más historias de éxito como estas? ¿Cómo puede el sector público descubrir el web scraping?

Todo comienza con la conciencia. Como las personas que trabajan en el sector público no saben de tecnología, no pueden imaginarla como una solución a sus desafíos. Consideramos que es nuestra responsabilidad explicar el web scraping al público en general y desacreditar los mitos comunes al respecto.

También funciona al revés. En Oxylabs sabemos que nuestras herramientas podrían potencialmente usarse para alcanzar una mayor eficiencia en el sector público. Sin embargo, no somos conscientes de los desafíos específicos que enfrenta una institución en particular, por lo que no podemos ofrecer nuestras soluciones con anticipación. La presentación de RRT del desafío al que se enfrentaron en un hackathon fue un gran ejemplo de cómo las empresas de tecnología y las organizaciones públicas pueden encontrarse y comenzar a cooperar.

También es muy importante hablar más sobre las historias de éxito para que inspiren a otros. La tecnología a menudo se ve sólo como un medio para un fin y, por lo tanto, a menudo se la deja en las sombras cuando se cuenta la historia de la superación de un problema específico. Sin embargo, compartir más detalles sobre cómo se utilizó una tecnología en particular podría crear verdaderos momentos de iluminación para otras personas que enfrentan problemas similares.

El web scraping a menudo se considera una tecnología riesgosa. ¿Qué deben tener en cuenta las instituciones públicas al empezar a recopilar datos públicos?

La recopilación de datos siempre implica riesgos, ya que es un tema extremadamente delicado. Por lo tanto, cualquiera que comience a recopilar datos web públicos debe pasar primero por una determinada lista de verificación.

Primero, intente evaluar qué tipo de datos extraerá. Compruebe si existe algún riesgo de que los datos personales puedan estar involucrados y, de ser así, puede minimizarlos o anonimizarlos. Otra pregunta importante es si se recopilarán datos protegidos por derechos de autor y si se puede evitar.

No es fácil comprender los aspectos legales relacionados con la recopilación de datos, por lo que siempre es útil consultar a un profesional jurídico antes de iniciar operaciones de scraping. Nos encontramos con situaciones similares al desarrollar nuestra solución para RRT, donde tuvimos que consultar con equipos legales y solicitar la aprobación de la policía lituana para almacenar datos específicos extraídos. Sin embargo, no permita que los miedos le impidan alcanzar una mayor eficiencia en sus tareas: una vez que se respondan las importantes cuestiones legales, podrá disfrutar libremente de los beneficios de la tecnología.

Acerca de OxyCon

OxyCon es una conferencia anual de web scraping, organizada por Oxylabs, un proveedor líder mundial de soluciones de recopilación de datos web públicos. El evento se llevará a cabo del 7 al 8 de septiembre en línea y el registro es gratuito. OxyCon está destinado a cualquier persona interesada en la recopilación de datos web públicos, los desarrollos de la industria y los desafíos que enfrenta el proceso.

Etiquetas:

Tabla de Contenido