Web scraper con Python: guía completa para 2026

Empresas

Crea tu propio rastreador web con Python desde cero. La guía paso a paso para elegir las bibliotecas, extraer datos y automatizar el análisis con ELECTE.

Web scraper con Python: guía completa para 2026

Fabio Lauria

Director ejecutivo y fundador de ELECTE

Resuma este artículo con IA

Probablemente te encuentres ante una situación muy concreta. Necesitas precios competitivos, anuncios, reseñas, catálogos, datos públicos o contenidos de portales verticales. La alternativa suele ser siempre la misma: copiar y pegar manualmente, exportaciones incompletas, API limitadas o datos dispersos en páginas que nadie en la empresa consigue recopilar de forma sistemática.

Es aquí donde un rastreador web con Python deja de ser un simple ejercicio técnico para convertirse en un recurso operativo. Python es la opción más práctica cuando se quiere pasar de páginas web a conjuntos de datos limpios, ya que permite empezar con scripts sencillos y luego evolucionar hacia rastreadores más avanzados, automatización de navegadores y procesos de análisis.

En el contexto italiano, el tema cobra aún más relevancia. Python se ha convertido en un estándar en el ámbito de la automatización y el análisis de datos, y el scraping es una de las aplicaciones más utilizadas en las empresas. Sin embargo, la diferencia real no la marca quien «descarga datos», sino quien sabe elegir la biblioteca adecuada, evitar los errores típicos, cumplir con el RGPD y las condiciones de uso, y entregar datos que la empresa pueda leer y utilizar.

Índice

Cómo estructurar el proceso de pasar de los datos a los conocimientos

Puntos clave que hay que recordar

Conclusión: Empieza a aprovechar el potencial de los datos web

Introducción: Convertir la web en una fuente de datos estratégicos

Muchos de los primeros proyectos de scraping surgen de una necesidad sencilla: estar al tanto de los precios de la competencia, recopilar titulares de un portal especializado, elaborar una lista de productos o hacer un seguimiento de licitaciones o anuncios. El problema no es encontrar los datos. El problema es recopilarlos de forma sistemática, limpia y lo suficientemente fiable como para utilizarlos en la toma de decisiones.

Un rastreador web en Python resuelve precisamente esto. Te permite visitar una página, descargar su contenido, identificar los elementos útiles y guardarlos en un formato estructurado. Si lo haces bien desde el principio, puedes convertir una tarea manual y propensa a errores en un proceso estable.

La parte que los tutoriales suelen omitir es la más importante en la práctica real. No basta con «hacer scraping». Hay que elegir el nivel adecuado de complejidad. Requests y BeautifulSoup son suficientes para muchos sitios web. Otros requieren Selenium o Playwright porque el contenido se genera mediante JavaScript. En proyectos más amplios entra en juego Scrapy. Y cuando los datos contienen información sobre personas, perfiles o contactos, también se necesita un marco legal preciso.

Un buen scraper no es el que extrae más datos. Es el que extrae los datos adecuados, con el menor coste de mantenimiento.

Por qué Python es la herramienta ideal para el web scraping

Una joven con gafas mira la pantalla del ordenador, en la que se ve código de programación en lenguaje Python.

Python domina este ámbito por una razón práctica. Te permite pasar muy rápidamente de una idea a un script que funciona, sin tener que hacer demasiadas concesiones a medida que el proyecto crece. En el mercado italiano, esto no es solo una preferencia técnica. Según los datos de 2023 del Observatorio de Innovación Digital del Politécnico de Milán, el 75 % de las empresas italianas utiliza Python para el análisis de datos y la automatización, siendo el web scraping una de las principales aplicaciones. En la misma línea, en 2022 el 40 % de las pymes de Lombardía implementó scrapers de Python para el seguimiento de los precios de la competencia, con un aumento de la competitividad del 25 % en el sector minorista, tal y como se recoge en la página de referenciade la Universidad de Texas sobre el scraping con Python.

Python funciona bien porque reduce las fricciones

La principal ventaja de Python es su legibilidad. Ya sea que tengas que explicar un script a un compañero, depurar selectores HTML o modificar la lógica de extracción dentro de dos semanas, la claridad del código es más importante de lo que parece.

La segunda ventaja es el ecosistema. Dispones de bibliotecas consolidadas para casi todos los niveles de trabajo:

Solicitudes para descargar HTML o consultar puntos finales.
BeautifulSoup para navegar por el DOM y extraer texto, enlaces y atributos.
Selenium y Playwright para sitios web que dependen de la representación del navegador.
Scrapy, cuando necesitas organizar arañas, flujos de trabajo, reintentos y exportaciones de forma más profesional.
Pandas: el siguiente paso es limpiar y analizar los datos.

La elección adecuada depende del lugar

Aquí es donde muchos principiantes se equivocan. Ven Selenium y piensan que siempre es la mejor solución. No lo es.

En el caso de una página estática, utilizar un navegador completo supone un mayor consumo de recursos, un código más lento y un aumento de los puntos de fallo. Por el contrario, utilizar únicamente Requests en un sitio web que carga los datos mediante JavaScript conduce a un resultado típico: un HTML casi vacío y sin datos útiles.

Es mejor pensar de esta manera:

Una página web sencilla y el código HTML ya está listo. Empieza con Requests + BeautifulSoup.
Sitio web con contenidos que se cargan después de la carga inicial. Cambia a Playwright o Selenium.
Muchas páginas, estructura recurrente, necesidad de rastrear. Considera utilizar Scrapy.
Los datos están disponibles a través del punto final JSON. Es mejor utilizar ese punto final que analizar el código HTML.

Regla práctica: elige siempre la herramienta más sencilla que realmente te permita leer los datos que necesitas.

Otra ventaja de Python es que esta transición es gradual. No tienes que reescribirlo todo cada vez. A menudo puedes mantener la lógica de análisis y cambiar solo la forma en que obtienes la página.

Elegir las bibliotecas de Python adecuadas para cada tarea

La forma más útil de elegir una biblioteca no es preguntarse cuál es «la mejor». La pregunta correcta es otra: ¿qué tipo de sitio web quiero crear, cuánto tiempo durará este proyecto y cuánto mantenimiento puedo permitirme?

Infografía que muestra las bibliotecas de Python recomendadas para el scraping de sitios web estáticos y dinámicos.

Un informe de 2025 de Unioncamere Lombardia indica que muchas empresas tecnológicas de Lombardía utilizan Python para el scraping, lo que contribuye de manera significativa al valor económico regional. En el mismo contexto, Scrapy registra una adopción del 45 % entre los desarrolladores italianos y Selenium se utiliza en el 55 % de los proyectos que requieren interacción con sitios JavaScript, con una reducción de los bloqueos por CAPTCHA del 90 % si se combina con un proxy, según la página de referencia de ScraperAPI dedicada al scraping con Python.

Una pila ligera para páginas estáticas

Si el contenido ya está en el código HTML inicial, no te compliques la vida.

Requests + BeautifulSoup sigue siendo el punto de partida más sensato para:

sitios web editoriales con una estructura regular
directorios públicos sencillos
páginas de productos generadas por el servidor
páginas de listado sin interacciones especiales

Esta pila es ideal cuando quieres:

poner en marcha rápidamente un rastreador
depurar con facilidad
guardar los datos en formato CSV o JSON
mantener el código legible incluso para los compañeros que no sean especialistas

Un ejemplo sencillo:

import requests from bs4 import BeautifulSoup url = "https://example.com/news" response = requests.get(url, timeout=20) response.raise_for_status()soup = BeautifulSoup(response.text, "html.parser")for article in soup.select("article"):title = article.select_one("h2")link = article.select_one("a")if title and link:print(title.get_text(strip=True), link.get("href"))

Este método funciona bien siempre y cuando los datos se encuentren realmente en el código fuente HTML. Antes de utilizarlo, abre «Ver código fuente de la página», no solo «Inspeccionar». Si los datos no están en el código fuente, Requests por sí solo no es suficiente.

Cuando se necesita un navegador de verdad

Si ves cargas asíncronas, botones de «cargar más», desplazamiento infinito, contenidos creados con marcos de trabajo front-end o interacciones obligatorias del usuario, entonces el analizador HTML por sí solo no resuelve el problema.

En estos casos, entran en juego Selenium y Playwright.

Selenium es una opción estable y muy extendida. Es ideal cuando necesitas:

hacer clic en los botones
rellenar campos
esperar a que el navegador cargue los elementos
gestionar sitios web complejos con flujos de usuarios

Playwright tiende a ofrecer una API más moderna y sencilla. Si estás empezando ahora, a muchos equipos les resulta más intuitivo para:

previsiones más fiables
compatibilidad con múltiples navegadores
automatización sin interfaz ordenada
Interacciones en aplicaciones web (SPA) e interfaces modernas

Una disyuntiva real: la automatización del navegador ofrece mayor potencia, pero también un mayor consumo de memoria, tiempos de ejecución más largos y más mantenimiento.

Si puedes leer un punto final JSON en el tráfico de red, hazlo. Casi siempre es más fiable que simular clics y desplazamientos.

Cuando el proyecto deja de ser un guion

Llega un momento en el que ya no estás «haciendo scraping». Estás creando un proceso.

Aquí es donde Scrapy cobra interés. No porque sea más sencillo, sino porque organiza mejor:

colas de solicitudes
gestión de la paginación
reintentar
limitación de velocidad
cadena de limpieza
exportaciones estructuradas

Lo recomiendo cuando tengas que trabajar con muchas categorías, muchas páginas o varios dominios con lógicas recurrentes. Para una extracción puntual, suele ser excesivo. En cambio, para un rastreador continuo, te evita tener que reinventar componentes que, de otro modo, acabarías dispersando en scripts separados.

También puedes utilizar una lógica híbrida:

Solicitudes de pruebas rápidas.
Playwright para verificar los casos dinámicos.
Scrapy cuando el proceso entra en producción.

Tabla de comparación rápida

BibliotecaCaso de uso idealGestión de JavaScriptCurva de aprendizajeVelocidadRequestsPáginas estáticas, API, prototipos rápidosNoBajaAltaBeautifulSoupAnálisis HTML sencillo y legibleNoBajaMediaSeleniumInteracción con el navegador, formularios, clics, sitios dinámicosSíMediaBajaPlaywrightSitios dinámicos modernos, esperas más sólidasSíMediaMediaScrapyRastreo a gran escala, procesos estructuradosNo nativa, hay que ampliarlaAltaAlta

Guía práctica para crear tu primer scraper

La primera versión de un rastreador debe hacer bien unas pocas cosas: leer una página, encontrar los elementos correctos, depurar el texto y guardar el resultado en un formato útil. Nada más.

Una persona que escribe código en Python para el web scraping en un ordenador, en una luminosa oficina en casa.

Preparar el local y las dependencias

Mantén el proyecto aislado. Un entorno virtual te evita conflictos y hace que el trabajo sea reproducible.

Instala solo lo estrictamente necesario:

pip install requests beautifulsoup4

Estructura inicial básica:

scraper.py para el código
output.csv para la exportación
un archivo README interno con las URL de destino, los selectores utilizados y notas operativas

Puede parecer una tontería, pero anotar desde el principio los selectores que se utilizan te ahorrará tiempo cuando cambie el sitio web.

Revisa la página antes de escribir código

Abre la página de destino en el navegador y utiliza las herramientas de desarrollador. Busca los nodos que realmente contienen la información que te interesa.

Supongamos que queremos extraer:

título de la noticia
enlace a la noticia

Comprueba tres cosas:

¿El contenido está en el código fuente HTML?
¿Son bastante estables las clases o etiquetas de los elementos?
¿El enlace es absoluto o relativo?

No elijas selectores frágiles, como las clases generadas automáticamente por el frontend. Si puedes seleccionar un artículo, un h2 o una zona con una estructura coherente, tu scraper durará más.

Escribir un scraper básico con Requests y BeautifulSoup

Aquí tienes un ejemplo completo y claro.

import csvimport requestsfrom bs4 import BeautifulSoupfrom urllib.parse import urljoinBASE_URL = "https://example.com"TARGET_URL = "https://example.com/news"headers = {"User-Agent": "Mozilla/5.0"}response = requests.get(TARGET_URL, headers=headers, timeout=20)response.raise_for_status()soup = BeautifulSoup(response.text, "html.parser")rows = []for card in soup.select("article"):title_el = card.select_one("h2")link_el = card.select_one("a")if not title_el or not link_el:continuetitle = title_el.get_text(strip=True)link = urljoin(BASE_URL, link_el.get("href", "").strip())if title and link:rows.append({"titolo": title,"url": link})with open("output.csv", "w", newline="", encoding="utf-8") as f:writer = csv.DictWriter(f, fieldnames=["titolo", "url"])writer.writeheader()writer.writerows(rows)print(f"Elementi estratti: {len(rows)}")

Para un primer web scraper con Python, esta estructura ya es más que suficiente.

El flujo es lineal:

descarga la página
crea el analizador sintáctico
selecciona los bloques repetidos
extrae los campos
guarde el resultado

Limpiar y guardar los resultados

La calidad de los datos se decide aquí. Los problemas más comunes no son técnicos, sino operativos:

títulos con espacios adicionales
enlaces relacionados
líneas duplicadas
codificación irregular
campos vacíos

Antes de enviar el archivo CSV, ábrelo para comprobarlo. Si el archivo se va a importar a Excel, conviene comprobar que las columnas y los caracteres sean legibles. Si necesitas ayuda con este paso, te puede resultar útil esta guía de ELECTE cómo gestionar archivos CSV en Excel.

Un scraper que genera un archivo CSV con errores solo traslada el problema a una fase posterior. No lo resuelve.

Buenos hábitos que conviene poner en práctica desde ya:

Usar strip() para limpiar el texto.
Comprueba los campos obligatorios antes de guardar.
Normaliza las URL con urljoin.
Comprueba si hay duplicados en caso de que la página contenga elementos repetidos.
Gestionar errores HTTP con raise_for_status().

Si el resultado te parece frágil, es que lo es. Antes de añadir nuevas funciones, consolida la base.

Superar obstáculos avanzados como JavaScript y medidas contra los bots

Una programadora trabaja en el ordenador con gráficos complejos que muestran el proceso de extracción de datos de la web y su representación.

Cuando un scraper devuelve una página casi vacía, el problema no suele estar en Python. El problema radica en el modelo de renderizado del sitio web. Muchas interfaces modernas cargan los datos después del HTML inicial, mediante solicitudes asíncronas o componentes de JavaScript. Requests descarga el documento inicial, pero no ejecuta el navegador.

Entender por qué una página devuelve datos vacíos

Antes de pasar a Selenium o Playwright, echa un vistazo rápido a las herramientas de desarrollador:

Comprueba la pestaña «Red»
filtra las solicitudes Fetch/XHR
Buscar respuestas JSON
comprueba si los datos relevantes proceden de terminales distintos

Si encuentras un punto final limpio y legible, suele ser la mejor opción. Obtienes datos más estructurados, menos ruido HTML y menos mantenimiento.

Si, por el contrario, el sitio web genera realmente el contenido en el navegador, utiliza la automatización del navegador. En ese caso, se necesitan tiempos de espera adecuados. El patrón correcto no es «espera 5 segundos y cruza los dedos». Se trata de esperar a que aparezca el elemento o a que se cumpla una condición observable.

Las defensas contra los bots no se combaten con la fuerza bruta

Muchos sitios web bloquean las prácticas de scraping agresivas para proteger su infraestructura, sus datos y la experiencia del usuario. Si envías demasiadas solicitudes, utilizas encabezados poco habituales o abres sesiones de navegador de forma repetitiva, el sitio web reaccionará.

Los errores más comunes son siempre los mismos:

Solicitudes demasiado rápidas que activan la limitación de rate.
Encabezados deficientes o incoherentes que delatan un guion.
Sesiones sin estado cuando el sitio web espera cookies o tokens.
Selectores basados en clics repetitivos que se estropean en cuanto se cambia la interfaz.

El enfoque profesional es más sobrio:

Disminuye el ritmo de las solicitudes.
Utiliza sesiones cuando sea necesario mantener la continuidad.
Establece encabezados creíbles y coherentes.
Limita el número de páginas visitadas a los datos que realmente necesitas.
Siempre que sea posible, opta por puntos finales estructurados en lugar del renderizado completo.

No conviene perseguir cada medida contra los bots como si fuera un reto técnico. Si el sitio web se muestra claramente hostil al scraping, valora si los datos se pueden obtener realmente de forma sostenible y conforme a la normativa.

Crear rastreadores resistentes significa reducir la fricción con el sitio web, no ganar una carrera contra sus defensas.

Scraping ético y legal en cumplimiento del RGPD en Italia

El aspecto más descuidado en los proyectos de scraping no es el analizador sintáctico. Es la responsabilidad. En el contexto italiano, esto cobra mucha más importancia cuando los datos se refieren a personas, perfiles profesionales, currículos, contactos o información procedente de portales de empleo.

Según datos de AGID 2025, varias pymes italianas han sido sancionadas por infracciones relacionadas con la extracción de datos de la UE, con un número considerable de sanciones en Lombardía y Véneto en 2024-2025. En la misma referencia se señala que la extracción de nombres de portales de empleo puede acarrear riesgos penales en virtud del art. 167 del D.Lgs. 196/03. La referencia aparece en la guía práctica de Real Python sobre web scraping.

Que sea público no significa que se pueda usar libremente

Este es el primer malentendido que hay que aclarar. El hecho de que un dato sea visible en Internet no significa que puedas recopilarlo, combinarlo, conservarlo y reutilizarlo sin límites.

En un trabajo serio hay que tener en cuenta al menos cuatro aspectos:

Robots.txt. No es el único criterio jurídico, pero indica la orientación del sitio web.
Condiciones del servicio. Algunos sitios web prohíben expresamente la extracción automática o la reutilización.
Presencia de datos personales. Nombres, direcciones de correo electrónico, perfiles, reseñas identificables, currículos.
Finalidad del tratamiento. Debes saber por qué recopilas los datos, durante cuánto tiempo los conservas y quién tiene acceso a ellos.

Para orientarte en materia de consentimiento, recopilación de datos y cumplimiento normativo, también te resultará útil este artículo de ELECTE cookies y privacidad en línea, la normativa de la UE frente a la de EE. UU., el «Modo de consentimiento» de Google y la gestión de consentimientos.

Una lista de verificación básica de cumplimiento

Si tienes que crear un rastreador en una empresa, esta base es imprescindible:

Limita el alcance. Recoge solo los datos necesarios para la finalidad declarada.
Evita recopilar datos personales que no sean imprescindibles. Si no son necesarios, no los recopiles.
Pseudonimiza o anonimiza los datos siempre que sea posible ya en la cadena de procesamiento.
Documenta el origen de los datos y la lógica de recopilación.
Establece plazos de conservación acordes con el uso real.

Lo importante aquí no es convertirse en abogados. Se trata de trabajar como profesionales. Un scraper bien programado no solo es eficiente, sino que también es defendible.

De la extracción a la acción con la plataforma ELECTE

Muchos proyectos se detienen demasiado pronto. El equipo consigue extraer los datos, guarda un archivo CSV y, tal vez, actualiza el archivo cada semana. Pero ahí se detiene el proceso. Sin limpieza de datos, comparaciones históricas, informes ni previsiones, el valor sigue siendo parcial.

Cómo estructurar el proceso de pasar de los datos a los conocimientos

El fragmento relevante es este:

Extraer datos coherentes de fuentes web.
Normalizar campos, formatos, nomenclatura y claves.
Conceder un carácter histórico a los datos recopilados.
Comparar variaciones, excepciones y patrones.
Analizar en un entorno que permita que los datos sean comprensibles también para el ámbito empresarial.

Si trabajas en el sector minorista, esto puede significar realizar un seguimiento de los precios de la competencia y las promociones a lo largo del tiempo. En el ámbito financiero o del cumplimiento normativo, puede significar enriquecer los controles y las listas de seguimiento con fuentes públicas. En marketing, las reseñas y los contenidos editoriales pueden servir de base para clasificaciones cualitativas y análisis de tendencias.

Cuando el flujo se vuelve recurrente, conviene conectar el scraping a un sistema de análisis y no a una carpeta de archivos locales. Para quienes necesiten integrar datos recopilados de fuentes externas en un ecosistema más amplio, puede resultar útil ver también cómo ELECTE la integración a través de API con un perfil de Postman verificado.

El principio es sencillo. El scraping recopila materia prima. El valor surge cuando esa materia prima se integra en un proceso de toma de decisiones.

Puntos clave que hay que recordar

Python es la opción más práctica cuando se quiere crear un rastreador legible, ampliable y compatible con el análisis de datos.
La biblioteca adecuada depende del sitio web. Requests y BeautifulSoup para HTML estático. Playwright o Selenium para contenidos dinámicos. Scrapy para procesos más amplios.
Lo primero que hay que hacer es entender la página, no escribir código.
Los datos sin procesar no son suficientes. Hay que limpiarlos, validarlos y guardarlos en un formato reutilizable.
El RGPD, las condiciones de uso y los datos personales no son detalles secundarios. Forman parte del proyecto.
Un rastreador web en Python solo tiene sentido si permite tomar mejores decisiones, no si genera archivos que luego se olvidan.

Conclusión: Empieza a aprovechar el potencial de los datos web

Crear un buen scraper implica tomar decisiones sensatas. La herramienta adecuada para cada sitio web. Selectores estables. Resultados limpios. Ritmo de solicitudes controlado. Preocupación por los aspectos legales desde el principio.

Por eso, el web scraper con Python sigue siendo uno de los proyectos más útiles para analistas, equipos digitales y pymes. Te permite convertir la web en una fuente operativa de datos, sin depender únicamente de exportaciones manuales o integraciones limitadas.

Sin embargo, el objetivo final no es la extracción de datos, sino su uso. Si relacionas los datos recopilados con informes, tendencias, alertas y registros históricos, el scraping deja de ser una tarea técnica y se convierte en una herramienta concreta para la toma de decisiones.

Ya has recopilado los datos. El siguiente paso es convertirlos en información clara y útil. Con ELECTE, la plataforma de análisis de datos basada en IA para pymes, puedes conectar diferentes fuentes, preparar los datos más rápidamente y obtener informes y análisis que realmente ayudan a la empresa a tomar decisiones. Si quieres pasar de los archivos sin procesar a una toma de decisiones más rápida, vale la pena ver cómo funciona.