Una herramienta para la recolección de tweets en la era post-API
Agustín Nieto (INHUS-CONICET/UNMdP)El taller será impartido en dos sesiones de tres horas cada una, con un
enfoque práctico en el uso de la biblioteca TweetScraperR
. El objetivo
es que los participantes aprendan a recolectar tweets mediante scraping,
abordando desde los fundamentos de R y RStudio hasta las funciones
avanzadas de TweetScraperR
. A lo largo del taller, se cubrirán las
diferencias entre el web scraping y las API REST, y se explorarán los
fundamentos de la recolección de datos de Twitter, una herramienta clave
en la investigación y análisis de redes sociales en la actualidad.
- Familiarizar a los participantes con el entorno de R y RStudio.
-
¿Qué es R? Una breve historia y sus aplicaciones en análisis de datos.
-
Instalación de R y RStudio en distintos sistemas operativos.
-
Navegación por RStudio: consola, editor, entorno y panel de gráficos.
-
Ejecución de comandos básicos en la consola.
-
Creación y ejecución de scripts para automatizar tareas.
- Comprender las diferencias fundamentales entre el web scraping y las API REST, y cuándo utilizar cada uno.
-
Definición de web scraping: ¿Qué es y por qué es relevante en la era post-API?
-
Introducción a las API REST: Qué son, cómo funcionan, y cómo las empresas regulan el acceso a datos.
-
Comparativa entre scraping y APIs en el contexto de la recolección de datos de Twitter: pros y contras.
- Aprender a extraer datos de páginas web utilizando la función
read_html_live()
de la libreríarvest
.
-
Instalación y carga del paquete
rvest
. -
Introducción a
read_html_live()
: su sintaxis y aplicaciones.
- Extraer títulos de una página web dinámica y almacenar el resultado en un data frame.
- Conocer los fundamentos de la biblioteca
TweetScraperR
y cómo usarla para recolectar datos de Twitter.
-
Instalación y configuración del paquete
TweetScraperR
. -
Estructura básica de las funciones en
TweetScraperR
: cómo acceder a los datos. -
Recolección básica de tweets utilizando palabras clave y hashtags.
- Buscar tweets que mencionen una palabra clave de interés y guardar los resultados.
- Explorar las funcionalidades avanzadas de
TweetScraperR
para enriquecer los datos obtenidos.
-
Búsqueda por perfiles de cuenta, y de tweets con información completa.
-
Almacenamiento de los datos recolectados en formatos como RDS.
- Buscar tweets históricos por un hashtag relacionado con un evento del pasado reciente.
-
Búsquedas en tiempo real con información completa.
-
Implementación de un ciclo for para recolectar tweets completos en tiempo real.
- Buscar tweets por un hashtag relacionado con un evento que sea trending topic en Trends 24.
Al final del taller, se tendrá una comprensión de:
-
El R y RStudio.
-
Las diferencias clave entre web scraping y API REST.
-
Cómo extraer datos de páginas web dinámicas usando
rvest
. -
Las funciones clave de
TweetScraperR
para la recolección de tweets. -
Aplicar los conocimientos en un proyecto práctico de recolección y análisis de datos de Twitter.
Este plan de estudios está diseñado para que quienes participan no solo
comprendan los conceptos teóricos, sino que también tengan una
experiencia práctica con las herramientas que les permitirá utilizar
TweetScraperR
en sus propios proyectos de análisis de redes sociales.
-
Ledford, H. (2023). Researchers scramble as Twitter plans to end free data access. Nature, 614(7949), 602-603.
-
Murtfeldt, R., Alterman, N., Kahveci, I., & West, J. D. (2024). RIP Twitter API: A eulogy to its vast research contributions (arXiv:2404.07340). arXiv. https://doi.org/10.48550/arXiv.2404.07340
-
Nieto, A. (2024). TweetScraperR: una herramienta para la recolección de tweets en la era post-API. Rpub. https://rpubs.com/agustin/tweet-scraper
-
Poudel & Weninger (2024) Navigating the Post-API Dilemma. In Proceedings of the ACM Web Conference 2024 (WWW ’24). Association for Computing Machinery, New York, NY, USA, 2476–2484. https://doi.org/10.1145/3589334.3645503
-
Trezza D (2023) To scrape or not to scrape, this is dilemma. The post-API scenario and implications on digital research. Front. Sociol. 8:1145038. doi: 10.3389/fsoc.2023.1145038