Este curso está orientado a profesionales y estudiantes de Ciencias Sociales, Computación, Matemática y Física con interés en el uso de métodos cuantitativos para el análisis de textos y redes. El objetivo es ofrecer una exposición sistemática de los conceptos fundamentales para quienes quieran participar del vínculo cada vez más estrecho entre el Análisis de Datos y las Ciencias Sociales. Al ser curso de posgrado por la Facultad de Ciencias Exactas y Naturales, UBA, se otorgará certificación para quienes aprueben el examen final.
Los docentes a cargo serán Ernesto Calvo (Universidad de Maryland, EEUU), Iñaki Sagarzazu ( Texas Tech University, EEUU) y Leandro Lombardi (Fundación Sadosky). El seminario está estructurado en 7 clases de 4 horas. Será dictado en R/R-Studio y se concentrará en los paquetes Quantera y Igraph.
Facultad de Ciencias Exactas y Naturales
Julio 31 – Agosto 8, 2017
Programa
- Introducción a R: Interfaz de R-Studio, operaciones básicas, vectores. Carga y manipulación de datos, Data Frames.
- Análisis de texto: Bolsa-de-palabras vs. Análisis semántico. Codificación de Diccionario.
- Análisis semántico: extracción de espacio latente de un corpus.
- Extracción de conocimiento: tópicos de aprendizaje automático.
- Análisis de redes sociales: conceptos de redes, detección de comunidades y visualización de redes.
- Análisis de corpus de textos en redes sociales: hashtags, análisis de clusters, redes semánticas, visualización de contenidos.
Requisitos
- Concurrir con una computadora con R y RStudio instalado.
- Tener un conocimiento básico de R, como el disponible en el siguiente tutorial.
Para instalar los paquetes requeridos para la clase correr en R o R-Studio el código:
sapply(c(“rvest”,”RCurl”,”XML”,”httr”,”xml2″,”RCurl”,”tm”,”igraph”,”foreign”,”twitteR”, “httpuv”,”lmer”,”streamR”,”quanteda”,”readtext”),install.packages)
Selección de Textos de Apoyo
https://www.dropbox.com/sh/skwrakeilmcqn9j/AADrdgsFqWq8CeXzp-rXVlwba?dl=0
Programa
Módulo 1: Lunes 31 de Julio, Taller I - Introducción a R, 1 ½ horas
16 a 17:45 hs: Introducción a R, Leandro Lombardi
Una introducción a R. Tipos de datos, vectores, matrices, arrays, listas, loops, apply, tapply/sapply. Programación de funciones.
Código 1: (Remplazar por código de LL)
Ejemplo de Modelo Lineal en R
https://www.dropbox.com/s/ijg8mir6pm3r2d7/Basic%20R%20and%20a%20Multi-level%20World.txt?dl=0
Código 2: (Remplazar por código de LL)
Una función basica en R
https://www.dropbox.com/s/1b38et32mdftxww/Basic%20R%20-%20Understanding%20Functions-Students.txt?dl=0
Ejercicio: Advent of Code (https://adventofcode.com/2015) – Day 1
https://www.dropbox.com/s/y6318o04q4nbp5s/Day%201%20-%20Advent%20of%20Code.html?dl=0
Data: https://www.dropbox.com/s/tfo3absnckawpha/input1.txt?dl=0
Módulo 2, Lunes 31 de Julio, Teórico: Introducción al análisis de Texto y al análisis de Redes en R, 2 horas.
18:00 a 19:00hs: Presentación del tema Análisis de Texto, Iñaki Sagarzazu
19:15 a 20:15hs: Introducción al Análisis de Redes, Ernesto Calvo
Módulo 3, Martes 1 de Agosto, Introducción a R, parte B: Ejemplo para trabajar en R procesando textos
16 a 17:45hs: Taller de R, Quanteda, TM y expresiones regulares, Leandro Lombardi.
Datos del Presupuesto Nacional: http://datos.gob.ar/dataset/ejecucion-presupuestaria-de-la-administracion-publica-nacional
Módulo 4, Martes 1 de Agosto, Analisis de Texto: Bolsa de palabras
18 a 20:00 hs: Análisis de Texto II: Iñaki Sagarzazu
Código 4: Código y data para Análisis de Texto: Iñaki Sagarzazu
https://www.dropbox.com/sh/nnff56aqjauobuq/AACBT3p-RAANc0MMdtbtDd2ua?dl=0
Módulo 5, Miércoles 2 de Agosto, Análisis de Texto: Análisis de Sentimiento y Tópicos
16 a 17:45 hs: Taller de R, Leandro Lombardi
Código 5: Código y data para Taller II: Leandro Lombardi.
Módulo 6, Miércoles 2 de Agosto, Análisis de Sentimiento y Topicos
18 a 20:00 hs: Análisis de Texto III: Iñaki Sagarzazu
Codigo 6: Codigo y data para análisis de bolsa de Palabras: Iñaki Sagarzazu
Módulo 7, Jueves 3 de Agosto: Apoyo en R para Networks, 1 ½ Hours.
16 a 17:45hs: Taller de R, Leandro Lombardi
APIs. Get, Post. HTML and JSON files,Twitter data. Paquete Igraph.
Módulo 8, Jueves 3 de Agosto: Taller Twitter Networks I, 1 ½ Hours.
18 a 20:00hs: Ernesto Calvo
Las Redes Sociales como Objeto. Edges, Nodes. Types of networks.
https://www.dropbox.com/s/tc00tchtua91ciz/Twitter%20in%20R%20using%20streamR-Remplazar%20key%20and%20Secret.R?dl=0
Toy JSON File: https://www.dropbox.com/s/3e1n3pf9eu2mcxn/macri.json?dl=0
Módulo 9, Viernes 4 de Agosto: Taller Twitter Networks II, 1 ½ Hours.
16 a 17:45hs: Taller de R, Leandro Lombardi
Comienzo del trabajo practico: Selección de Dataset y procesamiento inicial.
Módulo 10, Viernes 4 de Agosto: Detección de Comunidades y visualización.
18 a 20:00hs: Ernesto Calvo
Layouts, Communities, Clusters.
Detección de términos, análisis de texto.
Usamos el Dataset 2×1 y el “Toy JSON”.
https://www.dropbox.com/s/xqrvni8i1wyphsa/Twitter%20in%20R%20DosxUno-Full.R?dl=0
Big Data: Dataset 2×1 (220 megas) https://www.dropbox.com/s/qourqpwbcoj7e10/DosxUno.RData?dl=0
Módulo 11, Lunes 7 de Agosto: Taller Twitter Networks II, 1 ½ Hours.
16 a 17:45 hs: Taller de R, Leandro Lombardi
Continua Trabajo Práctico. Visualizaciones y materiales para el trabajo.
Módulo 12, Lunes 7 de Agosto: Propagacion y visualización de Actividad en Twitter
18 a 20:30hs: Ernesto Calvo
Paradoja de los amigos, difusión, propagación.
Código de ejemplo para producir algunos materiales básicos para el trabajo práctico:
https://www.dropbox.com/s/padjb2zafreu63i/Algunos%20Pedacitos%20de%20Codigo%20para%20trabajar%20con%20redes.zip?dl=0
Módulo 13, Martes 8 de Agosto: Taller de Twitter, Análisis de Sentimiento en Twitter
16 a 17:45hs: Taller de R, Leandro Lombardi
Completar trabajos prácticos.