Análisis computacional de textos y redes en Ciencias Sociales

Este curso está orientado a profesionales y estudiantes de Ciencias Sociales, Computación, Matemática y Física con interés en el uso de métodos cuantitativos para el análisis de textos y redes. El objetivo es ofrecer una exposición sistemática de los conceptos fundamentales para quienes quieran participar del vínculo cada vez más estrecho entre el Análisis de Datos y las Ciencias Sociales. Al ser curso de posgrado por la Facultad de Ciencias Exactas y Naturales, UBA, se otorgará certificación para quienes aprueben el examen final.

Los docentes a cargo serán Ernesto Calvo (Universidad de Maryland, EEUU), Iñaki Sagarzazu ( Texas Tech University, EEUU) y Leandro Lombardi (Fundación Sadosky). El seminario está estructurado en 7 clases de 4 horas. Será dictado en R/R-Studio y se concentrará en los paquetes Quantera y Igraph.

Facultad de Ciencias Exactas y Naturales
Julio 31 – Agosto 8, 2017

curso-redes-pcd

Programa

  • Introducción a R: Interfaz de R-Studio, operaciones básicas, vectores. Carga y manipulación de datos, Data Frames.
  • Análisis de texto: Bolsa-de-palabras vs. Análisis semántico. Codificación de Diccionario.
  • Análisis semántico: extracción de espacio latente de un corpus.
  • Extracción de conocimiento: tópicos de aprendizaje automático.
  • Análisis de redes sociales: conceptos de redes, detección de comunidades y visualización de redes.
  • Análisis de corpus de textos en redes sociales: hashtags, análisis de clusters, redes semánticas, visualización de contenidos.

Requisitos

  • Concurrir con una computadora con R y RStudio instalado.
  • Tener un conocimiento básico de R, como el disponible en el siguiente tutorial.

Para instalar los paquetes requeridos para la clase correr en R o R-Studio el código:
sapply(c(“rvest”,”RCurl”,”XML”,”httr”,”xml2″,”RCurl”,”tm”,”igraph”,”foreign”,”twitteR”, “httpuv”,”lmer”,”streamR”,”quanteda”,”readtext”),install.packages)

Selección de Textos de Apoyo
https://www.dropbox.com/sh/skwrakeilmcqn9j/AADrdgsFqWq8CeXzp-rXVlwba?dl=0

Programa

Módulo 1: Lunes 31 de Julio, Taller I - Introducción a R, 1 ½ horas

16 a 17:45 hs: Introducción a R, Leandro Lombardi
Una introducción a R. Tipos de datos, vectores, matrices, arrays, listas, loops, apply, tapply/sapply. Programación de funciones.

Código 1: (Remplazar por código de LL)
Ejemplo de Modelo Lineal en R
https://www.dropbox.com/s/ijg8mir6pm3r2d7/Basic%20R%20and%20a%20Multi-level%20World.txt?dl=0

Código 2: (Remplazar por código de LL)
Una función basica en R
https://www.dropbox.com/s/1b38et32mdftxww/Basic%20R%20-%20Understanding%20Functions-Students.txt?dl=0

Ejercicio: Advent of Code (https://adventofcode.com/2015) – Day 1
https://www.dropbox.com/s/y6318o04q4nbp5s/Day%201%20-%20Advent%20of%20Code.html?dl=0

Data: https://www.dropbox.com/s/tfo3absnckawpha/input1.txt?dl=0

Módulo 2, Lunes 31 de Julio, Teórico: Introducción al análisis de Texto y al análisis de Redes en R, 2 horas.

18:00 a 19:00hs: Presentación del tema Análisis de Texto, Iñaki Sagarzazu
19:15 a 20:15hs: Introducción al Análisis de Redes, Ernesto Calvo

Módulo 4, Martes 1 de Agosto, Analisis de Texto: Bolsa de palabras

18 a 20:00 hs: Análisis de Texto II: Iñaki Sagarzazu

Código 4: Código y data para Análisis de Texto: Iñaki Sagarzazu
https://www.dropbox.com/sh/nnff56aqjauobuq/AACBT3p-RAANc0MMdtbtDd2ua?dl=0

Módulo 5, Miércoles 2 de Agosto, Análisis de Texto: Análisis de Sentimiento y Tópicos

16 a 17:45 hs: Taller de R, Leandro Lombardi

Código 5: Código y data para Taller II: Leandro Lombardi.

Módulo 6, Miércoles 2 de Agosto, Análisis de Sentimiento y Topicos

18 a 20:00 hs: Análisis de Texto III: Iñaki Sagarzazu

Codigo 6: Codigo y data para análisis de bolsa de Palabras: Iñaki Sagarzazu

Módulo 7, Jueves 3 de Agosto: Apoyo en R para Networks, 1 ½ Hours.

16 a 17:45hs: Taller de R, Leandro Lombardi

APIs. Get, Post. HTML and JSON files,Twitter data. Paquete Igraph.

Módulo 9, Viernes 4 de Agosto: Taller Twitter Networks II, 1 ½ Hours.

16 a 17:45hs: Taller de R, Leandro Lombardi

Comienzo del trabajo practico: Selección de Dataset y procesamiento inicial.

Módulo 10, Viernes 4 de Agosto: Detección de Comunidades y visualización.

18 a 20:00hs: Ernesto Calvo

Layouts, Communities, Clusters.

Detección de términos, análisis de texto.

Usamos el Dataset 2×1 y el “Toy JSON”.
https://www.dropbox.com/s/xqrvni8i1wyphsa/Twitter%20in%20R%20DosxUno-Full.R?dl=0

Big Data: Dataset 2×1 (220 megas) https://www.dropbox.com/s/qourqpwbcoj7e10/DosxUno.RData?dl=0

Módulo 11, Lunes 7 de Agosto: Taller Twitter Networks II, 1 ½ Hours.

16 a 17:45 hs: Taller de R, Leandro Lombardi
Continua Trabajo Práctico. Visualizaciones y materiales para el trabajo.

Módulo 12, Lunes 7 de Agosto: Propagacion y visualización de Actividad en Twitter

18 a 20:30hs: Ernesto Calvo

Paradoja de los amigos, difusión, propagación.
Código de ejemplo para producir algunos materiales básicos para el trabajo práctico:
https://www.dropbox.com/s/padjb2zafreu63i/Algunos%20Pedacitos%20de%20Codigo%20para%20trabajar%20con%20redes.zip?dl=0

Módulo 13, Martes 8 de Agosto: Taller de Twitter, Análisis de Sentimiento en Twitter

16 a 17:45hs: Taller de R, Leandro Lombardi

Completar trabajos prácticos.