Revistas culturales y literarias colombianas (1881-1947): análisis y visualización de datos

1. Preparación de los modelos de datos
2. Análisis y visualización de los datos
3. Visualización de datos
4. Análisis y visualización de la red bimodal autores-revista
- 4.1. Preparación y análisis de los datos
- 4.2. Visualización interactiva de la red

1. Preparación de los modelos de datos

1.1 Importación de los datos

En este análisis trabajamos con un corpus de 28 revistas editadas en Colombia entre 1881 y 1947. Cada una de las revistas está representada en un modelo de datos que se carga en una variable con el nombre de la revista.

Ahora cambiamos el tipo de dato en las columnas NumContrib, NumFasciculo y Fecha. Esto con el fin de unir todos nuestros modelos en un único dataset.

1.2. Creación data set `revistas`

Luego creamos un data set único llamado revistas con todos nuestros modelos y se comprueba que no haya valores NA en la columna colaborador.

1.3 Modelo de datos colaboradores (datos biográficos)

1.3.1. Importación modelo de datos colaboradores

Aquí, importamos el modelo de datos de colaboradores ya identificados. De este modelo nos interesan las variables : Colaborador, Fuente, Seudonimo, Sexo, PaisOrigen, Nacimiento y Muerte.

1.4. Creación de un conjunto de datos único con los datos biográficos

En este punto, añadimos los datos biográficos de los colaboradores indentificados a los datos de nuestro dataset revistas.

Visualizamos las primeras filas en una tabla, para comprobar que todo este correcto.

2. Análisis y visualización de los datos

2.1. Frecuencia colaboradores

2.1.1. Creación de la tabla de frecuencia de colaboradores

A partir de los datos en nuestra variable revistas_datos_biográficos creamos una tabla de datos con el cálculo de la frecuencia de colaboradores (es decir el número de contribuciones públicadas) en el conjunto de 28 revistas. Esta tabla incluye las variables Colaborador y Frecuencia.

Obtenemos, de este modo, una tabla con 2445 entradas o colaboradores únicos. Visualizamos los primeros 10.

Aquí, también podemos crear un dataset con las colaboradoras identificadas y su frecuencia de publicación. El total de contribuciones en este caso es 316, equivalentes al 2,22%.

Tan solo 98 de estas colaboradoras han sido identificadas con datos biográficos.

El resultado lo podemos visualizar en una tabla.

2.1.2. Limpieza datos de colaboradores anónimos

Ahora tomamos los anónimos de nuestro conjunto de datos y los guardamos en una variable. Luego se quitan de la tabla de colaboradores.

El total de entradas anónimas es 4569, equivalente al 32,22% de nuestro corpus.

2.2. Identificación de autores en nuestros datos

El objetivo de este proceso es comparar el conjunto de datos biográficos recolectados por cada autora y autor (en la variable datos_biograficos) y la lista de colaboradores únicos en las 28 revistas con las que estamos trabajando. Esto con el fin analizar los datos en relación a las variables biográficas de los autores (por ejemplo, nacionalidad o sexo).

2.2.1. Colaboradores no encontrados

Con este proceso se busca hacer una comparación que permita tener una tabla con los nombres de los colaborades que todavía no han sido identificados en la recolección de datos o con los que todavía no se cuenta con información suficiente.

Esta tabla se puede guardar para hacer correcciones y buscar más información sobre estos autores. Hasta el momento tenemos 895 autores sin datos biográficos.

Los resultados los podemos visualizar en un tabla.

2.3.1. Colaboradores identificados

Luego procedemos a crear una tabla con los autores que sí han sido identificados. En este caso tenemos 1549 entradas. Guardamos este archivo en un .csv para usos posteriores.

colaboradores_encontrados <- semi_join(colaboradores_revistas, datos_biograficos, by="Colaborador")

# 1331 (18-05-2024)
# 1369 (21-05-2024): Golondrina y Cultura
# 1477 (09-08-2024)
# 1549 (05.04.2025)

# write.csv(colaboradores_encontrados, file = "1881_1947_revistas_colaboradores_encontrados.csv", fileEncoding = "UTF-8", row.names = F)

Ahora podemos visualizar el resultado de los autores encontrados en una tabla que muestra los primeros casos y la frecuencia de aparición en el corpus (número de colaboraciones).

3. Visualización de datos

3.1 Colaboradores más prolíficos en el corpus (stack por género)

Así las cosas, podemos proponer algunas visualizaciones, para comprender mejor los datos recopilados.

La primera es una visualización de los colaboradores más prolíficos, esto es con mayor número de colaboraciones en el corpus.

figura_6

Figura 6. Colaboradores más prolíficos

3.2 Colaboradores mejor conectados

También podemos visualizar los colaboradores mejor conectados. En este caso solo visualizamos los autores con publicaciones en más de ocho revistas.

figura_7

Figura 7. Colaboradores mejor conectados

3.3. Géneros más populares

figura_8

Figura 7. Porcentaje de textos por tipología

3.4. Evolución de los géneros a través de los años

figura_9

Figura 8. Mirada diacrónica de las tipologías textuales

3.5. Géneros más traducidos

Número total de traducciones: 922, equivalentes al 6,5% del total de entradas.

figura_10

Figura 9. Porcentaje de textos traducidos

3.6. Traductores más importantes

figura_11

Figura 11. Traductores con mayor número de textos

3.7. Mapa nacionalidades (número de colaboradores únicos por país)

figura_12

Figura 12. Mapa de nacionalidades

3.8. Mapa nacionalidades (número colaboraciones por país)

figura_13

Figura 13. Colaboraciones por país

4. Análisis y visualización de la red bimodal autores-revista

4.1. Preparación y análisis de los datos

4.1.1. Creación de las aristas

4.1.2. Creación de los nodos

4.1.3. Nodos alternativos

Para la visualización interactiva creamos una tabla de nodos y una tabla de aristas con la siguiente estructura:

id (el índice o identificador)
vertex (el nombre de los nodos)
nsum (la suma total de publicaciones)

4.1.4. Cálculo de la betweenness

Mientras que los autores con mayor vínculos se determinaron por el número absoluto de apariciones en las revistas, ahora calcularemos la betweenness que tiene cada revista. Para ello utilizamos la biblioteca tnet creada para trabajar con redes bimodales, como la nuestra.

El resultado lo podemos ver en la siguiente tabla:

Las revistas con una mayor centralidad son Sábado y Alpha. Quizás dos de los proyectos revisteriles antioqueños más importantes, que representan posiblemente dos generaciones de escritores.

4.1.5. Cálculo de la modularidad

Ahora procedemos al cálculo de la modularidad en nuestro conjunto de trece revistas. Esto lo hacemos utilizando el algoritmo cluster_walktrap. Recuperamos para este próposito las variables lista de nodos y aristas_id. Con la biblioteca igraph convertimos nuestros nodos y nuestras aristas en una grafo.

El resultado arroja que hay una modularidad del 65,2%. Este número representa la capacidad o posibilidades de agrupación que tiene las revistas del corpus a partir de sus colaboradores. Entre mayor es el porcentaje, menos revistas aparecen agrupadas en un módulo. En este caso 17 revistas no hacen parte de ningún modulo. Las 11 restantes forman 5 módulos. Estos se podrán ver mejor en la visualización interactiva de la red.

4.2. Visualización interactiva de la red

Versión interactiva de la red de revistas