Authors: Ivan Pozdniakov, Frank Fischer
License: GPL-3
The goal of rdracor is to provide an R interface for the DraCor API (DraCor: Drama Corpora Project). Website of the project: dracor.org.
#install.packages("remotes") #if you don't have remotes installed
::install_github("dracor-org/rdracor") remotes
Retrieving general information about available corpora:
library(rdracor)
<- get_dracor_meta()
corpora summary(corpora)
#> DraCor hosts 15 corpora comprising 3035 plays.
#>
#> The last updated corpus was German Drama Corpus (2023-01-02 18:15:22).
plot(corpora)
<- get_dracor(corpus = "ger")
ger summary(ger)
#> 598 plays in German Drama Corpus
#> Corpus id: ger, repository: https://github.com/dracor-org/gerdracor
#> Description: Edited by Frank Fischer and Peer Trilcke. Features more than 550 German-language plays from the 1650s to the 1940s. For a corpus description and full credits please see the [README on GitHub](https://github.com/dracor-org/gerdracor).
#> Written years (range): 1646–1947
#> Premiere years (range): 1650–1981
#> Years of the first printing (range): 1560–1962
You can get all corpora at once:
<- get_dracor()
all summary(all)
#> 3035 plays in 15 corpora:
#> Corpora id:
#> fre (1560 plays), ger (598 plays), rus (212 plays), cal (205 plays), ita (139 plays), swe (68 plays), hun (41 plays), greek (40 plays), gersh (38 plays), shake (37 plays), rom (36 plays), als (30 plays), span (25 plays), bash (3 plays), tat (3 plays)
#> Written years (range): 43–1970
#> Premiere years (range): -472–1992
#> Years of the first printing (range): 1170–2017
With get_play_metadata()
you can get miscellaneous data
for a play:
get_play_metadata(play = "lessing-emilia-galotti",
corpus = "ger",
full_metadata = FALSE) #use full_metadata = FALSE for faster download
#> $id
#> [1] "ger000088"
#>
#> $name
#> [1] "lessing-emilia-galotti"
#>
#> $corpus
#> [1] "ger"
#>
#> $title
#> [1] "Emilia Galotti"
#>
#> $author
#> $author$name
#> [1] "Lessing, Gotthold Ephraim"
#>
#> $author$warning
#> [1] "The single author property is deprecated. Use the array of 'authors' instead!"
#>
#>
#> $authors
#> # A tibble: 1 × 4
#> name fullname shortname refs
#> <chr> <chr> <chr> <list>
#> 1 Lessing, Gotthold Ephraim Gotthold Ephraim Lessing Lessing <df [2 × 2]>
#>
#> $genre
#> [1] "Tragedy"
#>
#> $libretto
#> [1] FALSE
#>
#> $allInSegment
#> [1] 30
#>
#> $allInIndex
#> [1] 0.6976744
#>
#> $cast
#> # A tibble: 13 × 12
#> id name isGroup gender numOf…¹ numOf…² numOf…³ degree weigh…⁴ close…⁵
#> <chr> <chr> <lgl> <chr> <int> <int> <int> <int> <int> <dbl>
#> 1 der_prinz Der … FALSE MALE 17 157 4002 8 20 0.75
#> 2 der_kamm… Der … FALSE MALE 2 6 33 1 2 0.444
#> 3 conti Conti FALSE MALE 2 24 604 1 2 0.444
#> 4 marinelli Mari… FALSE MALE 19 221 4343 9 30 0.8
#> 5 camillo_… Cami… FALSE MALE 1 6 78 1 1 0.444
#> 6 claudia Clau… FALSE FEMALE 13 73 1581 7 19 0.6
#> 7 pirro Pirro FALSE MALE 4 25 263 5 7 0.545
#> 8 odoardo Odoa… FALSE MALE 12 108 2441 6 15 0.667
#> 9 angelo Ange… FALSE MALE 2 28 487 2 2 0.48
#> 10 emilia Emil… FALSE FEMALE 7 64 1702 6 13 0.667
#> 11 appiani Appi… FALSE MALE 5 48 852 4 8 0.522
#> 12 battista Batt… FALSE MALE 4 11 152 4 7 0.6
#> 13 orsina Orsi… FALSE FEMALE 6 64 2111 4 8 0.6
#> # … with 2 more variables: betweenness <dbl>, eigenvector <dbl>, and
#> # abbreviated variable names ¹numOfScenes, ²numOfSpeechActs, ³numOfWords,
#> # ⁴weightedDegree, ⁵closeness
#>
#> $segments
#> # A tibble: 43 × 4
#> type number title speakers
#> <chr> <int> <chr> <list>
#> 1 scene 1 Erster Aufzug | Erster Auftritt <chr [2]>
#> 2 scene 2 Erster Aufzug | Zweiter Auftritt <chr [2]>
#> 3 scene 3 Erster Aufzug | Dritter Auftritt <chr [1]>
#> 4 scene 4 Erster Aufzug | Vierter Auftritt <chr [2]>
#> 5 scene 5 Erster Aufzug | Fünfter Auftritt <chr [1]>
#> 6 scene 6 Erster Aufzug | Sechster Auftritt <chr [2]>
#> 7 scene 7 Erster Aufzug | Siebenter Auftritt <chr [2]>
#> 8 scene 8 Erster Aufzug | Achter Auftritt <chr [2]>
#> 9 scene 9 Zweiter Aufzug | Erster Auftritt <chr [2]>
#> 10 scene 10 Zweiter Aufzug | Zweiter Auftritt <chr [2]>
#> # … with 33 more rows
#>
#> $yearWritten
#> NULL
#>
#> $yearPremiered
#> [1] "1772-03-13"
#>
#> $yearPrinted
#> [1] "1772"
#>
#> $yearNormalized
#> [1] 1772
#>
#> $wikidataId
#> [1] "Q782653"
#>
#> $subtitle
#> [1] "Ein Trauerspiel in fünf Aufzügen"
#>
#> $relations
#> # A tibble: 4 × 4
#> directed type source target
#> <lgl> <chr> <chr> <chr>
#> 1 TRUE parent_of odoardo emilia
#> 2 TRUE parent_of claudia emilia
#> 3 TRUE associated_with marinelli der_prinz
#> 4 TRUE associated_with camillo_rota der_prinz
#>
#> $source
#> $source$name
#> [1] "TextGrid Repository"
#>
#> $source$url
#> [1] "http://www.textgridrep.org/textgrid:rksp.0"
#>
#>
#> $originalSource
#> [1] "Gotthold Ephraim Lessing: Werke. Herausgegeben von Herbert G. Göpfert in Zusammenarbeit mit Karl Eibl, Helmut Göbel, Karl S. Guthke, Gerd Hillen, Albert von Schirmding und Jörg Schönert, Band 1–8, München: Hanser, 1970 ff."
You can extract a co-occurence network (undirected weighted graph) for a specific play:
<- get_net_cooccur_igraph(play = "lessing-emilia-galotti", corpus = "ger")
emilia plot(emilia)
You can use the package {igraph}
to work with this
object as a graph:
library(igraph)
edge_density(emilia)
#> [1] 0.3717949
graph.cohesion(emilia)
#> [1] 1
In addition, you can get a summary with network properties and gender distribution:
summary(emilia)
#> ger: lessing-emilia-galotti - co-ocurence network summary
#> Lessing, Gotthold Ephraim: Emilia Galotti (1772)
#>
#> Size: 13 (3 FEMALES, 10 MALES, 0 UNKNOWN)
#> Density: 0.37
#> Degree:
#> - Maximum: 9 (Marinelli)
#> Distance:
#> - Maximum (Diameter): 6
#> - Average: 3.03
#> Clustering:
#> - Global: 0.54
#> - Average local: 0.67
#> Cohesion: 1
#> Assortativity: -0.45
Similarly, you can use function
get_net_relations_igraph()
to build a network based on
relationships data:
<- get_net_relations_igraph(play = "fonvizin-nedorosl",
nedorosl_relations corpus = "rus")
plot(nedorosl_relations)
summary(nedorosl_relations)
#> rus: fonvizin-nedorosl - relations network summary
#> Фонвизин, Денис Иванович: Недоросль (1782)
#>
#> Size: 15 (3 FEMALES, 12 MALES, 0 UNKNOWN)
#> Relations: 8
#> Простаков <--> Г-жа Простакова : spouses
#> Скотинин <--> Г-жа Простакова : siblings
#> Г-жа Простакова ---> Митрофан : parent_of
#> Простаков ---> Митрофан : parent_of
#> Еремеевна ---> Митрофан : associated_with
#> Софья ---> Стародум : related_with
#> ...and 2 more
You can get text of a play in different forms:
{xml2}
):get_text_tei(play = "lessing-emilia-galotti", corpus = "ger")
#> {xml_document}
#> <TEI id="ger000088" lang="ger" xmlns="http://www.tei-c.org/ns/1.0">
#> [1] <teiHeader>\n <fileDesc>\n <titleStmt>\n <title type="main">Emil ...
#> [2] <standOff>\n <listEvent>\n <event type="print" when="1772">\n <d ...
#> [3] <text>\n <front>\n <titlePage>\n <docAuthor>Gotthold Ephraim Les ...
<- get_text_chr_spoken(play = "lessing-emilia-galotti",
text_godunov corpus = "ger")
head(text_godunov)
#> [1] "Klagen, nichts als Klagen! Bittschriften, nichts als Bittschriften! – Die traurigen Geschäfte; und man beneidet uns noch! – Das glaub' ich; wenn wir allen helfen könnten: dann wären wir zu beneiden. – Emilia? Eine Emilia? – Aber eine Emilia Bruneschi – nicht Galotti. Nicht Emilia Galotti! – Was will sie, diese Emilia Bruneschi? Viel gefodert; sehr viel. – Doch sie heißt Emilia. Gewährt! Es ist wohl noch keiner von den Räten in dem Vorzimmer?"
#> [2] "Nein."
#> [3] "Ich habe zu früh Tag gemacht. – Der Morgen ist so schön. Ich will ausfahren. Marchese Marinelli soll mich begleiten. Laßt ihn rufen. – Ich kann doch nicht mehr arbeiten. – Ich war so ruhig, bild' ich mir ein, so ruhig – Auf einmal muß eine arme Bruneschi, Emilia heißen; – weg ist meine Ruhe, und alles! –"
#> [4] "Nach dem Marchese ist geschickt. Und hier, ein Brief von der Gräfin Orsina."
#> [5] "Der Orsina? Legt ihn hin."
#> [6] "Ihr Läufer wartet."
get_text_df(play = "lessing-emilia-galotti", corpus = "ger")
#> # A tibble: 1,174 × 10
#> text type type_…¹ who scene scene…² subdi…³ line_id subdi…⁴ scene…⁵
#> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <int> <int> <int>
#> 1 Die Szene,… stage "" <NA> Erst… act 1 stage 1 1 1 1
#> 2 an einem A… stage "" der_… Erst… act 1 … sp 1 |… 2 2 2
#> 3 Klagen, ni… p "" der_… Erst… act 1 … sp 1 |… 3 3 2
#> 4 Indem er n… stage "" der_… Erst… act 1 … sp 1 |… 4 3 2
#> 5 Eine Emili… p "" der_… Erst… act 1 … sp 1 |… 5 3 2
#> 6 Er lieset. stage "" der_… Erst… act 1 … sp 1 |… 6 3 2
#> 7 Viel gefod… p "" der_… Erst… act 1 … sp 1 |… 7 3 2
#> 8 Er untersc… stage "" der_… Erst… act 1 … sp 1 |… 8 3 2
#> 9 Es ist woh… p "" der_… Erst… act 1 … sp 1 |… 9 3 2
#> 10 Nein. p "" der_… Erst… act 1 … sp 2 |… 10 4 2
#> # … with 1,164 more rows, and abbreviated variable names ¹type_attributes,
#> # ²scene_path, ³subdiv_path, ⁴subdiv_id, ⁵scene_id
The development of this research software was supported by Computational Literary Studies Infrastructure (CLS INFRA) through its Transnational Access Fellowship programme. CLS INFRA has received funding from the European Union’s Horizon 2020 research and innovation programme under grant agreement №101004984.