Rodni korpus

Za potrebe projekta Muško i žensko u hrvatskome jeziku u programu Sketch Engine izrađen je Rodni korpus (izradio Josip Mihaljević). Sketch Engine program je koji omogućuje analizu teksta i izradu korpusa na temelju učitanih tekstova. Program za učitani tekst odabranoga jezika omogućuje označavanje riječi, izradu skica riječi, tezaurusa i kolokacije. Programom se može koristiti na mreži te je na zahtjev dostupan onima koji imaju pristup Sketch Engineu. Razlog je izrade Rodnoga korpusa činjenica da se u Sketch Engineu mogu pretraživati postojeći opći korpusi hrvatskoga jezika hrWac[1] i Hrvatska jezična riznica[2], ali ti korpusi ne sadržavaju tekstove iz različitih područja te je unutar tih korpusa teško pronaći primjere koji se traže unutar određenoga područja ili struke. Zbog toga je za potrebe istraživanja u projektu Muško i žensko u hrvatskome jeziku bilo potrebno izraditi specijalizirani korpus. Korpus je napravljen tako da je program sakupio i analizirao tekstove na internetu koji sadržavaju kombinacije idućih ključnih riječi: rod, spol, rodni, spolni, nebinarna osoba, nebinarni i seksualni.

Izvori su rodnoga korpusa dokumenti, radovi i knjige te članci s različitih mrežnih portala koji se bave LGBT ljudskim pravima, pitanjima rodne/spolne ravnopravnosti, transrodnošću, feminizmom, transfobijom, homoseksualnošću itd.  Korpus trenutačno sadržava ukupno 196 izvora, 828 699, riječi i 1 027 741 pojavnica. Od toga je 87 403 jedinstvenih riječi. Više o Rodnome korpusu vidi u radu:

Mihaljević, Ana; Mihaljević, Josip; Mihaljević, Milica. 2022. Speaking About People of Non-Binary Sex/Gender in CroatianCollegium antropologicum 46 /3. 175–185. https://doi.org/10.5671/ca.46.3.1

[1] URL: http://nlp.ffzg.hr/resources/corpora/hrwac/ (29. 11. 2021.)

[2] URL: http://riznica.ihjj.hr/index.hr.html (29. 11. 2021.)