Korpus Treści Komunikacji Cyfrowej został stworzony w ramach projektu „Metody badania komunikacji cyfrowej i danych tekstowych” finansowanego w ramach 16. edycji konkursu Funduszu Innowacji Dydaktycznych Uniwersytetu Warszawskiego w latach 2020-2022.
Projekt był realizowany we współpracy pomiędzy Wydziałem Socjologii UW, Instytutem Języka Polskiego UW i konsorcjum CLARIN-PL. W gromadzeniu i opracowaniu korpusu uczestniczyli studentki i studenci kursu „Warsztaty z metod analiz komunikacji cyfrowej” w semestrze letnim roku akademickiego 2021-22.
Korpus zawiera treści pochodzące z publicznych profili w głównych mediach społecznościowych używanych przez polskich internautów: Facebook, Twitter i YouTube. Komunikacja, której zapis został zgromadzony w korpusie, dotyczy pięciu tematów, które uczestnicy zajęć prowadzonych w ramach projektu uznali za ważne: sposoby diagnozowania dezinformacji i walki z nią (fact-checking), zagadnienia związane ze zmianą klimatyczną (klimat), problematyka ciałopozytywności i stosunku do ciała (ciało), komunikacja aktorów niechętnych UE (anty-UE), aktualne teorie spiskowe (teorie_spiskowe).
Korpus (1) zawiera losowo wybraną próbkę danych o objętości 39,5 tysiąca tokenów, które zostały oznakowane ręcznie przy wykorzystaniu programu Annotatornia 2 i według „Opisu zmian w znakowaniu NKJP1M na potrzeby uzgodnienia z Morfeuszem SGJP" stworzonych w IPI PAN. Korpus zawiera dane automatycznie zanonimizowane.
Korpus (2) zawiera automatycznie anotowane dane o objętości 2025890 tokenów. Dane zostały automatycznie zanonimizowane.
Projekt koordynowała Maja Sawicka (WS UW). Merytoryczną koncepcję korpusu opracowały Magdalena Derwojedowa (IJP UW) i Agnieszka Karlińska (NASK PIB). Wsparcie techniczne, udostępnienie narzędzi, przetworzenie danych i znakowanie automatyczne przeprowadzili Dorota Komosińska i Witold Kieraś. Wytyczne do anotacji opracował Marcin Woliński. Anotację morfosyntaktyczną przeprowadziły Anita Wróż-Orłowska i Daria Mikoś, superanotatorką była Joanna Bilińska-Brynk.
Korpus do udostępnienia wyłącznie do celów dydaktycznych i naukowych.