Компанія, відома як розробник веб-сервісу, який корегує написання текстів англійською мовою, виклала 1-го анотований GEC (Grammatical Error Correction) корпус української мови для вільного користування.
Grammatical Error Correction – це редагування граматичних помилок.
Мовний корпус – тексти, авторами яких є різні люди. Професійні лінгвісти вивчили тексти (вказали на помилки та відповідні корегування). Ціль корпусу – опановування мови на науковому і практичному рівнях.
Подібні корпуси працюють для багатьох мов. Одна із найпопулярніших – англійська.
Зараз GEC-корпус української мови складається з 1000 різножанрових текстів (за 20 тис. речень). Їх писали 500 волонтерів (Україна та різні куточки світу).
Дані стануть у нагоді для зацікавлених лінгвістикою: студенту-науковцю, приватній компанії, допоможуть у дослідницькій праці, створять чи поліпшать власний Інтернет-додаток, продукт.
Завантажити корпус можна за посиланням.
За матеріалами КО