Компанія, відома як розробник веб-сервісу, який корегує написання текстів англійською мовою, виклала 1-го анотований GEC (Grammatical Error Correction) корпус української мови для вільного користування.

Grammatical Error Correction – це редагування граматичних помилок.

Мовний корпус – тексти, авторами яких є різні люди. Професійні лінгвісти вивчили тексти (вказали на помилки та відповідні корегування). Ціль корпусу – опановування мови на науковому і практичному рівнях.

Подібні корпуси працюють для багатьох мов. Одна із найпопулярніших – англійська.

Зараз GEC-корпус української мови складається з 1000 різножанрових текстів (за 20 тис. речень). Їх писали 500 волонтерів (Україна та різні куточки світу).

Дані стануть у нагоді для зацікавлених лінгвістикою: студенту-науковцю, приватній компанії, допоможуть у дослідницькій праці, створять чи поліпшать власний Інтернет-додаток, продукт.

Завантажити корпус можна за посиланням.

За матеріалами КО

You may also like

Leave a reply