Компанія, відома як розробник веб-сервісу, який корегує написання текстів англійською мовою, виклала 1-го анотований GEC (Grammatical Error Correction) корпус української мови для вільного користування.

Grammatical Error Correction – це редагування граматичних помилок.

Мовний корпус – тексти, авторами яких є різні люди. Професійні лінгвісти вивчили тексти (вказали на помилки та відповідні корегування). Ціль корпусу – опановування мови на науковому і практичному рівнях.

Подібні корпуси працюють для багатьох мов. Одна із найпопулярніших – англійська.

Зараз GEC-корпус української мови складається з 1000 різножанрових текстів (за 20 тис. речень). Їх писали 500 волонтерів (Україна та різні куточки світу).

Дані стануть у нагоді для зацікавлених лінгвістикою: студенту-науковцю, приватній компанії, допоможуть у дослідницькій праці, створять чи поліпшать власний Інтернет-додаток, продукт.

Завантажити корпус можна за посиланням.

За матеріалами КО

Вам також може сподобатися

Новини

IP офіс презентував Національну ініціативу “Україна надихає світ” — проєкт, що розповідає світу про силу та інноваційність українського бізнесу

На IV Національному форумі з інтелектуальної власності та інновацій “Intellectual Property: Law, Economy, Technology” відбулася ...

Leave a reply