Описание ГОСТ Р ИСО 24614-1-2013: В настоящем стандарте представляются основные понятия и общие принципы пословной сегментации и даются не зависящие от языка руководящие указания по сегментации письменных текстов надежным и воспроизводимым способом на единицы пословной сегментации (WSU).
ПРИМЕЧАНИЕ: В связанной с языком научно-исследовательской и практической работе слово является фундаментальным и необходимым понятием. Поэтому для целей сегментации текста на слова важно иметь универсальное определение того, что включает слово. Нельзя просто использовать для разграничения слов правила, основанные на идентификации пробелов и знаков пунктуации. Такие правила не учитывают случаи сложных слов, которые пишутся через дефис, сокращений, идиом или словоподобных выражений, содержащих символы или цифры. Пословная сегментация еще более проблематична в языках, которые не содержат пробелов для разделения слов, например, для китайского и японского языков, а также в агглютинативных языках, где некоторые классы функциональных слов реализуются как аффиксы, например, в корейском языке.
Некоторые применения и сферы, которые требуют сегментировать тексты на слова и к которым, следовательно, применима данная часть ИСО 24614, представлены ниже
Перевод
Подсчет слов является главным методом оценки стоимости перевода. Пословная сегментация - это стандартная функция в системах переводческой памяти и в инструментальных средствах автоматизированного перевода (CAT). Пословная сегментация выполняется средствами извлечения терминов, которые иногда предоставляются в системах управления терминологией и в средствах CAT.
Управление контентом
Большинство систем и баз данных для управления информационным содержанием (контентом) предусматривают поиск по отдельным словам. Содержание, по которому производится поиск, должно быть сегментировано, чтобы была возможность сравнения со словом поиска. Кроме того, поисковые функции требуют знания границ слов.
Технологии распознавания речи
Системы речевого воспроизведения текста синтезируют речь на базе слов и поэтому требуют пословной сегментации для обеспечения возможности словарного поиска, расстановки ударений, установления просодического образца и др.
Прикладная лингвистика
Различные системы обработки текстов на естественных языках (NLP) должны сегментировать текст на слова для того, чтобы выполнить свои функции. Системы NLP включают:
- морфосинтаксические программы обработки,
- синтаксические анализаторы,
- программы проверки правописания,
- системы классификации текстов, и
- лингвистическое аннотирование корпуса текстов.
Лексикография
Лексические ресурсы часто оцениваются по их объёму - обычно на основе подсчёта числа слов.
ПРИМЕЧАНИЕ: Объём языковых ресурсов - весьма важный показатель для управления ими.
Количественное определение объёма языковых ресурсов, как правило, основывается на подсчёте количества слов. Однако поскольку в приложениях NLP используются разные методы сегментации, каждый из них подсчитывает число слов по-разному и даёт в итоге разные суммы для одного и того же текста. Наличие надёжной воспроизводимой стандартной меры могло бы обеспечить получение сопоставимых результатов. Однако это не значит, что приложения не могут использовать свои специфические методы сегментации; например, в системе синтеза речи текст может сегментироваться на меньшие или большие единицы по сравнению с другими приложениями. |