[nlp] Стермеры против Лемматизаторов


Answers

Одним из классических применений либо истощения, либо лемматизации является улучшение результатов поисковой системы: путем применения к запросу запроса (или лемматизации), а также (до индексирования) всех индексов, которые ищут, скажем, «имеющие», найти результаты, содержащие «has».

(Возможно, глаголы в большинстве поисковых запросов несколько необычны, но тот же принцип применяется к существительным, особенно на языках с богатой морфологией существительного.)

Для улучшения результата поиска на самом деле не важно, имеет ли смысл (или лемма) смысл («есть») или нет («hav»). Ему нужно только представить это слово и все его флективные формы. Фактически, некоторые системы используют числа или другие типы id-строк вместо стебля или леммы (или базовой формы или того, что она может быть вызвана).

Следовательно, это пример приложения, в котором стволовые (по вашему определению) так же хороши, как и лемматизаторы.

Тем не менее, я не совсем убежден, что ваше (подразумеваемое) определение «stemmer» и «lemmatizer» принято. Я не уверен, есть ли общепринятое определение этих терминов, но способ, которым я их определяю, выглядит следующим образом:

Stemmer: функция, которая уменьшает флективные формы до стеблей или базовых форм, используя правила и списки известных суффиксов.

Лемматизатор: функция, которая выполняет ту же самую редукцию, но использует полный полноформатный словарь, чтобы иметь дело с нерегулярными формами.

Основываясь на этих определениях, lemmatizer по существу является более качественной (и более дорогой) версией стеблемера.

Question

Обработка естественного языка (NLP), особенно для английского языка, превратилась в стадию, когда истощение станет архаичной технологией, если существуют «идеальные» лемматизаторы. Это потому, что стволовые изменят поверхностную форму слова / токена на некоторые бессмысленные стебли.

Опять-таки определение «идеального» лемматизатора сомнительно, потому что для другой задачи НЛП потребовался бы другой уровень лемматизации. Например, преобразовать слова между глаголом / существительным / прилагательными .

парадигматические

[in]: having
[out]: hav

Lemmatizers

[in]: having
[out]: have
  • Итак, вопрос в том, являются ли английские стволовые средства полезными сегодня? Поскольку у нас есть множество инструментов леммитации для английского языка

  • Если нет, то как мы должны двигаться дальше, чтобы создавать надежные лемматизаторы, которые могут принимать на nounify , verbify , adjectify и adverbify препроцессы?

  • Как задачу леммитации можно легко масштабировать на другие языки, имеющие похожие морфологические структуры, такие как английский?






Links