Skip to content

Latest commit

 

History

History
44 lines (42 loc) · 4.22 KB

README.md

File metadata and controls

44 lines (42 loc) · 4.22 KB

lingvo--Ner-ru

[ live demo ]

Под автоматическим определением именованных сущностей - (NER - Named-Entities Recognition) - понимается поиск и классификация имен собственных, названий событий, продуктов, топонимов и пр.
Например, это могут быть имена людей или названия компаний, названия географических объектов (города, реки, улицы и пр.).

В приведенной системе представлена классификация именованных сущностей на пять типов:
  • 1. физические лица (ФИО или любая составляющая ФИО, например, Владимир Петров)
  • 2. юридически лица (названия компаний, сообществ, союзов и т.п., например, ЗАО «МТС Северо-Запад»)
  • 3. географические названия, например, Париж
  • 4. продукты (названия продуктов, их марок, в том числе брендов, например, iPhone)
  • 5. события (именованные события: названия праздников, форумов, спортивных состязаний и т.п. мероприятий, например, Рождество)

Особенностью данной системы является то, что типы определяются не словарем, а на основе статистических алгоритмов. С одной стороны это может привести к ошибкам в определении типа сущности (например, "Красная Москва - когда-то это были самые замечательные духи" может определиться как география), но с другой стороны система способна корректно определить новый, ранее невстречавшийся тип.
Количество типов и описание их классов задается на этапе обучения (получения статистической модели).

Данная система работает с русскоязычными текстами и классифицирует слова, содержащие хотя бы одну заглавную букву. Точность определения типов сущностей (по мере F1):
  • 1. физические лица - около 95%
  • 2. юридически лица - около 87%
  • 3. географические названия - 92%
  • 4. продукты - 81%
  • 5. события - 79%
Скорость обработки текста данной системой состовляет порядка 400-450 кБайт/сек.