О проекте libmorph

libmorph — это высокопроизводительная библиотека морфологического анализа, разрабатываемая с 1994 года. За три с лишним десятилетия проект прошёл путь от модуля проверки орфографии до промышленного решения, используемого в backend крупнейших компаний.

1994
Первый продукт
Пропись 4.0
3
языка
1,300,000
слов в секунду

История разработки

1994
Начало разработки
Получив словарь Зализняка в электронном виде, я увлёкся идеей и почти на год полностью ушёл в разработку. Будучи человеком достаточно невежественным, придумал, гуляя с собакой в Воронцовском парке, префиксные деревья. Сделал на Borland Pascal с Turbo Vision рабочую среду для классификации слов и просмотра парадигм. Динамическую библиотеку сделал на C, заодно его и выучил.
1996
linguist.dll
Первая публичная версия легла в основу орфографического корректора «Пропись 4.0».
1997
ИПС Апорт!
Библиотека стала лингвистической базой первой русской поисковой системы с поддержкой русской морфологии. И – да, первым русским поисковиком был Rambler, а первым поисковиком, учитывавшим русское словоизменение – именно Апорт!
1999
Интеграция с Rambler
Библиотека легла в основу системы индексирования и поиска при перепроектировании и перезапуске поисковой системы Rambler. С её помощью строились не только поисковые ключи, но и цитаты, а в образах документов слова кодировались парами {идентификатор лексемы; идентификатор формы}.
2000
Интеграция с <META>
libmorph начинает использоваться в поисковой системе <META>. Сделан анализатор украинского.
2015
Open Source
Проект публикуется под лицензией GPLv2. Оптимизация для 64-разрядных систем.
2024
Open Source
Лицензия пересмотрена. Теперь это MIT.
2026
30 лет
С выхода первой версии в 1996 году проект продолжает развиваться. На сегодня скорость анализа русского модуля достигает 1.3 млн слов в секунду на одном ядре. Сделан вероятностный анализатор для неизвестных слов. Обновлён сайт. Организована установка из репозиториев.