TextoKit

Технологический стек базовых функций обработки текста,
реализованный для платформы Apache UIMA

Модульный

Упрощает сборку функционального pipeline для обработки текста. Горизонтальное масштабирование за счет технологии Apache UIMA-AS. Легко интегрируется с поисковыми библиотеками.

Открытый

TextoKit — это библиотека на Java с открытым исходным кодом. Развивается усилиями компании Textocat (инициальная разработка и стратегия развития) и независимого сообщества разработчиков.

Бесплатный

TextoKit распространяется бесплатно под свободной лицензией, допускающей коммерческое применение.

Основные функции

Базовые

- сегментация текста
- словарная морфология
- лемматизация

Разметка

- интеграция с инструментами разметки (brat)
- утилиты для работы с размеченными корпусами

Классификация

- PoS-tagging
- выделение именных групп

Интеграция

- интеграция с поисковыми библиотеками
(Apache Lucene/Solr, ElasticSearch)

Присоединиться
Области применения
Извлечение информации из текстов
Информационный поиск
IT-краудсорсинг