+7 499 685 72 75

Basis Text Clustering

Модуль текстовой кластеризации.

Модуль текстовой кластеризации предназначен для автоматического выявления групп семантически похожих документов среди заданного фиксированного множества документов, хранящихся в СУБД Basis, на основе попарной схожести их текстовой составляющей.

Модуль алгоритм, построенный на основе латентного размещения Дирихле (LDA) в которых темы представлены вероятностями появления каждого слова из заданного набора, а документы, в свою очередь, представлены как сочетания тем, что позволяет формировать наборы лексем, по которым определяется вероятная тема, а также распределение слов в каждой теме и сочетание тем в документе.

Область применения – Информационные технологии. Программные средства документооборота, автоматизированные системы обработки документов.

Свидетельство о государственной регистрации
Программное обеспечение зарегистрировано в реестре Федеральной службе по интеллектуальной собственности (Роспатент).
Свидетельство о государственной регистрации программы для ЭВМ №2021680875.