Модуль текстовой кластеризации.
Модуль текстовой кластеризации предназначен для автоматического выявления групп семантически похожих документов среди заданного фиксированного множества документов, хранящихся в СУБД Basis, на основе попарной схожести их текстовой составляющей.
Модуль алгоритм, построенный на основе латентного размещения Дирихле (LDA) в которых темы представлены вероятностями появления каждого слова из заданного набора, а документы, в свою очередь, представлены как сочетания тем, что позволяет формировать наборы лексем, по которым определяется вероятная тема, а также распределение слов в каждой теме и сочетание тем в документе.