ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР

Программые продукты системы «Аналитический курьер»

  Компоненты лингвистической обработки текста

  Компонент морфологии

Компонент предназначен для морфологического анализа слов. Компонент предоставляет для текста на русском или английском языках:

  • морфологические характеристики слов на русском и английском языках: часть речи, число, род, падеж (рус);
  • информацию о морфоформах (вариантах словоизменения) заданного базового слова. Например, что?: сайт, чего?: сайта и т.д.

  Компонент предобработки текстов, публикуемых в социальных сетях и блогах

Исправление грамматических и иных ошибок в тексте, представленном на русском и английском языках, приведение текста к «литературному» виду.
Компонент предоставляет:

  • преобразование слов, написанных заглавными буквами, в зависимости от их значения: аббревиатуры, названия и пр.;
  • разбиение текста на предложения, в случае неверного использования или отсутствия пунктуации в конце предложений: отсутствие точек, замена пунктуации «смайликами» и пр.;
  • лемматизацию: приведение слов к «словарной» форме (напр. «смотрел» - «смотреть»);
  • исправление неверного написания слов: опечаток, ошибок, намеренных искажений.

  Компонент определения языка текста

Определение основного языка текста.
Компонент возвращает для исследуемого текста ранжированный список детектированных языков и степень вероятности, что текст написан на данном языке.

  Компонент определения тональности

Определение эмоций в текстах, так называемый сантимент-анализ (от англ. sentiment — чувство; мнение, настроение) или анализ тональности. Используют, когда нужно оценить что-то, определить эмоциональное отношение к чему-то или кому-то, например, сравнить новые продукты, бренды известных компаний, оценить отношения людей к событиям в политической жизни страны и т.п.

Определение тональности (положительной, отрицательной или нейтральной) высказывания (предложения) по отношению к заданному объекту в тексте, представленном на русском и английском языках.

Выделение в тексте тональных высказываний (окрашивание в зависимости от степени тональности) для заданного объекта или на основе автоматического определения объекта.

  Компонент выделения сущностей

Выделение комплексных и именованных сущностей (физ. и юр. лица, даты, геообъекты, продукты, события и пр.) в тексте, представленном на русском и английском языках.

Компонент обеспечивает выделение сущностей, разрешение кореферентных и местоименных ссылок на объект и определение атрибутов найденных сущностей (нормализованное значение, профессия/должность, имя, фамилия, отчество, тип сущности и пр.).

  Компонент построения семантической сети текста документа

Построение семантической сети текста, представленного на русском и английском языках.
Компонент предоставляет следующий набор функций:

  • семантическая разметка текста документа;
  • построение семантической сети документа;
  • предоставляет объектное представление семантической сети текста в нотации XML или JSON.


 Компонент управления тезаурусами

Компонент позволяет:

  • создавать новые и редактировать существующие тезаурусы;
  • управлять лексическими единицами тезауруса и семантическими отношениями между ними (синонимы, антонимы и т.п.);
  • импортировать данные из текстового файла в базу данных тезауруса;
  • экспортировать данные из БД тезауруса в текстовый файл.


 Компонент очистки HTML страниц и выделения  метаинформации

Компонент предназначен для выделения текста статьи и метаинформации из страницы HTML.
Компонент обеспечивает:

  • обработку как HTML файлов, так и страниц, загруженных по URL адресу из Интернета;
  • очистку контента страниц от «шумовых блоков», таких как реклама, навигаторы и т.д.;
  • очистку текста от тэгов и прочих управляющих символов;
  • выделение атрибутов документов;
  • приведение HTML страницы к XHTML.


 Хранилище документов

Хранилище документов реализовано на платформе распределенной NoSQL (ключ-значение) системы управления хранилищем данных и  обеспечивает высокую доступность, отказоустойчивость, простоту эксплуатации и масштабируемость. Хранилище реализовано с использованием документно-ориентированной базы данных Riak. Компонент обеспечивает до 1000 операций записи и чтения данных в секунду.

Хранилище предназначено для обработки больших объемов данных и поддерживает стандартные операции: get, put и delete.

Хранилище поддерживает протоколы HTTP, HTTPS. Формат обмена данными XML (SOAP).

Компонент предоставляет следующий функционал:

  • Надежную асинхронную загрузку коллекции документов в хранилище:
    • кэширование документов в промежуточной базе данных перед записью в хранилище для обеспечения асинхронной загрузки. Удаление документа из кэша только после подтверждения факта записи его в хранилище.
    • при записи документа ему автоматически выдается временная метка записи (stamp), что обеспечивает правильную обработку постов и комментариев.
  • Хранение документов:
    • хранение информационных материалов в хранилище документов;
    • контроль целостности хранилища документов;
    • распределение, резервирование и балансировка нагрузки между узлами хранилища исходных документов.
  • Удаления документов:
    • удаление документов из хранилища по списку их идентификаторов.
  • Выборка коллекции документов:
    • чтение коллекции документов по списку идентификаторов (возможность автоматического расширения коллекции документов списком родительских документов, для комментариев - списком постов);
    • получение списка документов последующих/предшествующих переданной временной метке. Это необходимо при последовательном чтении записей хранилища, например, для индексации;
    • получение ближайшей временной метки документа для переданной в запросе даты.

  Компонент построения семантической карты связей сущностей  коллекции документов

Выполняет визуальное представление графа связей сущностей нужных семантических типов (объектов и тем), представленными семантическими сетями документов коллекции. Карта используется для навигации по семантическим связям между темами коллекции документов. Входными данными служат семантически размеченные документы, полученные на выходе Компонента построения семантической сети текста документа. 

  Компонент построения кластерной карты коллекции документов

Классический инструмент тематической группировки документов. Использует семантические сети сущностей в качестве категорий. Выполняется динамическая замена  названий сущностей на их доминанты. Входными данными служат семантически размеченные документы, полученные на выходе Компонента построения семантической сети текста документа.


 Компонент мониторинга источников сети Интернет и загрузки документов

Компонент предназначен для регламентного поиска, мониторинга и доставки сообщений с сайтов Интернет и социальных медиа.

Компонент обеспечивает:

  • поиск ресурсов в сети Интернет с использованием запросов к поисковым сайтам Yandex, Yandex Блоги, Google и формирования списка релевантных запросу адресов документов;
  • загрузку информационных материалов на основе списка адресов Интернет ресурсов;
  • мониторинг интернет ресурсов: новостных сайтов, RSS-каналов, блогов, микроблогов, социальных сетей и форумов;
  • управление задачами мониторинга, включая их регламентное выполнение.

 

Отправить запрос на получение информации: ak@i-teco.ru