ABBYY Compreno и машинное обучение. • Машинное обучение активно используется для настройки семантико-синтаксического парсера.


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте файл и откройте на своем компьютере.
ПРИМЕНЕНИЕ НЕЙРОСЕТЕЙ В ЗАДАЧАХ ТЕКСТОВОЙ АНАЛИТИКИ Анатолий СТАРОСТИН, Руководитель Группы исследования технологий извлечения информации Copyright 2016 ABBYY ABBYY за 30 секунд 2 Дата основания 1989 российская компания с мировым именем ABBYY сегодня мировой разработчик решений в области интеллектуальной обработки информации и лингвистики Более 40 миллионов пользователей свыше чем в 200 странах % оборота в R&D 2 5% ABBYY разрабатывает лидирующие по качеству технологии искусственного интеллекта для задач бизнеса Известные бренды ABBYY FineReader, ABBYY Lingvo, ABBYY FlexiCapture Каждый год 9,3 млрд. страниц документов и форм обрабатывают десятки тысяч организаций во всем мире с помощью технологий ABBYY Группа компаний ABBYY 3 Сегодня в группу ABBYY входят 16 офисов в 13 странах, где работают свыше 1 250 сотрудников ABBYY HQ США ABBYY HQ Европа ABBYY HQ Восточная Европа ABBYY Международный HQ, ABBYY Россия, ABBYY 3A, ABBYY Language Services ABBYY Канада ABBYY Австралия ABBYY Тайвань ABBYY Япония ABBYY Дубай ABBYY Кипр ABBYY Великобритания ABBYY Испания ABBYY Франция ABBYY Language Services Казань ABBYY Language Services Казахстан Более 20 лет исследований 4 Компания ABBYY имеет собственные разработки в следующих областях: • Распознавание текстов • Анализ документов и ввод данных • Морфология, лексикография, синтаксис и семантика • Методы машинного обучения В разработку продуктов ABBYY инвестировано более 5 000 человеко - лет. О себе 5 • В 1999 году закончил 57 - ю школу • В 2004 году закончил МГУ (ф - т ВМиК , кафедра Алгоритмических Языков) • С 2004 года работаю в области Natural Language Processing • Последние 6 лет в компании ABBYY • Один из авторов системы ABBYY InfoExtractor • В данный момент возглавляю группу исследования технологий извлечения информации Нейронные сети в задачах автоматической обработки текстов 6 • Классификация текстов • Синтаксический анализ • Извлечение именованных сущностей • Извлечение фактов ABBYY COMPRENO Уникальная технология понимания и анализа текстов на естественном языке 7 Copyright 2016 ABBYY Базовые составляющие ABBYY Compreno 8 Copyright 2016 ABBYY Семантика На этом уровне синтаксические структуры «интерпретируются» на множестве универсальных понятий (семантических классов) и отношений между ними (глубинных позиций). Синтаксис Синтаксис выявляет формальные отношения между словами внутри одного или нескольких предложений. Система анализирует текст и выстраивает дерево связей. Машинное обучение Данные из параллельных и моноязычных корпусов используются для обучения алгоритмов анализа, а так же расширения и верификации языковых описаний. Прагматика Прагматический уровень включает онтологии, правила извлечения информации (или правила интерпретации семнатических структур) и предметные модели машинного обучения . Синтаксис Статистика Семантика Прагматика Семантическая иерархия 9 Семантическая иерархия 10 Семантическая иерархия 11 Полный семантико - синтаксический разбор 12 • Выполняя полный семантико - синтаксический анализ текстов на естественном языке, технология позволяет создавать формальное представление текста, не зависящее от входного языка. • Это универсальное представление может быть использовано для онтологической разметки, логического вывода, извлечения и накопления знаний. • Высокое качество анализа достигается за счет учета многих сложных явлений естественного языка. Полный семантико - синтаксический разбор 13 Полный семантико - синтаксический разбор 14 Виды статистики, используемой для работы семантико - синтаксического парсера 15 • Частотность лексических классов • Сочетаемость тематик и лексических классов • Поверхностная и глубинная статистика древесных связей • Статистика длин древесных связей • Статистика правил сочинения • Статистика длины сочинительной связи • Статистика пунктуации поверхностных позиций • Статистика соседей эллиптированной составляющей • Статистика переводов лексических классов • И т.п. Извлечение информации 16 Lenovo Group bought Motorola from Google for $3bln before $3.2bln Google 's acquisition of Nest . Извлечение сущностей и фактов с помощью ABBYY Compreno (сценарий дообучения ) Create first extractor IE 0 Extract information from a corpus with IEi Verify extracted information Is it good enough ? Train extractor IE i+1 on verified corpus No Yes 17 Примеры применения Compreno для прикладных задач 18 Обработка обращений клиентов / граждан Проактивная техническая поддержка Аналитические отчеты для служб безопасности Проверка проектно - сметной документации Получение актуальной информации о клиентах банка Анализ мнений и анализ высказываний клиентов ABBYY Compreno и машинное обучение 19 Copyright 2016 ABBYY • Машинное обучение активно используется для настройки семантико - синтаксического парсера • В задачах извлечения информации на сегодняшний день используется ряд методов ML ( нейронные сети , random forest , бустинг над деревьями и др.) • Во всех случаях помимо примитивных признаков используются признаки, построенные на основе семантико - синтаксических признаков • В ряде случаев это повышает качество извлечения информации Опыт применения нейронных сетей 20 • Word embeddings • Categorial embeddings • Different architectures • Feed - forward • Convolutional • LSTM (and Bi - LSTM) • Recursive • • Supervised task - specific • Unsupervised • Dropout layers Эксперименты с архитектурой NLP (almost) from scratch ( Collobert , 2011) для задачи NER 21 • Использование высокоуровневых признаков вместе с базовыми дает прирост в 3 - 4% к state of the art на корпусе CONLL 2003 • На внутренних русскоязычных корпусах получить прирост по сравнению с классическими методами ML пока не получилось Эксперименты с SyntaxNet ( Andor al . 2016) 22 • Воспроизвести результаты публикации на Penn Tree Bank удается • Перенос на русскоязычный корпус дает сопоставимые результаты • Предлагаемая синтаксическая модель существенно беднее модели Compreno . Это затрудняет использование данного подхода. 23 Спасибо за внимание! КОНТАКТНАЯ ИНФОРМАЦИЯ ABBYY Headquarters Телефон : +7 (495) 783 3700 Факс : +7 (495) 783 2663 Адрес : Москва, ст. м. Отрадное, ул . Отрадная, 2Б, строение 6, бизнес - центр Отрадный» E - mail: [email protected] Web : www.abbyy.com

Приложенные файлы

  • pdf 42043487
    Размер файла: 2 MB Загрузок: 0

Добавить комментарий