WWW.MASH.DOBROTA.BIZ
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - онлайн публикации
 

«больших текстовых коллекций и массивов транзакционных данных. Что такое тематическое моделирование? Это технология статистического анализа текстов для автоматического выявления тематики в больших ...»

Тематический анализ больших данных

BigARTM — библиотека с открытым кодом для тематического моделирования

больших текстовых коллекций и массивов транзакционных данных .

Что такое тематическое моделирование?

Это технология статистического анализа текстов для

автоматического выявления тематики в больших коллекциях

документов. Тематическая модель определяет, к каким темам

относится каждый документ, и какими словами описывается каждая

тема. Для этого не требуется никакой ручной разметки текстов, обучение модели происходит без учителя. Похоже на кластеризацию, но тематическая кластеризация является «мягкой»

и допускает, чтобы документ относился к нескольким кластерамтемам. Тематическое моделирование не претендует на понимание смысла текста, однако оно способно отвечать на вопросы «о чём этот текст» или «какие общие темы имеет эта пара текстов» .

Для чего используется тематическое моделирование?

для разведочного поиска в электронных библиотеках, это поиск по смыслу, а не по ключевым словам для обнаружения и отслеживания событий в новостных потоках для выявления тематических сообществ в социальных сетях для построения профилей интересов пользователей в рекомендательных системах для категоризации интентов собеседника и управления диалогом в системах разговорного интеллекта для поиска мотивов в нуклеотидных и аминокислотных последовательностях для аннотирования изображений для поиска изображений по тексу и текстов по изображениям для поиска аномального поведения объектов в видеопотоке для выявления паттернов поведения клиентов по транзакционным данным .

Слышал про модель LDA. Что-то ещё бывает?

LDA, латентное размещение Дирихле – самая известная и часто используемая тематическая модель. Проблема в том, что задача тематического моделирования имеет очень много (бесконечно много) решений, и LDA выдаёт одно из них, не предоставляя способа выбрать лучшее решение под конкретную задачу .

Модель LDA была изобретена в 2003 году. Ей предшествовала более простая модель, называемая вероятностным латентным семантическим анализом, PLSA (1999) .

Позже появились сотни специализированных моделей, но разработка каждой такой модели требовала заново производить математические выкладки и программную реализацию .

Теория аддитивной регуляризации (ARTM) позволяет собирать модели из готовых модулей в стиле конструктора LEGO .

Она появилась в 2014 году, и тогда же стартовал проект BigARTM .

–  –  –

Не совсем. Приставка «big» в названии означает, что реализация модульной технологии ARTM позволяет эффективно обрабатывать большие данные.

Что для этого сделано в BigARTM:

распараллеливание на ядрах центрального процессора, пакетная обработка данных, не требующая единовременной загрузки больших данных в оперативную память, эффективный алгоритм с линейной вычислительной сложностью по объёму коллекции и по числу тем, хранение самых часто обновляемых данных – распределений слов в темах – целиком в оперативной памяти, реализация ядра библиотеки на языке С++ с соблюдением современных стандартов промышленного программирования .

BigARTM в разы опережает по скорости вычислений алгоритмы, реализованные в популярных свободно доступных библиотеках, таких, как Gensim и Vowpal Wabbit .

–  –  –

Какие регуляризаторы уже встроены в BigARTM?

Сглаживание заставляет распределение слов в теме (или распределение тем в документе) быть похожим на заданное распределение. Это аналог модели LDA .





Разреживание обнуляет малые вероятности в распределении слов в теме (или в распределении тем в документе) .

Декоррелирование делает темы более различными .

Отбор тем позволяет модели избавляться от мелких, неинформативных, дублирующих и зависимых тем .

Когерентность группирует часто совместно встречающиеся слова в одних и тех же темах, улучшая интерпретируемость тем .

Полный список регуляризаторов можно найти в документации .

–  –  –

Да, мультиязычные тематические модели реализуются как частный случай мультимодальных. Параллельные или сравнимые тексты на нескольких языках образуют один документ, и слова разных языков считаются в нём модальностями. Мультиязычные модели позволяют создавать системы кроссязычного и мультиязычного тематического поиска, в которых запрос даётся на одном языке, а ответ может быть получен на других языках .

Например, по тексту патента на русском языке можно искать близкие патенты на английском. Если в своей коллекции нет параллельных текстов, а мультиязычный поиск нужен, то её можно дополнить параллельными текстами из Википедии .

–  –  –

Зачем нужны модели совстречаемости слов?

Тематические модели совстречаемости строятся не по частотам слов в документах, а по частотам совместной встречаемости слов .

Построить такую модель довольно просто: надо сформировать коллекцию псевдо-документов, в которой каждый документ соответствует слову и содержит все слова, встречающиеся с ним в одном контексте, например, в одном предложении. Она называется тематической моделью сети слов (word network topic model, WNTM). В чём отличие от обычной модели, и чем это лучше?

В основе данного подхода лежит дистрибутивная гипотеза:

«смысл слова в языке определяется совокупностью всех слов, встречающихся в его локальных контекстах». Любая тематическая модель строит для каждого слова его векторное представление в виде распределения вероятностей тем. Но в моделях совстречаемости эти векторы точнее отражают смыслы слов и лучше решают задачи семантической близости слов и документов .

–  –  –

Зачем нужны внутритекстовые регуляризаторы?

Внутритекстовые регуляризаторы позволяют учитывать порядок слов, синтаксические связи, деление текста по предложениям и абзацам и другую внутритекстовую информацию. Важным их применением является тематическая сегментация текстов .

Благодаря механизму регуляризации, не только темы определяют сегментацию, но и сегментация может влиять на темы .

Внутритекстовая регуляризация позволяет отойти от гипотезы «мешка слов» – самого критикуемого допущения в тематическом моделировании. Есть и другие способы частичного учёта порядка слов, например, в моделях совстречаемости или при использовании модальности словосочетаний. Однако механизм внутритекстовых регуляризаторов – наиболее общий и гибкий. Он позволяет создавать собственные регуляризаторы для выявления и анализа внутренней тематической структуры текста .

–  –  –

BigARTM не предназначен для решения задач текстовой аналитики «под ключ». Пользователь сам определят, какая необходима предобработка входных данных и постобработка выходных .

Перед обращением к BigARTM часто используются следующие методы предварительной обработки текстов:

удаление слишком редких слов, разметки и прочей «грязи», исправление опечаток, лемматизация или стемминг, удаление слишком частых слов (стоп-слов), автоматическое выделение терминов или коллокаций, выделение именованных сущностей, синтаксический парсинг (для некоторых Intratext-механизмов), вычисление частот совместной встречаемости слов .

–  –  –

Какие метрики качества вычисляются в BigARTM?

BigARTM располагает встроенными метриками качества (scores), и позволяет добавлять свои .

Некоторые метрики, доступные «из коробки»:

Перплексия. Общепринятая мера качества моделей языка .

Разреженность. Доля вероятностей, близких к нулю, в матрице Фи или Тета, соответственно .

Чистота и контрастность оценивают различность тем .

Когерентность наиболее вероятных слов темы. Является общепринятой мерой интерпретируемости темы .

Доля фоновых слов. Если она велика, это может свидетельствовать о вырожденности модели .

Метрики качества пересчитываются на каждой итерации по каждому обработанному пакету данных .

–  –  –

Чтобы разобраться в деталях, что почитать?

Документация по BigARTM есть на сайте bigartm.org .

Теория описана здесь (на русском языке):

www.MachineLearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf и в статье (на английском):

fruct.org/publications/fruct21/files/Koc.pdf .





Похожие работы:

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего образования "ПЕРМСКИЙ ГОСУДАРСТВЕННЫЙ ГУМАНИТАРНО-ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ" Кафедра немецко...»

«Информационно-аналитический научно-образовательный журнал Российского государственного педагогического университета им. А. И. Герцена Издается с 1995 года Выходит ежемесячно В номере ОБРАЗОВАНИЕ И СЕМЬЯ № 1 (87) Г. А. Бордовский. Современное учительство и соврем...»

«Департамент образования администрации г. Иркутска Муниципальное автономное образовательное учреждение дополнительного образования г. Иркутска "Дворец детского и юношеского творчества" Рекомендована Утверждена решением методического совета приказом по...»

«Министерство образования и науки российской Федерации тюМенский государственный университет институт ПсиХоЛогии и Педагогики е. в . неуМоева-коЛЧеданцева ПедагогиЧеская деонтоЛогия с тренингоМ ПроФессионаЛЬноЛиЧ...»

«1. КРАТКАЯ АННОТАЦИЯ Предлагаемая программа имеет целью содействовать приобретению глубоких и упорядоченных знаний в области педагогики, теории и методики современного пофесспонального образования. Теория и методика профессионального образования, ориентирован...»

«Гуманистическая педагогика Карла Роджерса. Гуманистическую педагогику чаще всего называют инновационной. Но инновационная она только для нас: лучшие западные системы уже давно эволюционируют в сторон...»

«Сообщение "Использование оригами и твистинга в работе с детьми младшего дошкольного возраста" Тарасова Марина Викторовна, воспитатель МДОУ детский сад № 39 "Золотой ключик", городской округ Серпухов "Оригами – это мир, в котором каждый, кто может изобразить вещи из единственного ли...»

«Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего образования "Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского" Кафедра начального языкового и литерат...»







 
2019 www.mash.dobrota.biz - «Бесплатная электронная библиотека - онлайн публикации»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.