-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Отображение LaTeX-математики на GitHub’е с помощью MathJax’a: http://stackoverflow.com/questions/11255900/mathjax-support-in-github-using-a-chrome-browser-plugin
Скрипт, упомянутый в этом вопросе на Stack Overflow, теперь есть и здесь: https://github.com/myrix/mdlnerc/raw/master/mathjax-in-github.user.js
Содержание
Нужно выделить в тексте именованные сущности и указать их тип.
Jim bought 300 shares of Acme Corp (headquatered at San Francisco).
Type | Entity |
---|---|
Person | Jim |
Organization | Acme Corp |
Location | San Francisco |
Возможны другие типы: Geopolitical Entity, Facility, Animal, Plant, Product, Money, Date, Quantity, ….
Машинное обучение: модель отображения “последовательность слов
Типы NE-тэгов: Person, Organization, Location, …, None (означает, что слово не является NE).
Части (например, предложения) больших текстов моделируются независимо.
Вероятность
Тэг
Функции признаков
Параметры
Найденные значения
Можно усложнить модель, введя признаки вида
Правдоподобие
Моделируем потенциалы логарифмически-линейными функциями:
$$
P(\mathbf{Y}|X) \propto \exp \left ( \sum_{c \in C} \lambda_c f_c(Y_c|X) \right )
$$
Каждая функция признака
Для получения вероятностного распределения нужен нормализующий множитель:
Здесь
Для NERC’а в простейшем случае мы используем линейную CRF, состоящую из потенциалов пар последовательных тэгов
\begin{align*}
P(t_{1:n}|w_{1:n}) & = \prod_{i=1}^{n} P(t_i,t_{i-1}|w_{1:n},i) P(t_i|w_{1:n},i) \\ & \propto \prod_{i=1}^n \exp \left ( \sum_j \lambda^a_{ij} f^a_j(t_i,t_{i-1}|w_{1:n},i) + \sum_k \lambda^b_{ik} f^b_k(t_i|w_{1:n},i) \right )
\end{align*}
Введем упрощающее предположение, что параметры
Как и в MEMM, отбрасываем
Также как и в MEMM, можно усложнить модель, добавив зависимости между тройками тэгов, и вообще, зависимости между любыми подмножествами тэгов. В пределе придем к модели, в которой все
Вопрос выбора модели можно рассматривать отдельно.
И для MEMM, и для CRF мы оптимизируем функцию вида
Каждый элемент
Отбросив вероятностную подоплеку, мы перешли к классификации векторов признаков. Как и при использовании CRF, мы можем использовать признаки, произвольно зависящие от наборов тэгов частей текста и от наблюдаемых контекстов этих тэгов.
Классификация на основе векторов признаков также возможна с помощью моделей, построенных на основе boosting’а. Boosting строит агрегированный классификатор на основе признаков как простых классификаторов.
Вообще, возможно использование любых методов построения классификаторов, работающих с представлением данных в виде векторов признаков. Можно использовать деревья и графы решений.
MDL (и родственный ему MML, Minimum Message Length15) применяется для поиска моделей, наиболее точно описывающих данные.
Мера качества модели
Наиболее качественной моделью
Данные —
-
$M^*$ , предполагает, что$0$ и$1$ равновероятны. -
$M_k$ ,$k$ может принимать значения$0, \ldots, n$ , вероятности задаются как$P(0|M_k) = k/n, P(1|M_k) = (n-k)/n$
Всего
- Для описания
$M^*$ нужно лишь задать ее тип, для этого достаточно$\log 2$ бит. - При описании
$M_k$ мы также задаем ее тип$\log 2$ битами, после чего кодируем$k$ как один из$n+1$ вариантов$\log [n+1]$ битами.
Для кодировки
$L(D[n_0, n_1]|M^*) = n_0 \log 2 + n_1 \log 2 = n$ $L(D[n_0, n_1]|M_k) = n_0 \log [n/k] + n_1 \log [n/(n-k)]$
Минимум
Общая длина описания
-
$\log 2 + n$ для$M^*$ . -
$\log 2 + \log [n+1] + n_0 \log [n/n_0] + n_1 \log [n/n_1]$ для$M_{n_0}$ .
При
Можно изменить кодировку, выбирая
Можно ввести новый класс моделей, задающих условные вероятности
Также есть промежуточная альтернатива, задавать две условные вероятности и одну безусловную, например,
Вообще, разнообразие возможных структур моделей велико.
Байесовский вывод16
По однозначному префиксному коду, сопоставляющему объектам
Формуле
Критерию выбора модели по минимальной длине совместного описания соответствует критерий модели по максимальной совместной вероятности:
Если мы рассматриваем фиксированный набор данных - константа, и этот критерий эквивалентен байесовскому критерию выбора модели по максимальной постериорной вероятности:
Аддитивная величина
Интегрирование идет по множеству моделей
Расширим MDL по аналогии. При работе с моделями, оценивающими некоторую величину, например, вероятность
В отличие от байесовского вывода, мы используем модели из некоторого множества
Колмогоровская сложность
Сложность любого объекта для двух разных архитектур
Будем моделировать набор данных
В ситуации, когда конкретный набор данных
Длина выбранной программы
Длина закодированных данных зависит от собственно данных и способа кодировки:
Принцип MDL является аппроксимацией метода выбора модели на основе алгоритмической сложности, в MDL вместо всех вычислимых моделей мы рассматриваем модели из некоторого ограниченного класса
При условии, что вычислительная архитектура
Используя эту вероятность, можно определить вероятность любого вычислимого объекта
Моделируем набор данных
Используя эту вероятность, мы можем оценивать величины
Можно сказать, что точно так же как выбор модели на основе MDL является аппроксимацией выбора модели-программы на основе алгоритмической сложности, оценка на основе расширенного MDL * является аппроксимацией оценки на основе алгоритмической вероятности.
Деревья решений (Decision Trees, DT) применяются для классификации объектов на основе атрибутов. Объекты характеризуются
Рекурсивное определение дерева решений:
- Узел-лист, помеченный классом
$C$ . - Узел решения, помеченный атрибутом
$F$ и имеющий$|F|$ узлов-потомков,$|F|$ — число возможных значений атрибута$F$ .
Классификация объекта на основе значений
- Если
$t$ — узел-лист, помеченный классом$C$ , результатом классификации является класс$C$ . - Если
$t$ — узел решения, помеченный атрибутом$F_i$ с узлами-потомками$t_1, \ldots, t_{|F_i|}$ , мы выбираем узел-потомок в зависимости от значения$f_i$ и продолжаем классификацию объекта по этому узлу-потомку.
Деревья решений задают функции классификации
Рассмотрим обучение с учителем на основе принципа MDL. Каждый объект из набора
Зададим способ описания моделей и данных на основе моделей и определим соответствующие длины
Задаем пространство моделей и определяем длину их описания
- Равновероятное распределение
$P(C_i) = 1/M$ . - Распределение, характеризующееся параметрами
$k_1, \ldots, k_M$ :
Задание варианта требует
Для описания узла решения необходимо задать его атрибут и описать его узлы-потомки. Для задания атрибута требуется
Зададим описание данных на основе модели и опишем его длину
Описанием множества из
Вполне возможно, что в большинстве листьев большая часть значений векторов-параметров будет равна 0. В этом случае можно сменить схему кодирования на следующую:
- Задаем с помощью
$\log [M+1]$ бит число$m$ от$0$ до$M$ ,$0$ — равномерная модель, от$1$ до$M$ — число ненулевых компонент вектора параметров. - Если
$1 \le m \le M$ , задаем положительные значения вектора параметров$k_{i_1}, \ldots, k_{i_m}$ с помощью$\log C(m-1, k-1)$ бит.$C(m-1, k-1)$ — биномиальный коэффициент, количество композиций$k$ из$m$ положительных слагаемых 23.
Используем для выбора минимальной модели жадный поиск. Общая схема:
- На шаге
$1$ выбираем из первичных альтернатив:
- На шаге
$n+1$ выбираем из вариантов преобразования выбора на шаге$n$ :
Выполняем шаги поиска, пока
$$
\mathbf{T}^* = \operatorname*{arg\,min}_{\mathbf{T}_i} L(D, \mathbf{T}_i)
$$
Начинаем с обучающего множества из
-
$T_1$ , равномерное распределение. -
$T_2$ , распределение, заданное с помощью вектора параметров.
Для каждого из вариантов
Построим множество преобразований модели-дерева
- Для каждого такого узла-листа перебираем атрибуты
$F_i \in F$ . По каждому атрибуту строим узел решения, разделяющий множество$O$ на подмножества$O_1, \ldots, O_{|F_i|}$ по числу возможных значений атрибута. Каждому подмножеству соответствует узел-лист с двумя вариантами модели распределения$P( c )$ классов этого подмножества. - Атрибуту
$F_i$ узла-решения и моделям$T_{1}, \ldots, T_{|F_i|}$ распределений в узлах-листьях соответствует преобразование модели$\mathbf{T}_{n}$ , получаемое заменой рассмотриваемого узла-листа на дерево высоты$2$ из построенных узла решения и узлов-листьев. - Длины описаний узлов-листьев этих деревьев высоты
$2$ и множеств объектов данных, относящихся к этим узлам-листьям, входят в итоговую длину описания как независимые слагаемые, и мы можем выбирать модели распределений$T_{1}, \ldots, T_{|F_i|}$ независимо друг от друга. - Длины описаний этих деревьев высоты
$2$ и множеств объектов данных, относящихся к этим деревьям, также входят в итоговую длину описаний как независимые слагаемые, и мы можем рассматривать преобразования узлов-листьев модели$\mathbf{T}_{n}$ независимо друг от друга.
Общее число вариантов преобразований модели
Графы решений 24.
Расширенный MDL *. В этом случае при выборе следующей модели
1 Wikipedia: Named entity recognition.
2 David Nadeau and Satoshi Sekine. A survey of named entity recognition and classification. Lingvisticae Investigationes, 30(1):3–26, January 2007.
3 Lev Ratinov and Dan Roth. Design Challenges and Misconceptions in Named Entity Recognition. Proceedings of the Thirteenth Conference on Computational Natural Language Learning, pages 147–155, 2009.
4 Wikipedia: Maximum-entropy Markov model.
5 Andrew McCallum, Dayne Freitag, and Fernando Pereira. Maximum Entropy Markov Models for Information Extraction and Segmentation. Proceedings of the 17th International Conference on Machine Learning, pages 591–598, 2000.
6 Wikipedia: Maximum entropy classifier.
7 Wikipedia: Conditional random field.
8 Lafferty, J., McCallum, A. and Pereira, F., 2001. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. Proceedings of the Eighteenth International Conference on Machine Learning, pp. 282 – 289.
9 Wikipedia: Hammersley–Clifford theorem.
10 Collins, M., 2002. Discriminative training methods for hidden Markov models: theory and experiments with perceptron algorithms. Proceedings of the ACL-02 conference on Empirical methods in natural language processing, pp.1–8.
11 Collins, M., 2004. Presentation on discriminative training methods for hidden Markov models: theory and experiments with perceptron algorithms.
12 Friedman, J., Hastie, T. and Tibshirani, R., 2000. Additive Logistic Regression: A Statistical View of Boosting. The Annals of Statistics, 28(2), pp.337–407.
13 Wikipedia: Minimum description length.
14 Rissanen, J., 1983. A Universal Prior for Integers and Estimation by Minimum Description Length. The Annals of Statistics, 11(2), pp.416–431.
15 Wikipedia: Minimum message length.
16 Wikipedia: Bayesian inference.
17 Li, M. and Vitányi, P., 2008. An Introduction to Kolmogorov Complexity and Its Applications 3rd ed., Springer.
18 Wikipedia: Kolmogorov complexity.
19 Wikipedia: Algorithmic probability.
20 Wikipedia: Decision tree learning.
21 Wallace, C.S. and Patrick, J.D. 1993. Coding Decision Trees. Machine Learning, 11, 7–22.
22 Wikipedia: Композиция числа, “…разрешить нулевые части, то…”.
23 Wikipedia: Композиция числа, Количество композиций.
24 Tan, P.J. and Dowe, D.L. 2002. MML Inference of Decision Graphs with Multi-Way Joins. Proceedings of the 15th Australian Joint Conference on Artificial Intelligence, 131–142.