infoculture
diff --git a/‎README.md
+125-5 b/‎README.md
+125-5
diff --git a/‎api/readabilityio.py
+107 b/‎api/readabilityio.py
+107
diff --git a/‎api/textmetric/LR.py
+115 b/‎api/textmetric/LR.py
+115
diff --git a/‎api/textmetric/__init__.py b/‎api/textmetric/__init__.py
diff --git a/‎api/textmetric/__init__.pyc
149 Bytes b/‎api/textmetric/__init__.pyc
149 Bytes
@@ -1,12 +1,132 @@
-plainrussian
+Plain Russian Language / Понятный (простой) русский язык.
 ============
 
-Plain Russian Language / Понятный (простой) русский язык.
+# Зачем всё это нужно
+Оценка читаемости текстов необходима для автоматического определения сложности текстов на русском языке.
+
+# Что было сделано
+Есть 5 американских алгоритмов оценки читаемости текстов, это:
+*  Flesch-Kinkaid - http://en.wikipedia.org/wiki/Flesch%E2%80%93Kincaid_readability_tests
+*  Dale-Chale readability formula - http://en.wikipedia.org/wiki/Dale%E2%80%93Chall_readability_formula
+*  Coleman-Liau index  - http://en.wikipedia.org/wiki/Coleman%E2%80%93Liau_index
+*  SMOG - http://en.wikipedia.org/wiki/SMOG
+*  Automated Readability Index - http://en.wikipedia.org/wiki/Automated_Readability_Index
+
+Были накоплены тексты на русском языке с разметками по уровню чтения, это:
+*  тексты для внеклассного чтения;
+*  экспертно размеченные взрослые тексты;
+*  особо сложные тексты законов;
+*  и так далее.
+
+Все алгоритмы были обучены под русский язык - специальным образом каждая формула была подобрана на основе обучающей выборки.
+Для всех формул были применены коэффициенты позволяющие применять их к русским текстам.
+
+На базе этих формул был сделан специальный веб-сервис который позволяет передавать ему текст или ссылку и оценивать его на сложность.
+
+# Как работает API
+
+API доступно по ссылке и http://api.plainrussian.ru/api/1.0/ru/measure/
+и для его работы ему необходимо передать параметр url (для ссылки) или text (как текст).
+
+Параметр url передается при обращении через GET запрос, пример такого обращения выглядит вот так: 
+- http://api.plainrussian.ru/api/1.0/ru/measure/?url=http://minsvyaz.ru/ru/news/index.php?id_4=44264
+
+вот с примером простого текста:
+- http://api.plainrussian.ru/api/1.0/ru/measure/?url=http://www.anekdot.ru/id/674877/
+
+или вот:
+- http://api.plainrussian.ru/api/1.0/ru/measure/?url=http://www.gosuslugi.ru/pgu/cms/content/isr/view/00000000000/290/309&debug=1
+
+Результат выглядит вот так:
+
+   `     `
+    `{`
+        `metrics: `
+        `{`
+            `wsyllabes: `
+            `{`
+            `1: 94,`
+            `2: 116,`
+            `3: 140,`
+            `4: 87,`
+            `5: 139,`
+            `6: 45,`
+            `7: 18,`
+            `8: 4,`
+            `15: 1`
+            `},`
+            `c_share: 32.142857142857146,`
+            `chars: 6000,`
+            `avg_slen: 46,`
+            `spaces: 510,`
+            `n_syllabes: 2232,`
+            `n_words: 644,`
+            `letters: 5170,`
+            `n_sentences: 14,`
+            `n_complex_words: 207,`
+            `n_simple_words: 437,`
+            `avg_syl: 3.4658385093167703`
+        `},`
+        `status: 0,`
+        `indexes: `
+        `{`
+            `grade_SMOG: "Аспирантура, второе высшее образование, phD",`
+            `grade_ari: "Аспирантура, второе высшее образование, phD",`
+            `index_fk: 33.342906832298134,`
+            `grade_cl: "Аспирантура, второе высшее образование, phD",`
+            `grade_fk: "Аспирантура, второе высшее образование, phD",`
+            `index_cl: 23.062857142857148,`
+            `grade_dc: "Аспирантура, второе высшее образование, phD",`
+            `index_dc: 30.300857142857147,`
+            `index_ari: 32.11796894409938,`
+            `index_SMOG: 34.046178356649776`
+        `}`
+    `}        `
+
+Кроме того, вместо параметра url можно использовать text, чтобы при запросе передавался текст, а не гиперссылка на текст. Вместо GET-запроса имеет смысл использовать POST, чтобы обойти ограничение на размер URI.  
+Пример того, как это выглядит в Python с использованием библиотеки requests:
+
+    import requests
+    text = "Здесь может быть Ваш текст"
+    response = requests.post("http://api.plainrussian.ru/api/1.0/ru/measure/", data={"text":text})
+    response.json()
+
+Параметры означают:
+## indexes - набор индикаторов читаемости текста:
+* grade_SMOG - уровень образования необходимый для понимания текста по формуле SMOG, человеческим языком
+* grade_ari - уровень образования необходимый для понимания текста по формуле Automated Readability Index, человеческим языком
+* grade_cl - уровень образования необходимый для понимания текста по формуле Coleman-Liau, человеческим языком
+* grade_fk - уровень образования необходимый для понимания текста по формуле Flesch-Kinkaid, человеческим языком
+* grade_dc - уровень образования необходимый для понимания текста по формуле Dale-Chale, человеческим языком
+* index_SMOG - уровень образования необходимый для понимания текста по формуле SMOG, в годах обучения от 1 до бесконечности
+* index_ari - уровень образования необходимый для понимания текста по формуле Automated Readability Index, в годах обучения от 1 до бесконечности
+* index_cl - уровень образования необходимый для понимания текста по формуле Coleman-Liau, в годах обучения от 1 до бесконечности
+* index_fk - уровень образования необходимый для понимания текста по формуле Flesch-Kinkaid, в годах обучения от 1 до бесконечности
+* index_dc - уровень образования необходимый для понимания текста по формуле Dale-Chale, в годах обучения от 1 до бесконечности
+
+## metrics - набор расчетных показателей из текста
+*   chars - сколько всего знаков тексте
+*   spaces - сколько пробелов в тексте
+*   letters - сколько букв в тексте
+*   n_words - число слов
+*   n_sentences - число предложений
+*   n_complex_words - число слов с более чем 4-мя слогами
+*   n_simple_words - число слов до 4-х слогов включительно
+*   avg_slen - среднее число слов на предложение
+*   avg_syl - среднее число слогов на предложение
+*   c_share - процент сложных слов от общего числа
+*   w_syllabes - словарь из значений: число слогов и число слов с таким числом слогов в этом тексте
+
+Если передать параметр debug=1, то также вернется значение текста которое было передано. 
+
+Вот несколько примеров текстов на которых шло обучение.
+- Бианки "Лесной дом", 1-й класс - http://api.plainrussian.ru/api/1.0/ru/measure/?url=http://plainrussian.ru/textsbygrade/1/bianki_lesdom.txt
+- Астафьев "Солдат", 9-й класс - http://api.plainrussian.ru/api/1.0/ru/measure/?url=http://plainrussian.ru/textsbygrade/9/astafiev_soldier.txt
+и так много документов.
+
 
-Данный проект создан для того чтобы собрать в одном месте разрозненный код, тексты и материалы по понятности / простоте / ясности русского языка. 
 
-* readability.io - доступное API сервиса readability.io - https://github.com/ivbeg/readability.io/wiki/API 
-* textmetric - примеры текстов и метрика расчета читаемости текстов.
+* textmetric - библиотека кода для измерения простоты русского языка
 
 
 Текстовые файлы в textmetric - это специально подобранные тексты с предварительными возрастными пометками. Это позволяет разрабатывать собственные алгоритмы анализа читабельности, простоты, понятности текстов на базе этих метрик.
 
@@ -0,0 +1,107 @@
+import tornado.httpserver
+import tornado.ioloop
+import tornado.web
+#import memcache
+import chardet
+import urllib
+import html2text
+import requests
+import json
+from django.utils.feedgenerator import Rss201rev2Feed, Atom1Feed
+from pymongo import Connection
+from readability.readability import Document
+from textmetric.metric import calc_readability_metrics
+import time
+
+READ_DB = 'readability'
+LOG_COLL = 'log'
+
+ERROR_NONE = 0
+ERROR_INVALID_DATA = 101
+
+class RusMeasureHandler(tornado.web.RequestHandler):
+    def initialize(self):
+        self.conn = Connection()
+        self.db = self.conn[READ_DB]
+        self.log = self.db[LOG_COLL]
+        self.log.ensure_index("reqtime", 1)
+
+    def __log(self, logrec):
+        self.conn = Connection()
+        self.db = self.conn[READ_DB]
+        self.log = self.db[LOG_COLL]
+        self.log.save(logrec)
+
+
+    def get(self):
+        rtime = time.time()
+        url = self.get_argument('url')
+        lang = self.get_argument('lang', 'ru')
+        debug = self.get_argument('debug', "0")
+        debug = int(debug) if debug.isdigit() else 0
+        r = requests.get(url)
+        ctype = r.headers['content-type'].lower() if 'content-type' in r.headers.keys() else 'text/html'
+        print ctype
+        ctype = ctype.split(';', 1)[0]
+        if ctype == 'text/html':
+            ht = html2text.HTML2Text()
+            ht.ignore_links = True
+            ht.ignore_images = True
+            ht.ignore_emphasis = True
+            text = ht.handle(Document(r.text).summary())
+            status = ERROR_NONE
+        elif ctype == 'text/plain':
+           
+            print type(r.content)
+            text = r.content.decode('utf8', 'ignore')
+#            text = r.text.decode('utf8', 'ignore')
+            status = ERROR_NONE
+        else:
+            text = None
+            status = ERROR_INVALID_DATA
+#        text = text.decode('utf8')
+        if status == ERROR_NONE:
+            results = calc_readability_metrics(text)
+        else:
+            results = {'lang' : lang, 'debug' : debug}
+        if debug:
+            results['debug'] = {'text' : text}
+        results['status'] = status
+        self.set_header("Content-Type", "application/json")
+        self.write(json.dumps(results, indent=4))
+        etime = time.time() - rtime
+        logreq = results.copy()
+        logreq['text'] = text
+        logreq['reqtime'] = rtime
+        logreq['time'] = etime
+        self.__log(logreq)
+
+    def post(self):
+        rtime = time.time()
+        text = self.get_argument('text')
+        lang = self.get_argument('lang', 'ru')
+        debug = self.get_argument('debug', "0")
+        results = calc_readability_metrics(text)
+        results['status'] = ERROR_NONE
+        results['debug'] = debug
+        results['lang'] = lang
+        self.set_header("Content-Type", "application/json")
+        self.write(json.dumps(results, indent=4))
+        etime = time.time() - rtime
+        logreq = results.copy()
+        logreq['text'] = text
+        logreq['reqtime'] = rtime
+        logreq['time'] = etime
+        self.__log(logreq)
+
+
+
+
+application = tornado.web.Application([
+    (r"/api/1.0/ru/measure/", RusMeasureHandler),
+])
+
+if __name__ == "__main__":
+    http_server = tornado.httpserver.HTTPServer(application)
+    http_server.listen(9888)
+    tornado.ioloop.IOLoop.instance().start()
@@ -0,0 +1,115 @@
+from sklearn.linear_model import LinearRegression
+import csv
+from math import sqrt
+debugMode = True
+
+###########################################################################
+# PART 1: PREPARATIONS                                                    #
+###########################################################################
+
+def getMetricsFromCSV():
+    """
+    Reads 'metrics.csv'.
+    Returns a list of dictionaries (one for each row).
+    """
+    with open('metrics.csv') as csvfile:
+        reader = csv.DictReader(csvfile)
+        listOfDicts =  [row for row in reader]
+        
+    for d in listOfDicts:
+        for key in d:
+            if key in ['filename', 'name']: pass            # str
+            elif key == 'grade': d[key] = int(d[key])       # int
+            elif key == 'wsyllabes': d[key] = eval(d[key])  # dict
+            else: d[key] = float(d[key])                    # float
+            
+    return listOfDicts
+
+###########################################################################
+
+def calculateCoefficients(xs, ys):
+    """
+    Takes a list of xs and a list of ys, for example:
+    * xs: [ (1.2, 3.4), (1.5, 3.3), ... ]
+    * ys: [          3,          5, ... ]
+    
+    Returns a list of coefficients and an intercept,
+    such that (hopefully):
+        y = x[0] * coef_[0] + x[1] * coef_[1] + intercept
+    """
+    model = LinearRegression()
+    model.fit(xs, ys)
+    return (model.coef_, model.intercept_)
+
+###########################################################################
+# PART 2: EVALUATION                                                      #
+###########################################################################
+
+def checkPredictions(grades, IB_predictions, KD_predictions):
+    """
+    Takes a list of real grades and two lists of predictions.
+    Compares the accuracy of predictions.
+    """
+    length = len(grades)
+    assert len(IB_predictions) == len(KD_predictions) == length
+    
+    IB_errors = [ pair[0]-pair[1] for pair in zip(IB_predictions, grades)]
+    KD_errors = [ pair[0]-pair[1] for pair in zip(KD_predictions, grades)]
+
+    IB_sum_of_errors = sum( abs(e) for e in IB_errors )
+    KD_sum_of_errors = sum( abs(e) for e in KD_errors )
+    print("Сумма отклонений (ИБ): ", "%.2f" % IB_sum_of_errors)
+    print("Сумма отклонений (КД): ", "%.2f" % KD_sum_of_errors)
+
+    #https://ru.wikipedia.org/wiki/Абсолютное_отклонение
+    IB_mean_abs_error = IB_sum_of_errors / length
+    KD_mean_abs_error = KD_sum_of_errors / length
+    print("Среднее абс. отклонение (ИБ): ", "%.2f" % IB_mean_abs_error)
+    print("Среднее абс. отклонение (КД): ", "%.2f" % KD_mean_abs_error)
+
+    #https://ru.wikipedia.org/wiki/Среднеквадратическое_отклонение
+    IB_sum_of_squares = sum( e**2 for e in IB_errors )
+    KD_sum_of_squares = sum( e**2 for e in KD_errors )
+    IB_mean_sq_error = sqrt( IB_sum_of_squares / length )
+    KD_mean_sq_error = sqrt( KD_sum_of_squares / length )
+    print("Среднее кв. отклонение (ИБ): ", "%.2f" % IB_mean_sq_error)
+    print("Среднее кв. отклонение (КД): ", "%.2f" % KD_mean_sq_error)
+    
+###########################################################################
+# PART 3: SPECIFIC METRICS                                                #
+###########################################################################
+
+def fit_Flesch_Kincaid_grade(listOfDicts):
+    """
+    Takes data as a list of dictionaries created by 'getMetricsFromCSV()'.
+    Returns parameters for F-K formula that best fit the data.
+    
+    If debugMode is on, checks the accuracy of predictions.
+    """
+    
+    xs = [ (d['avg_slen'], d['avg_syl']) for d in listOfDicts ]
+    ys = [ d['grade'] for d in listOfDicts ]
+    
+    coeffs, intercept = calculateCoefficients(xs, ys)
+
+    if debugMode:
+        print("FLESCH-KINCAID GRADE (KD):")
+        print("GRADE = {:.2f} * {} + {:.2f} * {} + {:.2f}".format(
+               coeffs[0], 'avg_syl', coeffs[1], 'avg_slen', intercept))
+
+        IB_predictions = [ d['index_fk_rus']
+                        for d in listOfDicts ]
+        KD_predictions = [ x[0]*coeffs[0] + x[1]*coeffs[1] + intercept
+                        for x in xs ]
+        checkPredictions(ys, IB_predictions, KD_predictions)
+                
+    return coeffs, intercept
+    
+###########################################################################
+
+if __name__ == "__main__":
+
+    listOfDicts = getMetricsFromCSV()    
+    fit_Flesch_Kincaid_grade(listOfDicts)
+
+