Textura WEB

Инструмент комплексного анализа текста по относительным числовым показателям

Textura – DH-приложение для анализа свойств текста в сравнении с текстами НКРЯ по числовым показателям.

Проект нацелен на помощь цифровым гуманитарным исследователям, литературоведам и другим пользователям, работающим с отдельно взятыми текстами.

Мы верим в потенциал анализа текста по количественным метрикам в сравнении с большим корпусом для современных гуманитарных исследований.

Более полное описание TEXTURA доступно в официальной статье, посвященной проекту.

Над проектом работали:

Николай Горбачев
Татьяна Чечельницкая
Александр Симанычев

Установка

Mac/Linux

Загрузить .ZIP архив: Code -> Download ZIP
Перейти в загруженную папку в терминале:

cd .../<Downloads Folder>/textura-main

Ввести в терминале:

sh mac-install.sh

sh mac-run.sh

Windows

Загрузить .ZIP архив: Code -> Download ZIP
Перейти в загруженную папку в командной строке:

cd .../<Downloads Folder>/textura-main

Скопировать и вставить в командной строке:

python -m pip install --upgrade pip && python -m pip install --user virtualenv && python -m venv textura_env && .\textura_env\Scripts\activate && pip install -r requirements.txt && deactivate

.\textura_env\Scripts\activate && python run.py && deactivate

Использование

Загрузка текста: загрузить текст во вкладке Загрузить текст в формате .txt
Анализ: нажмите зеленую кнопку Анализировать текст на первой вкладке -- Textura обработает текст и вернет анализ по количественным метрикам.
Графики сравнения с корпусом: на странице анализа по нажатию зеленой кнопки отрисуются графики для сравнения вашего текста с текстами НКРЯ по всем метрикам
Фильтрация корпуса: кнопка фильтрации на странице анализа позволяет выбрать подгруппу текстов для сравнения с этой подгруппой вашего загруженного текста
Интерпретация: на основе полученных результатов вы можете получить представление о характеристиках текста. Например, если инструмент показывает высокий уровень индексов удобочитаемости языка, вы можете сделать вывод о сложности текста относительно других текстов.
Проверьте другие тексты: если вы хотите проанализировать другой текст, вернитесь на главную страницу или нажмите кнопку «Загрузить текст»

Список метрик

Список метрик в группировке по гуманитарным свойствам, за которые они отвечают:

Базовые метрики
- Среднее арифметическое длины предложений в тексте
- Медиана длины предложений в текста
- Среднее арифметическое длины слов в тексте
- Медиана длины слов в текста
- Среднее количество слогов в словах
Лексика текста
- Коэффициент лексического разнообразия (lexical diversity) -- количественная характеристика текста, отражающая степень богатства словаря при построении текста заданной длины. В основе показателя лежит соотношение числа отдельных лексических единиц (лемм, англ. types) и количества их употреблений в тексте (текстоформ, англ. tokens). Вычисляется как отношение количества лемм к количеству текстоформ (токенов)
- Коэффициент лексической плотности (lexical density) -- отношение самостоятельных частей речи в тексте к общему количеству слов. Более лексически плотными, таким образом, будут тексты, в которых используется меньше служебной лексики.
Сложность текста для восприятия
- Количетсво многосложных слов (более чем два слога)
- Индекс удобочитаемости -- Автоматический индекс удобочитаемости (англ. automated readability index (ARI)) — мера определения сложности восприятия текста читателем, аппроксимирующая сложность текста к номеру класса в американской системе образования, ученикам которого данный текст будет понятен.
- FRES -- одна из формул определения индекса удобочитаемости, учитывающая среднее количество слогов
- Gunning fog index -- одна из формул определения индекса удобочитаемости, учитывающая количество многосложных слов
- SMOG -- одна из формул определения индекса удобочитаемости, зависящая от количества предложений
- CLI -- одна из формул определения индекса удобочитаемости, зависящая от средней длины предложений и средней длины слов
Анализ тональности Анализ тональности приведен в тестовом режиме и работает через модель DeepPavlov/rubert-base-cased-conversational обученной на RuSentiment.
- blanchefort_positive -- средняя позитивная оценка по предложениям в тексте
- blanchefort_neutral -- средняя нейтральная оценка по предложениям в тексте
- blanchefort_negative -- средняя негативная оценка по предложениям в тексте

Name		Name	Last commit message	Last commit date
Latest commit History 108 Commits
.vscode		.vscode
dev		dev
textura_site		textura_site
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
mac-install.sh		mac-install.sh
mac-run.sh		mac-run.sh
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Textura WEB

Инструмент комплексного анализа текста по относительным числовым показателям

Установка

Mac/Linux

Windows

Использование

Список метрик

About

Releases

Packages

Contributors 3

Languages

n1kg0r/textura

Folders and files

Latest commit

History

Repository files navigation

Textura WEB

Инструмент комплексного анализа текста по относительным числовым показателям

Установка

Mac/Linux

Windows

Использование

Список метрик

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages