Документация

Как запускать?

java -jar gene-1.0-SNAPSHOT-jar-with-dependencies.jar ($путь до хромосомы)

Формат файла для обработки -- GenBank

В качестве примеров на данный момент взяты файлы хромосом Arabidopsis thaliana из сервера NCBI

Алгоритм парсинга

Весь файл читаем через Scanner по строчкам
Сначала scanningGeneAnnotation равен true, так как мы в данный момент ищем аннотации генов
Если есть подстрока " gene ":
1. Комплиментарный ген?
2. Раазделение данной строки по маскам "(\\.\\.)|(\\s+complement\\()|(\\))|(\\s+<)|(\\s+)" или две точки, или пробелы с complement(, или просто пробелы, или скобки
3. Читаем след строку, и если там есть название гена -- записывает опять же split
4. Вырезаем инфу о Locus_tag, Gene_synonyms, который вырезается более сложным образом:
  - Соединяем все строки в StringBuilder, относящиеся к "gene_synonym", ибо они могут быть в нескольких строках
  - Читаем полученный StringBuilder через Scanner, у которого будут новые точки прерывания Pattern.compile("(\\s+/gene_synonym=\")|\"|(;\\s+)")
  - Далее мы получим все названия синонимов, однако, они будут не в самом резентабельном виде, так как будут много пробелов. Полученную строку снова оборачиваем в новый Scanner с дефолтными точками разрыва.
  - Запоминаем в ArrayList
5. Вся необходимая информация записывается в объект Promotor
  - Название гена
  - Номер хромосомы
  - Название локуса
  - Список синонимов к этому гену
  - Начало и конец промоторной области
  - Комплиментарна ли она
  - Сама последовательность(если комплиментарна, то делай reverce)(мы ее получим позже)
6. Вся собранная информация об одной промоторной части складывается в контейнер List
А теперь мы доходим до "ORIGIN "
Всю последовательность соединяем аккуратно и складываем в StringBuilder
Так как мы все промоторные части сохранили в List, мы их и начинаем снова читать
1. Находим индексы начала и конца требуемой подпоследовательности
2. Вырезаем
3. Если нужна комплиментарная -- делаем Reverce
4. Сохраняем обратно в Promotor
Теперь экспорт в файлы: каждый файл в формате FASTA описывает промоторную часть с описанем из Promotors

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.idea		.idea
src		src
Gene2.iml		Gene2.iml
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Документация

Как запускать?

Алгоритм парсинга

About

Releases

Packages

Languages

AcaDemIQ/Gene2

Folders and files

Latest commit

History

Repository files navigation

Документация

Как запускать?

Алгоритм парсинга

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages