оценка - 20% квизы + 70% среднее за дз 10% среднее за домашние контрльные - зачет 3,5
- https://pythontutor.ru/ - зарегистрироваться - Готово
- https://pythontutor.ru/lessons/str/ - сделать
- refresher сделать - cделал
- решить яндекс контест https://official.contest.yandex.ru/contest/20310/enter/ до 7 октября
- 3_1 regexp problems - сделать задачи - done
- 2020_DPO_3_0_strings_methods_problems -- уточнить последние 2 задачи -- done
- почему 1 в предпоследней - ошибка в задании
- корректное ли задание в последней? забить
- regexr.com
- https://leetcode.com/
- https://www.hackerrank.com/
- задачи 4 семинар
- https://official.contest.yandex.ru/contest/20632/enter/ - задачи на 3 семинар
- https://official.contest.yandex.ru/contest/20759/enter?success=0Ta2GfDF
к следующей среде
- про рекурсию - была ошибка
прочитать https://tproger.ru/translations/demystifying-decorators-in-python/
сделать дз хотя бы 1 запро до 24 числа
- почитать по datetime - это полезно и знать
- посмотреть, почему не работает относительная ссылка из notebook - done - все работает
- bs links проверить вопрос??? LXML - чем лучше или хуже element tree? soup = BeautifulSoup(requests.get(link).text, 'lxml') - вкусовщина
- не работает пример про сайт вышки - сайт не отдает в запрос то, что показывает человеку, что делать?
- установить selenium по шагам из lect selenium 1 dpo
- нужно чтобы driver = webdriver.Chrome запускался
- если что - писать в чат
- openpyxl дочитать - готово
- сделать рисование графиков –– создать файл с гистограммой для star_rating - done ставить через conda проверить в chrome = дома скачать дрова для chrome - блочат драйверы в крыму
- почитать статьи по ссылкам
- hackerrank
- leetcode
- codeforces
- kaggle - like platform - zindi
- яндекс - всегда надо знать алгоритмы driver = wb.Chrome('../chromedriver_win32/chromedriver.exe')
- собрать информацию в магазине/чем-то через веб драйвер - done
- почитать https://habr.com/ru/post/349860/
- !! selenium: прочитать список статей из этой серии https://habr.com/ru/post/250921/
- SQL: решить задания по презентациям 1-2 – https://docs.google.com/document/d/1LrnVs8xX3ig8R9yRdlRH6fVtYgyvVLlRlct6Hh2WS8M/edit?usp=sharing (инструкция куда грузить файлы внутри) – 10 баллов, каждое задание из бонуса по 2.5б -- готово
Презентации (первые 2 обсудили, вторые 2 можете прочитать, но мы их обсудим в начале пары): -- готово
- https://docs.google.com/presentation/d/1XbR2-HH8SG49O3p-hYOhekvV_iOJ4gM6re_dfNaft6E/edit#slide=id.p
- https://docs.google.com/presentation/d/1qMMLMpQNYYRtkask1BbqmCwGcJF-r9FJcilMbobD-0A/edit#slide=id.p
- https://docs.google.com/presentation/d/13UlGEp-ga9vXyeWKgP2hDi9cwXmW4UMmTHkJxusrvbs/edit#slide=id.p
- https://docs.google.com/presentation/d/1f0cBqR3wRWA4V9f5gvPuMfBUiN-DDOXp1ozNhbVBLqQ/edit#slide=id.p
Бонусы:
- selenium: скачать любой набор данных с любого сайта как мы сделали на семинаре – от 10 до 20 баллов в зависимости от приложенных усилий, файл можете также грузить на диск (ссылка та же, что и для SQL) – ноутбук с кодом, файл с результатом. код должен быть воспроизводим и красив (pep8)
- решать sql задачи (выбрать уровень на свой вкус) https://www.sql-ex.ru/ (не оценивается, но настоятельно рекомендуется)
Материалы, которые сегодня показывала для тренировки задач на питон/алгоритмы: https://www.hackerrank.com/ https://leetcode.com/
Еще одно задание по SQL
- https://docs.google.com/document/d/1-oyltnjbjzu9-U4FE9eODOMOiVfgWgcwnC2INwkXtG0/edit - done
- 11_3 scheduler почитать -- done
- вопрос по лекции анастасии? - про приватность данных
- из лекции 10_6 придумать что-то сделать
- pyspark
- https://pythonworld.ru/osnovy/dekoratory.html
вопросы:
- можно ли сделать init так, чтобы можно было как с функциями - пропускать входящие переменные и иметь дефолтные?
- магические методы почитать что есть разные
- 2020_DPO_11_1_Classes_KNN сделать посмотреть
-
Потренироваться в рекурсии, например, здесь: https://informatics.mccme.ru/mod/statements/view.php?id=2543#1 (задачи в менюшке справа, нужно зарегаться чтобы решать)
-
Задачи на метод двух указателей:
https://leetcode.com/problems/longest-substring-without-repeating-characters/ https://leetcode.com/problems/remove-duplicates-from-sorted-array/ https://leetcode.com/problems/merge-sorted-array/
https://leetcode.com/problems/long-pressed-name/ https://leetcode.com/problems/trapping-rain-water/
- Придумать решение первой задачи с ассимптотикой по времени O(n) (например используя метод двух указателей) - done
- https://habr.com/ru/company/ods/blog/322626/
- попросить у анастасии - для работы с категориальными переменными советов и для из кодировки - done
- Задание 1. Реализуйте функцию, возвращающую максимальный элемент в векторе x среди элементов, перед которыми стоит нулевой. Для x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) ответом является 5. Если нулевых элементов нет, функция должна возвращать None. - done
- https://github.com/pileyan/DPO_2020_autumn/blob/master/lect13/6_Homework.ipynb - done
- сдавать сюда (создать папку со своим именем и фамилией): https://drive.google.com/drive/folders/1e2EbyzpxnyYwpdVgEUV8VH83uxQvYs1o?usp=sharing
-
спросить пример про то как накодить кто-то пытался AirBnB ?
-
Домашнее задание:
-
Дорешать https://informatics.mccme.ru/mod/statements/view.php?id=259#1
-
Попрактиковаться в 3 способах хранения графа: https://informatics.mccme.ru/mod/statements/view.php?id=359#1 (Да, там много задач и страшно, но я в вас верю, и не обязательно решить все, достаточно почувствовать себя уверенно с ними)
-
Задачи на DFS:
https://informatics.mccme.ru/mod/statements/view.php?id=256&chapterid=164#1
https://informatics.mccme.ru/mod/statements/view.php?id=256&chapterid=111540#1
https://informatics.mccme.ru/mod/statements/view.php?id=256&chapterid=111541#1
https://informatics.mccme.ru/mod/statements/view.php?id=256&chapterid=165#1
- Задачи на BFS:
https://informatics.mccme.ru/mod/statements/view.php?id=255#1
https://informatics.mccme.ru/mod/statements/view.php?id=255&chapterid=161#1
https://informatics.mccme.ru/mod/statements/view.php?id=255&chapterid=162#1
https://informatics.mccme.ru/mod/statements/view.php?id=255&chapterid=1472#1
-
- домашнее задание - туда же загрузить - done
- https://github.com/pileyan/DPO_2020_autumn/tree/master/HW78 - done 7 and 8
- загрузить токен сюда https://dashboard.heroku.com/apps/osm-telegram-bot/deploy/heroku-git - done
- hackerank про данные по pandas
- поискать dfs + stack можно сделать
- задачи из
- Сорян, я не успеваю сделать ноутбук с решениями, first thing tomorrow morning, а пока дз
-
https://informatics.mccme.ru/mod/statements/view.php?id=654&chapterid=912#1
-
https://informatics.mccme.ru/mod/statements/view.php?id=654&chapterid=2963#1
-
https://informatics.mccme.ru/mod/statements/view.php?id=657#1
-
https://informatics.mccme.ru/mod/statements/view.php?id=657&chapterid=212#1
-
https://informatics.mccme.ru/mod/statements/view.php?id=766&chapterid=205#1
-
https://leetcode.com/problems/longest-palindromic-substring/ - some
-
https://leetcode.com/problems/best-time-to-buy-and-sell-stock/
-
https://leetcode.com/problems/number-of-dice-rolls-with-target-sum/
https://informatics.mccme.ru/mod/statements/view.php?id=766&chapterid=1790#1 - частичное
- посмотреть про катбуст
- посмотреть лекции Анна Вероника Дорогуш
- попросить у Анастасии материал seminar_1_pererocessing про study_mokoron
- попросить лекции дополнительные
- sklearn can set custom https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html
https://leetcode.com/problems/reverse-linked-list/
записать сортировку кучей попробовать интвервью на литкод
https://drive.google.com/drive/folders/1nOknKs7fyCRoXHU6Y28ZnlnGUgf437eD
основная книга https://publications.hse.ru/mirror/pubs/share/direct/393719078.pdf
лекцию 2, стр 44 - 65 (комбинаторика), и лекцию 10 стр 264 - 275 (вероятность)
Материал лекции соответствует страницам 95-124 основной книги. - done
- Материал лекции соответствует страницам 124 - 142 основной книги.
- В книге E. Lehman, F. T. Leighton, A. R. Meyer. Mathematics for Computer Science можно найти материал, посвященный раскраскам графа и путям (стр 149-155).
- Кроме того, там довольно интересно изложен материал про деревья (168), пути в графах (152), ациклические графы (231) и т.д.
https://www.gormanalysis.com/blog/gradient-boosting-explained/
https://en.wikipedia.org/wiki/Gradient_boosting
https://dyakonov.org/2017/06/09/градиентный-бустинг/
- попробовать linkage перебрать
- попробовать kmeans ++
- для гауссовских процессов:
- botorch
- gpytorch
- gpflow
- gaussian process summer school
- монотонная регрессия существует
* statistical learning theory Tibshiray (как учебник)
* Murphy - Справочник
* Bishop Pattern recognition (как учебник) - смотреть интересующие главы
ML - conferences
-
NIPS (nairi PS)
- workshop time series
- workshop inverse problems
-
A/A* conference
-
ICML - академическое
-
Зрение - CVPR
-
KDD для практиков
-
summer school Machine learning XXX
- mlss
-
ICLR, AAAI, UAI, IJACI
-
NLP - есть конференции
-
MIDL - медицинское
-
karpov courses
- Поставить https://community.cloud.databricks.com/ - done
- Разобраться, что это такое
- https://habr.com/ru/post/485180/
- merge sort для Н массивовов (на несколько частей)
- погонять ноутбук 1 - done
- домашка на каггле - посмотреть задачи m5 forecasting, нужно скачать данные из кегла и выполнить команды из ноутбука с подгрузкой данных
-
leetcode
-
spark MLlib - так себе
-
Майкрософт - обучение сетей https://github.com/microsoft/SynapseML
- есть поддержка vowpal wabbit
-
напомнить про спросить - как boosting настроить на spark
- код
F.expr("")
- почитать про repartition https://habr.com/ru/post/578654/
- книжку по питону и по спарку
- сделать фичи и групбаи для М5 в Guide to M5 - сделать несколько groupby и window признаков
- Разобраться с ноутбуком Seminar 3
- https://habr.com/ru/company/jugru/blog/568638/
- почитать
- почитать про партиции и репартишн high performance spark
- https://docs.databricks.com/applications/machine-learning/index.html
- попробовать полезные штуки https://docs.databricks.com/applications/machine-learning/preprocess-data/mllib.html
- Пройти задачки, которые были показаны в лекции
- Поковыряться в файле проекта, который выдан
готово.
- добавить скейлинг 1 семинар + арх сети - done
- 2 семинар покрутить
- реализовать 2-3 других sceduler -> получить лучше результат PyTorch_SGD_seminar
- HW02 - gradient реализовать
- посмотреть https://www.jeremyjordan.me/nn-learning-rate/ - done
Тем временем уже стоит влпотную заниматься вторым заданием:) Оно есть на гитхабе по адресу: HSE_DL_2021/02_week/HW02_gradient.ipynb
Присылайте, пожалуйста, в формате HW_2_Surname_Name.ipynb или ссылку на колаб с аналогичным названием
- почитать про https://arxiv.org/pdf/1804.02763.pdf
- книги «Глубокое обучение. Погружение в мир нейронных сетей»
- почитать https://www.deeplearningwizard.com/deep_learning/boosting_models_pytorch/weight_initialization_activation_functions/
Batchnorm_and_dropout.ipynb - попробовать 3 слойную сеть
https://www.coursera.org/lecture/deep-neural-network/dropout-regularization-eM33A
- сделать our firs cnn pytorch - прочитать статью - по ссылке "хорошая статья"
- сделать домашку от 6 лекции our firs cnn pytorch
- посмотреть что он дал
- сверточный автокодировщик улучшить
- улучшить manifold learning в этом ноутбуке - обучение сети оптимизировать
- Большой проект - попробовать его https://www.kaggle.com/c/toxic-comments-classification-apdl-2021
- посмотреть лекции - модель трансформер и берт
- посмотреть 4_bert - и использовать hugging face - для русского языка.
- запустить в колабе и проверить, что получится на том же коде - если пойдет, то проблема в версиях у меня
- попробовать убрать все слои и усложнения - попробовать посмотреть что получится, если добавлять по 1
- гуглить совместно с этим слоем
почитать из конца лекций
https://lena-voita.github.io/nlp_course.html
- реализовать RNN по прогнозу погоды
-
interspeech - speech
-
ICML - conference
-
NIPS
-
ICLR
-
neptuneblog
-
Keyword spotting - это задача
-
librespeech
-
LJSpeech - датасет популярный
- по ним были бенчмарки
- weights and biasses
-
курс попробовать https://github.com/markovka17/dla