Предполагается, что ты уже имеешь начальные знания по SQL. Если ты плохо понимаешь, что такое таблицы, строки, индексы, первичные ключи и ссылочная целостность, то лучше сначала изучи их. Например, прочитав эту статью
А если ты знаком с SQL и тебя не остановили предыдущие термины, на всякий случай напомню, что:
- атомарность предполагает, что значение нельзя разделить на несколько атрибутов;
- под кортежем понимается запись (строка) в таблице базы данных;
- атрибут — это колонка таблицы;
- неключевой атрибут — это атрибут, не входящий в состав никакого потенциального ключа.
Есть минимум два требования, которые должны быть соблюдены при проектировании структуры БД:
- Сохранить всю информацию после разделения её на таблицы.
- Минимизировать избыточность
Второй пункт важен не только из-за того, что избыточность влияет на размер БД. Чаще всего при обновлении данных нужно обработать много строк. В таком случае ты рискуешь просто забыть обновить некоторые из них, что приведёт к коллизиям внутри БД.
Ниже перечислены некоторые рекомендации, которые помогут тебе добиться эффективной структуры:
- всегда используй третью нормальную форму а лучше третью усиленную нормальную форму;
- создавай ограничения для входных данных;
- не храни ФИО в одном поле, также как и полный адрес;
- установи для себя правила именования таблиц и полей.
Нормальные формы — это требования, которые должны соблюдаться при правильной проектировке базы данных.
Нормальных форм существует целых 6 штук, однако обычно соблюдают всего лишь 3 и для начала этого более чем достаточно.
Для примера будем использовать отношение сотрудники_отделы_проекты. В нём есть информация о номере сотрудника, его фамилии, номере отдела, в котором он работает, номере телефона отдела и так далее.
Это отношение, как и любое другое, автоматически находится в первой нормальной форме:
- в отношении нет одинаковых кортежей;
- кортежи не упорядочены;
- атрибуты не упорядочены и различаются по наименованию;
- все значения атрибутов атомарны.
В нашем случае у таблицы выше имеется сложный (составной) ключ {Н_СОТР, Н_ПРО}
. От части ключа Н_СОТР
зависят неключевые атрибуты ФАМ
, Н_ОТД
, ТЕЛ
. От части ключа Н_ПРО
зависит неключевой атрибут ПРОЕКТ
. А вот атрибут Н_ЗАДАН
зависит от всего составного ключа, так как сотрудник может выполнять одно задание в одном проекте.
Поэтому для приведения отношения ко второй нормальной форме из отношения сотрудники_отделы_проекты нужно выделить два отношения сотрудники_отделы и проекты, а исходное отношение оставим отношением задания.
Отношение находится в третьей нормальной форме, когда отношение находится во второй нормальной форме и все неключевые атрибуты взаимно независимы.
Для того, чтобы устранить зависимость неключевых атрибутов, нужно произвести декомпозицию отношения ещё на несколько отношений. При этом те неключевые атрибуты, которые являются зависимыми, выносятся в отдельное отношение.
Отношение сотрудники_отделы не находится в третьей нормальной форме, так как имеется зависимость неключевых атрибутов, таких как зависимость номера телефона от номера отдела. Поэтому декомпозируем отношение сотрудники_отделы на два отношения — сотрудники и отделы:
Нормальная форма Бойса-Кодда (BCNF)
НФ Бойса - Кодда (или “Третья Усиленная форма”) так же часто применяется на правктике.
Ее отличие от 3НФ только в том, что все таблицы должны иметь первичный ключ.
База данных — это не просто набор таблиц. В неё встроено много инструментов, которые помогут с сохранностью и качеством данных.
В первую очередь БД поможет с ограничением значений, которые принимают поля.
Внешние ключи регламентируют отношения между таблицами. Благодаря им сильно упрощается контроль за структурой базы, уменьшается и упрощается код приложения. Правильно настроенные внешние ключи — это гарант того, что увеличится целостность данных за счёт уменьшения избыточности. Поэтому обязательно применяйте ограничение внешнего ключа при определении связей между таблицами.
Выражения ON DELETE
и ON UPDATE
внешних ключей используются для указания действий, которые будут выполняться при удалении строк родительской таблицы (ON DELETE
) или изменении родительского ключа (ON UPDATE
). Не пренебрегайте ими.
Стоит убедиться, что обязательность заполнения (NOT NULL
) проверяется для полей, которые строго не должны оставаться пустыми.
Используйте CHECK
, чтобы убедиться, что значения входят в диапазон (например чтобы цена не была отрицательной).
Представим ситуацию, когда вам понадобится узнать, в каком городе продукт более популярен. В таком случае, если полный адрес хранится в виде цельной строки, сделать это будет очень тяжело, ведь вам нужно будет каким-то образом выделить из этой строки город. Учитывая все возможные форматы и варианты адресов, эта задача становится практически невыполнимой. Похожая ситуация и с ФИО. Даже если кажется, что это ни к чему, храните эти данные в разных полях, и в будущем вы поблагодарите себя.
Сложно работать с данными, которые выглядят как-то так: user.firstName
, user.last_name
, user.birthDate
. Конечно, каждый программист в праве сам выбирать для себя стиль наименования, но для SQL рекомендуется выбрать наименование с подчёркиванием. Потому что не все SQL-движки одинаково работают с заглавными буквами, а помещать всё в кавычки бывает утомительно.
Ещё нужно определиться как будут называться таблицы — во множественном числе (users
) или в единственном (user
). Каждая базовая структура в БД обычно настроена на множественное число, поэтому и именовать таблицы стоит соответственно.
Не упускайте возможность сложить побольше обязанностей на базу данных, чтобы облегчить себе работу над приложением и думать о его структуре, а не о контроле табличных связей.
Всё приходит с опытом. Спроектируйте две-три схемы, и картинка сама сложится у вас в голове. Отталкивайтесь от задачи —некоторыми рекомендациями иногда можно пренебречь.