توضیحاتی در مورد کتاب Google BigQuery. Всё о хранилищах данных, аналитике и машинном обучении
نام کتاب : Google BigQuery. Всё о хранилищах данных, аналитике и машинном обучении
ویرایش : 1 ed.
عنوان ترجمه شده به فارسی : Google BigQuery. همه چیز در مورد انبارهای داده، تجزیه و تحلیل و یادگیری ماشینی
سری : Бестселлеры O’Reilly
نویسندگان : Валиаппа Лакшманан, Джордан Тайджани
ناشر : Питер
سال نشر : 2021
تعداد صفحات : 496
ISBN (شابک) : 9785446117079 , 9781492044468
زبان کتاب : Russian
فرمت کتاب : pdf
حجم کتاب : 8 Mb
بعد از تکمیل فرایند پرداخت لینک دانلود کتاب ارائه خواهد شد. درصورت ثبت نام و ورود به حساب کاربری خود قادر خواهید بود لیست کتاب های خریداری شده را مشاهده فرمایید.
فهرست مطالب :
Отзывы на книгу «Google BigQuery. Всё о хранилищах данных, аналитике и машинном обучении»
Предисловие
Для кого написана эта книга?
Условные обозначения
Использование примеров программного кода
Благодарности
От издательства
Глава 1. Что такое Google BigQuery?
Архитектуры обработки данных
Система управления реляционными базами данных
Фреймворк MapReduce
BigQuery: бессерверный, распределенный движок SQL
Работа с BigQuery
Анализ наборов данных
ETL, EL и ELT
Эффективная аналитика
Простота управления
История появления BigQuery
Что позволило создать BigQuery?
Отделение вычислений от хранилища
Хранилище и сетевая инфраструктура
Управляемое хранилище
Интеграция с платформой Google Cloud
Безопасность и соответствие требованиям
Выводы
Глава 2. Основы запросов
Простые запросы
Извлечение записей с помощью SELECT
Создание псевдонимов столбцов с помощью AS
Фильтрация с WHERE
SELECT *, EXCEPT, REPLACE
Подзапросы с WITH
Сортировка с ORDER BY
Агрегирование
Агрегирование с GROUP BY
Подсчет записей с COUNT
Фильтрация сгруппированных значений с HAVING
Поиск уникальных значений с DISTINCT
Краткое руководство по массивам и структурам
Создание массивов с помощью ARRAY_AGG
Массив структур STRUCT
Кортежи
Работа с массивами
Развертывание массива
Соединение таблиц
Основы соединения таблиц
Оператор внутреннего соединения INNER JOIN
Оператор перекрестного соединения CROSS JOIN
Оператор внешнего соединения OUTER JOIN
Сохранение и совместное использование
История запросов и кеширование
Сохранение запросов
Представления и общедоступные запросы
Выводы
Глава 3. Типы данных, функции и операторы
Числовые типы и функции
Математические функции
Стандартное вещественное деление
Функции SAFE
Сравнение
Точные десятичные вычисления с NUMERIC
Тип BOOL
Логические операции
Условные выражения
Обработка NULL с помощью COALESCE
Явное и неявное приведение типов
Использование COUNTIF, чтобы избежать приведения логических значений
Строковые функции
Интернационализация
Формирование и парсинг строк
Функции для обработки строкам
Функции преобразования
Регулярные выражения
Краткие итоги по строковым функциям
Операции со значениями TIMESTAMP
Парсинг и форматирование отметок времени
Извлечение календарных данных
Арифметические операции с отметками времени
DATE, TIME и DATETIME
Функции для работы с географическими координатами
Выводы
Глава 4. Загрузка данных в BigQuery
Основы
Загрузка из локального источника
Корректировка схемы
Копирование в новую таблицу
Управление данными (DDL и DML)
Эффективная загрузка данных
Федеративные запросы и внешние источники данных
Как использовать федеративные запросы
Когда использовать федеративные запросы и внешние источники данных
Интерактивное исследование и запрос данных из Google Sheets
Запросы SQL для выборки данных из Cloud Bigtable
Передача и экспорт данных
Служба передачи данных Data Transfer Service
Экспортирование журналов Stackdriver
Использование Cloud Dataflow для чтения/записи в BigQuery
Перемещение локальных данных
Методы миграции данных
Выводы
Глава 5. Разработка с BigQuery
Программный доступ
Доступ к BigQuery через REST API
Google Cloud Client Library
Доступ к BigQuery из инструментов исследования данных
Блокноты в Google Cloud Platform
Работа с BigQuery, pandas и Jupyter
Работа с BigQuery из R
Cloud Dataflow
Драйверы JDBC/ODBC
Внедрение данных из BigQuery в Google Slides (в G Suite)
Bash-скрипты для BigQuery
Создание наборов данных и таблиц
Выполнение запросов
Объекты BigQuery
Выводы
Глава 6. Архитектура BigQuery
Архитектура высокого уровня
Жизненный цикл запроса
Обновление BigQuery
Система обработки запросов (Dremel)
Архитектура Dremel
Выполнение запроса
Хранилище
Хранение данных
Метаданные
Выводы
Глава 7. Оптимизация производительности и затрат
Принципы производительности
Ключевые составляющие производительности
Управление затратами
Измерение производительности и поиск проблем
Определение скорости выполнения запроса с помощью REST API
Определение скорости выполнения запроса с помощью BigQuery Workload Tester
Выявление проблем в рабочих нагрузках с помощью Stackdriver
Чтение плана запроса
Увеличение скорости выполнения запросов
Минимизация ввода/вывода
Кеширование результатов предыдущих запросов
Эффективное выполнение соединений
Исключение перегрузки рабочих серверов
Использование приближенных функций агрегирования
Оптимизация хранения данных и доступа к ним
Минимизация сетевых издержек
Выбор эффективного формата хранения
Секционирование таблиц для уменьшения объема сканирования
Кластеризация таблиц на основе ключей с большой мощностью множества
Случаи использования, нечувствительные ко времени
Пакетные запросы
Загрузка файлов
Выводы
Контрольный список
Глава 8. Продвинутые запросы
Многократные запросы
Параметризованные запросы
Пользовательские функции SQL
Повторное использование частей запросов
Продвинутый SQL
Работа с массивами
Оконные функции
Метаданные таблиц
Язык определения данных и язык манипулирования данными
За пределами SQL
Пользовательские функции на JavaScript
Скрипты
Продвинутые функции
Геоинформационная система BigQuery
Полезные статистические функции
Алгоритмы хеширования
Выводы
Глава 9. Машинное обучение в BigQuery
Что такое машинное обучение?
Формулировка задачи машинного обучения
Типы задач машинного обучения
Построение регрессионной модели
Выбор метки
Выбор признаков в наборе данных
Создание обучающего набора данных
Обучение и оценка модели
Получение прогнозов с помощью модели
Исследование весов модели
Более сложные регрессионные модели
Создание модели классификации
Обучение
Оценка
Прогнозирование
Выбор порога
Настройка механизма машинного обучения в BigQuery
Управление делением данных
Балансировка классов
Регуляризация
Кластеризация методом k-средних
Выбор признаков для кластеризации
Кластеризация пунктов проката велосипедов
Кластеризация
Исследование кластеров
Принятие решений на основе данных
Рекомендательные системы
Набор данных MovieLens
Разложение матрицы
Получение рекомендаций
Включение информации о пользователях и фильмах
Нестандартные модели машинного обучения в GCP
Настройка гиперпараметров
AutoML
Поддержка TensorFlow
Выводы
Глава 10. Администрирование и безопасность BigQuery
Защищенность инфраструктуры
Управление идентификацией и доступом
Идентификация
Роль
Ресурс
Администрирование BigQuery
Управление заданиями
Авторизация пользователей
Восстановление удаленных записей и таблиц
Непрерывная интеграция/непрерывное развертывание
Экспорт биллинга — получение информации о расходах
Оперативные панели, мониторинг и журналы аудита
Доступность, восстановление после отказа и шифрование
Зоны, регионы и объединения регионов
BigQuery и обработка отказов
Сохранность, резервное копирование и восстановление после аварий
Конфиденциальность и шифрование
Соответствие требованиям законодательств
Местоположение данных
Ограничение доступа к подмножествам данных
Удаление всех сделок, связанных с конкретным физическим лицом
Предотвращение потери данных
CMEK
Защита от утечки данных
Выводы
Об авторах
Об обложке