Разделение данных, механизм (Data Separation, Mechanism). Разделение данных и параллельная sql-обработка Способы разделения информации

В статье «Excel — Оптимизация таблицы» оговаривалось, что для корректной работы с таблицей в каждом ее столбце должны содержаться только логически неделимые данные .

Например, в таблице сотрудников на рис.1, требуется отсортировать данные по фамилиям, а затем по именам сотрудников (для упорядочения однофамильцев). Для этого следует распределить фамилии, имена и отчества по отдельным столбцам .

Когда требуется разделить данные, находящиеся в одном столбце можно использовать встроенную возможность Excelразбиение содержимого одного столбца на несколько .

Для этого необходимо выполнить следующие действия:

1. Справа от разделяемого диапазона вставить несколько пустых столбцов по числу отделяемых данных. Это делается, чтобы избежать замены данных в соседних столбцах. В нашем случае вставим два новых столбца (рис.2).

2. Выделить столбец, который содержит разделяемые данные (Фамилия Имя Отчество).

3. На панели Работа с данными вкладки Данные нажимаем кнопку Текст по столбцам.

В открывшемся диалоговом окне Мастер текстов (разбор) – шаг 1 из 3 (рис.3) в области Формат исходных данных указать вариант разбиения:
с разделителями – если текст в ячейках разделен пробелами, запятыми, точками с запятой, знаками табуляции и т.п. (это наш случай – разделение пробелами );
фиксированной ширины – если мы разделяем данные на равные (по столбцам) части.

5. В окне Мастер текстов (разбор) – шаг 2 из 3 (рис.4) выбираем символ-разделитель пробел . Если среди предложенного набора отсутствует нужный знак, следует установить флажок другой и в поле ввести требуемый символ. При этом в нижней части окна будет приведен образец разбиения.

6. Нажатием кнопки Далее переходим в следующее диалоговое окно: Мастер текстов (разбор) – шаг 3 из 3 (рис.5), которое позволяет установить формат данных для каждого нового столбца. Кнопка Подробнее открывает диалоговое окно, в котором можно установить дополнительные настройки числовых данных.
Можно при разбиении исключить отдельный столбец. Для этого следует выделить его в образце разбора и включить опцию Пропустить столбец .

7. После установки всех требуемых параметров нажимаем кнопку Готово , в результате чего содержимое выделенного диапазона будет разбито на три столбца (рис.6).

Параллельная обработка операций, выполняемых над базой данных (например, сканирования, соединения и сортировки), - это только одна сторона параллельной SQL-обработки; для линейного повышения скорости выполнения некоторых операций обработки часто требуется разделение данных (разбиение таблиц и индексов для хранения их на разных дисках). Как было сказано ранее, разделение данных – это распределение информации среди нескольких дисков для того, чтобы не допустить возникновения узких мест из-за ограниченной пропускной способности подсистем ввода/вывода отдельных дисков. Параллельные запросы, возможно, будут обработаны не лучшим образом, когда в них запрашиваются неразделенные данные. Например, на рис. 7 показано, что запрос на упорядоченное сканирование всех строк большой таблицы базы данных может выполняться медленно из-за ограничений, возникающих при работе с диском.

На рис. 7 представлена ситуация, называемая конвейерной параллельностью (pipelined parallelism ). Запрос обрабатывается параллельно, но эта параллельность ограничена "трубой" (" pipe " ) - пропускной способностью диска, на котором находится вся таблица. Чтобы избежать возникновения конвейерной параллельности в системе с параллельной SQL-обработкой, используется разделение данных. На рис. 8 показано, что тот же самый параллельный запрос может быть выполнен намного быстрее после того, как информация большой таблицы разделена среди нескольких дисков.

Способы разделения данных

Существует множество различных способов разделения данных. Ранее было рассказано, как использовать возможности Oracle8 по разделению таблиц и индексов для разбиения этих объектов на более мелкие и более управляемые части. При конфигурировании Oracleдля параллельной SQL-обработки мы настоятельно рекомендуем применять средства разделения таблиц и индексов по диапазонам, чтобы максимально повысить производительность используемой системы.

Оптимизатор запросов Oracle8 знает о разделении информации тех таблиц и индексов, которые были разбиты на части при помощи встроенного средства разделения данных. Например, если параллельному запросу требуются данные только одного раздела большой таблицы, оптимизатор запросов Oracleавтоматически отменяет сканирование всех других разделов этой таблицы.

К сожалению, при выполнении некоторых запросов нельзя извлечь выгоду из предлагаемого Oracle8 разделения данных по диапазонам. Другим распространенным способом разделения является карусельное (round - robin ) разделение. При этом сервер случайным образом распределяет строки таблицы среди доступных разделов таблицы. Карусельное разделение может ускорить выполнение любых параллельных SQL-запросов, так как данные не разделяются специально для того, чтобы обработать какой-либо запрос. Чтобы распределить физические области хранения информации базы данныхOracleсреди нескольких дисков, обычно применяют различные сервисы внешней операционной системы. Например, в большинстве операционных систем, работающих с многопроцессорными компьютерами, имеются специальные утилиты для чередования дисков (disk striping ), позволяющие случайным образом распределять блоки файлов операционной системы среди нескольких дисков. При использовании карусельного разделения информации баз данныхOracleрекомендуется применять такие утилиты.

Механизм разделения данных позволяет хранить данные нескольких независимых организаций в одной информационной базе.

Это становится возможным благодаря тому, что общие реквизиты объектов конфигурации можно использовать не только как "одинаковый реквизит, который есть у всех объектов", но и как идентификатор того, что данные относятся к какой-то одной из нескольких независимых областей. Это можно объяснить на следующем примере.

Допустим в конфигурации существует общий реквизит "Организация". Это значит (упрощённо), что у каждого справочника, документа или другого объекта конфигурации также будет существовать реквизит "Организация".

При этом любой из пользователей информационной базы имеет доступ ко всем данным, которые хранятся в этой базе, независимо от того, какая организация указана, например, в том или ином документе.

Теперь укажем, что общий реквизит "Организация" будет являться разделителем.

Тогда (упрощённо) в информационной базе будет создано несколько независимых областей данных, в каждой из которых будут храниться данные только для одной конкретной организации:

Теперь, заходя в программу, пользователь будет получать доступ не ко всей информации, которая есть в информационной базе, а только к данным "своей" области, в данном случае к документам, справочникам и др. своей организации.

Возможен и другой вариант использования этого механизма, когда в информационной базе существует несколько независимых областей данных и наряду с этим существуют данные, которые доступны всем пользователям программы. Например, они содержат справочник банков, который одинаков для всех организаций.

В этом случае пользователь имеет доступ к "своей" области данных и к области неразделённых данных, которая является общей для всех пользователей.

Механизм разделения данных довольно гибок и универсален:

  • он позволяет использовать не один, а несколько разделителей;
  • существуют разные режимы использования разделяемых данных; они отличаются тем, как обрабатывается ситуация, когда значение разделителя не указано;
  • использование общего реквизита в качестве разделителя может управляться в процессе работы программы из встроенного языка без изменения конфигурации; это называется условным разделением.

Описание

Некоторые файлы базы данных могут быть разделены на два файла операционной системы (без учета индексных файлов). Такое разделение обычно применяется к файлам, содержащим быстро накапливающуюся информацию: расчетные листы , табель , путевые листы и т.п. Иными словами к первичным документам и накопителям.

  • Текущая часть. Содержит данные за последний, относительно небольшой период времени. Большинство пользователей Системы имеет право доступа только к текущей части. Файл операционной системы имеет расширение ASB KEY).
  • Архивная часть. Дополнение к текущей части. Вместе, архивная и текущая части, составляют полную базу данных. Доступ к архивной части регулируется назначением специальных прав . Файл операционной системы имеет расширение DAP (индексный файл – расширение KAP).

Преимущества регулярного проведения разделения файлов данных

  • Небольшой объем текущего резервирования данных .
  • Быстрое восстановление индексных файлов текущей части.

Недостатки размещения базы данных в двух частях

Стратегия разделения

В текущей части необходимо оставлять данные за такой истекший период, в котором весьма вероятно обращение к данным с целью модификации. Следует определить такой активный период для каждой из подсистем, в зависимости от практики использования той или иной информации.

  1. Выполнить первоначальное разделение файлов данных.
  2. Теперь текущие файлы (ASB) содержат информацию только за активный период.
  3. Выполнить сжатие файлов ASB с помощью утилиты SQD.
  4. Создать полную резервную копию базы данных .
  5. По прошествии активного периода, выполнить очередное разделение файлов данных.
  6. Перейти к пункту 2.

Для выполнения программ разделения файлов требуется:

  • Убедиться в наличии свободного места на диске.
  • Зарегистрироваться пользователем, входящим в группу AP_Admin или Eng.
  • Зайти в Систему.
    • Установить требуемый период.
    • Выполнить ДП разделения файлов (либо из меню "Сервис" – "Администратор" - "Перенос данных за период" - "В архивные половины", либо из списка ДП). Выполнение разделения производится без конфликтов и не мешает обычной работе пользователей. В настоящее время реализовано разделение файлов для следующих подсистем:
      • FrRWS Путевая документация . Рекомендуемый активный период – 3 месяца.
      • FrSal Зарплата . Рекомендуемый активный период – 1 год.
      • FrMDc Товарные документы . Рекомендуемый активный период – 3 года.

Применение утилиты SQD

  • Утилита SQD применяется для сжатия основного файла данных путем удаления записей, переброшенных в дополнительный файл или удаленных обычным способом. По умолчанию сжимаются файлы, в которых количество таких записей составляет 10 и более процентов.
  • Запускается из командной строки в корне директории (или диска), в которой размещается Система:
v32 -sqd <Имя_проекта>

Запуск АвтоПарк с доступом к архивным половинам

Запуск АвтоПарк с доступом к архивным половинам возможен только для администраторов и программистов проекта. Для входа в АвтоПарк с возможностью доступа к архивным половинам, необходимо запустить АвтоПарк из командной строки с ключом /A , либо с помощью ярлыка "АвтоПарк-Средства администратора-АвтоПарк с доступом к архивам".

Права пользователей на доступ к записям архивной половины

Права пользователей на чтение записей архивной половины

Права на чтение записей архивной половины устанавливаются такими же, как права на чтение записей текущей половины

Права пользователей на модификацию записей архивной половины

Права на модификацию записей архивной половины есть только у администраторов и программистов проекта