Использование языка GPSS/H в процедуре бенчмаркинга

А. Г. Варжапетян (Санкт-Петербург)

 

Введение

Не обсуждая преимуществ имитационного моделирования, стоит напомнить о некоторых его важных недостатках, а именно: невозможность получения точной оценки конкретного варианта построения исследуемой системы; сложность выбора наилучшего из рассматриваемых вариантов; выбор реального объёма выборки. В представляемой статье предпринята попытка минимизации указанных недостатков. В самом деле, получая при моделировании на GPSS/H максимальные и минимальные цифры загрузки приборов обслуживания, менеджер может провести предварительную оценку потребных ресурсов. Эта задача достаточно тривиальна и помогает уменьшить кошмар средних оценок. В статье рассматриваются два более интересных для практики случая: минимизация необходимого объёма выборки при сохранении или даже уменьшении дисперсии и применение ИМ при проведении бенчмаркинга.

Теория математической статистики жёстко связывает уменьшение стандартного отклонения с объёмом выборки, так увеличение объёма выборки в 4 раза приводит лишь к двукратному уменьшению стандартного отклонения.

Однако использование антитез позволяет нарушать каноны теории. Существует ряд способов понижения дисперсии при проведении ИМ (см. [3] или монографию И.М.Соболя «Метод Монте-Карло»). Однако, по мнению автора, самым эффективным и удобно применяемым в GPSS/H является метод антитез. Название введено Т. Шрайбером [5].

Основная часть

А. Уменьшение дисперсии. Рассмотрим суть метода антитез. Формируются пары реплик, и по значениям этих реплик вычисляется среднее значение пары. Вместо обычного требования независимости реплик используется отрицательная корреляция, т. е. максимально возможному значению одного члена пары соответствует минимально возможное значение, допустимое в этой серии опытов и наоборот. Проиллюстрируем эту идею на примере бросания двух игральных кубиков. В силу симметрии частота появления результатов в паре одинакова, сумма результатов в паре также одинакова, а, следовательно, и среднее значение пар одинаково и равняется 7, а дисперсия равна нулю. Очевидно, что в реальных ситуациях, а не в таком рафинированном примере, дисперсия не может быть равна нулю по определению, так как добиться абсолютной, отрицательной корреляции вряд ли удастся, показано [2], что возможно снижение дисперсии на 60–65%, однако и такого снижения вполне достаточно для практических целей, учитывая сокращение машинного времени и снижение дисперсии при одновременном уменьшении объёма необходимой выборки.

Рассматривая уменьшение выборки (в случае малых объёмов выборки) вдвое при использовании антитез, можно заметить, что увеличение t- статистики оказывает влияние на уменьшение дисперсии, но не такое значительное как при применении независимых членов выборки. Однако, читатель должен сделать важный для него вывод, что применение антитез способствует снижению дисперсии, а насколько, это зависит от конкретных систем.

Необходимо подчеркнуть, что использование прямого потока БСВ и антитез должно быть обязательно согласовано, так если какое-либо значение с любого ГСЧ используется для получения времени поступления транзакта в прямом потоке БСВ, то эквивалент-антитеза должен использоваться для описания этого же транзакта во встречном потоке. При использовании метода антитез обязательным условием является применение разных ГСЧ для получения времени поступления и времени обслуживания, при наличии нескольких операторов блоков – ОБ GENERATE и ОБ ADVANCE для каждого из них обязательно используется свой ГСЧ. Выполнение этого непременного условия позволяет осуществить синхронизацию потоков событий.

При использовании метода антитез стартовая позиция ГСЧ для прямого и обратного потока должна быть одинаковой. Установление новых значений для каждой реплики достигается путём введения в поле операндов оператора управления RMULT арифметических выражений, которые для антитез заключаются в скобки, перед которой ставится знак минус.

Б. Проведение бенчмаркинга. Решение проблемы рационального построения исследуемой системы является сложной, многоэтапной и многокритериальной задачей. Многие авторы занимались и продолжают заниматься решением отдельных аспектов этой проблемы. В принципе для решения оптимальной задачи необходимо иметь неограниченные ресурсы, тогда можно решать двуединую задачу оптимизации: либо максимизировать значения выходных характеристик, либо, сохраняя выходные значения на заданном уровне, минимизировать ресурсы.

Чаще всего, на практике невозможно располагать неограниченными ресурсами и приходится решать задачу максимизации выходных характеристик системы при ограниченных ресурсах – R. Такие решения не корректно называть оптимальными. Поэтому, имея ограниченные ресурсы, правильнее говорить о рациональных или субоптимальных решениях, которые и будем рассматривать. Применяя методы ИМ, можно с помощью метода бенчмаркинга, селектировать альтернативные варианты построения системы, оценивая их по возрастанию выходных характеристик. Под методом бенчмаркинга понимается процесс сравнительного анализа разных (чаще всего двух) концепций, компонентов, подсистем, процессов. Цель бенчмаркинга количественно оценить самый лучший вариант среди рассмотренных альтернатив. В основе любого измерения лежит принцип попарного сопоставления, поэтому в скобках, фразой выше подчёркнуто, что альтернатив две, худшая отвергается, а лучшая сравнивается со следующей и т. д. Наконец, выбрав рациональный вариант, пытаться улучшать уже именно его за счёт проектирования параметров и допусков на них. На улучшение какого либо параметра расходуется определённый ресурс, при большом числе параметров чаще всего выбирают методику, основанную на методах теории планирования эксперимента или робастного проектирования. При этом меняют какой-либо параметр до исчерпания ресурса – R, или до физически допустимого предела изменения этого параметра, при неизменных других. Каждому варианту сопоставляется значение выходного параметра. Назовём эту вектор-характеристику – качеством целевого функционирования Qf  [1], тогда возрастание Qf отвечает цели проектирования. Если проводить сравнение двух альтернатив, то альтернатива Qf 1 доминирует над альтернативой Qf2, если превышено значение хотя бы по одному параметру Qf. Отношений доминирования может быть несколько типов:

– отношение Слейтера (строгое доминирование). Когда Qf  R выполняется тогда и только тогда, когда Qf i  Qf j при всех значениях i, j = 1, 2,…, n;

отношение Парето. Когда Qf  R выполняется тогда и только тогда, когда
Qf i  Qf j
при всех значениях i, j= 1, 2,…, n.

Чаще всего используют отношение Парето, очевидно, что изменение разных параметров никогда не приведёт вектор Qf в одну точку пространства, в котором в результате многих попыток образуется множество субоптимальных точек, составляющих Парето-оптимальное множество. Попадание в это множество позволяет проводить дальнейшее отыскание рационального варианта методами имитационного моделирования. Напомним, что процесс ИМ не позволяет давать точечных оценок, а оценивает только средние значения, поэтому выбор лучшего варианта в Парето-оптимальном множестве должен основываться на статистических оценках, а именно на оценивании дисперсии. Прямой метод сравнения двух некоррелированных альтернатив, когда оценивается разность ожидаемых значений, состоит в следующем:

1. получается равное число реплик n для обеих альтернатив;

2. составляются пары реплик одного номера из каждой альтернативы;

3. вычисляется разность для каждой пары, а затем определяются среднее значение и стандартное отклонение разности;

4. вычисляется доверительный интервал для разности при разных значениях доверительной вероятности.

Более интересным представляется случай коррелированных выборок разных альтернатив, когда возникает желание найти решение, близкое к оптимальному или лежащее в Парето-оптимальном множестве. Аналитическая идея двухэтапной процедуры поиска лучшей альтернативы из k существующих, была предложена Дадевичем (Д/Д – процедура) [4] и эта процедура прекрасно используется при моделировании с помощью GPSS/H. Рассмотрим основные шаги Д/Д процедуры:

1. получается два и более независимых значения по каждой из сравниваемых альтернатив. БСВ, получаемые с одного ГСЧ, в этом случае не применимы;

2. вычисляются различные статистики, но в обязательном порядке выборочные среднее и стандартное отклонение;

3. для каждой альтернативы проводятся дополнительные, независимые испытания, количество испытаний варьируется от типа исследуемой задачи и может меняться от альтернативы к альтернативе. Это является вторым этапом Д/Д процедуры;

4. для каждой альтернативы по результатам этапов 1 и 2 ищутся взвешенные статистики, причём объёмы первой и второй выборки не обязательно совпадают;

5. альтернатива с наибольшим или наименьшим (в зависимости от условий задачи) значением статистики признаётся лучшей.

Д/Д процедура оговаривает нормальность распределения выходных значений, но, что весьма важно, не требует равенства дисперсий исходных ГС. Опишем параметры, влияющие на второй этап Д/Д процедуры, а именно определение размера второй выборки.

Влияние дисперсии выборки первого этапа. Чем выше выборочная дисперсия на первом этапе, тем больше должен быть объём выборки второго этапа при прочих равных условиях. Поскольку выборочная дисперсия различных альтернатив различна, то объём выборки второго этапа для каждой альтернативы будет различным и прямо пропорциональным выборочной дисперсии первого этапа для рассматриваемой альтернативы.

Вероятность принятия правильного решения. Поскольку мы имеем дело со случайными векторами в Парето-оптимальном множестве и пользуемся псевдо-случайными числами всегда существует вероятность неверного выбора. Поэтому, получаемые решения должны оцениваться задаваемым уровнем доверительной вероятности от 90% и выше. При этом очевидно, что чем больше уровень задаваемой доверительной вероятности, тем больший объём выборки второго этапа необходимо выбирать.

Уровень безразличия. Исследователю необходимо задать уровень ошибки, ниже которого все результаты будут признаваться аналогичными. Так, выходными характеристиками может быть стоимость, производительность, потери, процент брака и т. д. Если, например, задать процент брака 0,5%, то уровень безразличия позволит считать хорошими системы с выходными характеристиками 99,5% и выше. Естественно, что стремление понизить уровень безразличия будет приводить к увеличению объёма выборки. Вообще, чтобы быть точным, объём выборки второго этапа обратно пропорционален квадрату значения безразличия.

Из перечисленных параметров очевидно, что определение объёма выборки второго этапа является достаточно сложной проблемой. Приведём основные уравнения, которые используются на втором и четвёртом шагах Д/Д процедуры.

Рассмотрим гипотетический пример фабрики, на которой работает какое-то количество собственных станков, которые могут отказывать в процессе эксплуатации, для поддержания объёма производства и для устранения дефектов, во-первых, арендуется дополнительный станок и, во вторых, имеется несколько ремонтников. В таблице 1 представлены значения выборочных среднего  и стандартного отклонения s для x =0,1 арендуемых станков и y = 1,2 ремонтных рабочих на этапе первоначальной выборки.

Таблица 1

Значение статистик для 4-х альтернатив, выраженных в стоимости

x

y

0

1

1


s

12833
1227

14140
1439

2


s

12490
242

12845
555

 

Среди указанных 4-х альтернатив необходимо выбрать такую, которая приводит к минимальной стоимости за день. Полученные данные являются основой для получения размера выборки второго этапа при принятом уровне доверительной вероятности 95% и уровне безразличия 300 рублей в день. Положим, что n0 начальный объём выборки первого этапа, N– общий объём выборки после добавления выборки второго этапа для каждой рассматриваемой альтернативы, N–n0 – объём выборки, добавляемой на втором этапе. Тогда значение N определится из следующего выражения:

N = max {n0 + 1,[(h1s / d)2]}                                                              (1.1),

где s – выборочное стандартное отклонение рассматриваемой альтернативы,
d – уровень безразличия, одинаковый для всех альтернатив,
h1 – коэффициент, зависящий от: – размера первоначальной выборки n0,принятого уровня доверительной вероятности P%, – числа рассматриваемых альтернатив k 2..

Вычислим объёмы выборки для 4-х альтернатив таблицы 1при P =95%, k=4,
n0 =15, d= 300.
Данные сведены в таблицу 2, где, числа внутри таблицы представляют значение выражения (1.1) – [(h1s/d)2] и через / добавляемый объём выборки второго этапа N–n0, а значения x – число арендуемых станков, а y – число ремонтников.

Таблица 2

Объём выборки второго этапа

Номер альтернативы

1

2

3

4

Комбинация x, y

0,1

1,1

0,2

1,2

Значения [(h1s/d)2] / N- n0

158,12/144

217,4/203

6,16/1

32,34/18

Среднее значение стоимости по 2-му этапу (р)

13120/13090

14235/14277

12160/12565

12920/12878

Значения W0/W1

0,116/0,184

0,082/0,918

1,243/- 0,243

0,526/0,474

 

Как видно из таблицы, объём выборки второго этапа варьируется от 1 до 203 в зависимости от стандартного отклонения выборки первого этапа. Объём выборки второго этапа может быть уменьшен при уменьшении значения доверительной вероятности и / или увеличении уровня безразличия. После проведения испытаний с увеличенным объёмом выборки подсчитывается среднее взвешенное значение. В предпоследней строке таблицы 2 приведены средние значения стоимостей второго этапа, начальных и уточнённых после взвешивания по формуле (1.2). Для каждой альтернативы, по выборкам первого и второго этапов, подсчитываются средние значения, которые затем взвешиваются и складываются. Вес W0 для выборки первого этапа для каждой альтернативы подсчитывается на основе выражения:

W0= (n0 / N)                  (1.2)

А значение весового коэффициента W1 для выборки второго этапа каждой из альтернатив определится как W1 = 1 – W0.Значения коэффициентов приведены в последней строке таблицы 2. Отметим, что для альтернативы № 3 «2 механика, 0 арендованных машин» коэффициент первого этапа оказался больше единицы, что привело к отрицательному коэффициенту на втором этапе, а это именно та альтернатива, объём выборки для которой увеличился всего на единицу. С доверительной вероятностью 95% наименьшая стоимость относится как раз к этой альтернативе, которая имеет стоимость 12565 рублей в день и при заданном уровне безразличия должна быть выбрана как лучшая.

Выводы

  1. В статье рассмотрены вопросы сокращения объёма испытаний за счёт применения антитез при сохранении величины дисперсии или даже её уменьшения.
  2. Рассмотрен метод выбора лучшей альтернативы при ИМ за счёт использования двухэтапной D/D процедуры.

Литература

1.        Варжапетян А.Г. Системы управления. М. Вузовская книга 2000

2.        Варжапетян А.Г. Имитационное моделирование на GPSS/H М. Вузовская книга 2003

3.        Харин Ю.С. Основы ИМ. Минск Дизайн-Про 1997

4.        Dudewicz E. Modern Statistical and GPSS Simulation CRC Press 1999

Schriber T. Introduction to Simulation Using GPSS/H NY John Willey & Sons 1991