Service Level Management in Cloud Computing - Pareto-Efficient Concurrent Multiple-Issue Negotiations, Reliable Consumer-Side Availability Monitoring and Strategies for Robust Monitor Placement

Melanie Holloway

Monday August 15, 2016

English abstract:

With the emergence of cloud computing, the business-driven evolution of Information Technology has made a further step towards a global Web-based service economy. Cloud computing provides arbitrary highly-configurable computing resources as a service on-demand via the Internet. Cloud providers manage these cloud resources in large data centers, which reduce the consumers’ management effort to a large extent. However, by placing the responsibility for managing these resources on the provider side, consumers lose control over critical aspects, specifically Quality of Service (QoS). In order to address that issue, cloud providers offer socalled Service Level Agreements (SLAs) representing contractual quality guarantees. The SLAs offered by today’s cloud providers are mainly static and, thus, prevent a customization of QoS parameters according to the individual business requirements of enterprise cloud consumers. Furthermore, corresponding monitoring solutions to verify compliance with the SLAs at runtime are also offered by the cloud providers themselves. However, monitoring data obtained in this way does not constitute a reliable evidence base for reporting SLA violations. Therefore, new means for automatically negotiating individual SLAs and provider-independent SLA monitoring are required.
This thesis focuses on a broker acting as a trusted third party residing in the market, offering SLA negotiation and SLA monitoring as a service to cloud consumers. In doing so, we contribute here to a foundation for market-based cloud service provisioning. In order to realize these two capabilities effectively from an enterprise cloud consumer’s perspective, economically efficient agreements and reliable monitoring results are required. For this purpose, we propose the following contributions in this thesis, thereby addressing the shortcomings of existing approaches.
Our first major contribution is the negotiation mechanism CSLAB-Neg.KOM which enables the achievement of economically efficient, so-called Pareto-efficient agreements. In this respect, our envisioned broker, referred to as CSLAB.KOM, acting on behalf of a certain consumer concurrently negotiates over multiple QoS parameters (socalled issues) with multiple providers. Our negotiation mechanism follows a new two-phase meta-strategy. For this purpose, our negotiation mechanism comprises a new negotiation protocol that enhances the well-known Alternate Offers protocol, a new negotiation strategy to be applied in the second phase (denoted as GRiP-based strategy) based on the individual Greed, Risk, and Patience levels of the negotiating parties, as well as a corresponding negotiation algorithm. That algorithm defines the behavior of the negotiating parties when applying our new GRiP-based strategy. Alongside that strategy we also apply existing time-dependent strategies in the first phase of our meta-strategy. The target performance of our negotiation mechanism is validated based on simulations which incorporate data from real cloud providers.
As second contribution, we present the monitoring approach CSLAB-Mon.KOM, which allows reliable monitoring of the availability of cloud services from a consumer’s perspective. We focus on availability in this thesis since uptime guarantees are the very few QoS guarantees specified in today’s cloud SLAs. In order to achieve reliable monitoring results, our monitoring approach is location-aware in order to determine whether a real SLA violation occurred in the cloud provider’s control sphere or another incident happened, resource-aware in order to identify the affected resources and corresponding SLA clause, and accurate. Concerning accuracy, we provide decision support for determining an appropriate monitoring frequency and required sample size. This is in order to obtain results at a certain confidence level as well as a minimum required timeout period in the presence of network impairments in terms of packet loss in order to prevent a decrease in accuracy. We evaluate the accuracy of our monitoring approach in testbed experiments based on a prototypical implementation of our approach and a real cloud service.
Finally, our third major contribution comprises strategies for robust cloud monitor placement, summarized under the term CSLAB-Loc.KOM, since a reliable infrastructure constitutes a prerequisite in order to be able to obtain reliable monitoring results. For this purpose, we first formulate the considered Robust Cloud Monitor Placement Problem (RCMPP) as a mathematical optimization model and then transform the resulting non-linear multi-objective optimization problem into a linear single-objective optimization problem while taking a worst case perspective. In doing so, we are then able to apply off-the-shelf methods for solving corresponding instances of the problem exactly. This results in the exact solution approach CSLAB-Loc-Exa.KOM. However, since the exact approach exhibits exponential time complexity which prevents the application of that approach to large-scale problem instances in practice, we also propose two heuristic approaches which both exhibit polynomial time complexity. While the first heuristic CSLAB-Loc-Start.KOM constitutes an opening procedure, the second heuristic CSLAB-Loc-Imp.KOM represents an improvement procedure which can be used in order to further improve the quality of the solution obtained from the first heuristic. All strategies are evaluated in the scope of simulations by incorporating data from real cloud providers and Internet performance statistics.

German abstract:

Mit dem Aufkommen von Cloud Computing hat die geschäftsgetriebene Evolution  der  IT  einen  weiteren  Schritt  in  Richtung  einer  globalen  webbasierten Dienstleistungsgesellschaft gemacht. Cloud Computing ermöglicht die Bereitstellung beliebiger hochkonfigurierbarer IT-Ressourcen in Form eines Dienstes ad-hoc auf  Anfrage  von  Nutzern  über  das  Internet.  Die  Verwaltung  dieser  IT-Ressourcen obliegt den Cloud-Anbietern und erfolgt in Form großer Rechenzentren, so dass der Verwaltungsaufwand für Nutzer auf ein Minimum reduziert wird. Jedoch stellt diese Übertragung der Verantwortlichkeiten an den Cloud-Anbieter auch gleichzeitig für die Nutzer einen Kontrollverlust über kritische Aspekte, insbesondere die Dienstgüte der Cloud-Dienste dar. Um dieser Problematik zu begegnen, bieten Cloud-Anbieter sogenannte  Dienstgütevereinbarungen  (Service  Level  Agreements  -  SLAs)  an,  welche  vertraglich  zugesicherte  Qualitätsgarantien  beinhalten.  Die  von  den  heutigen Cloud-Anbietern  bereitgestellten  SLAs  sind  jedoch  in  den  meisten  Fällen  statisch und  verhindern  somit  eine  Anpassung  der  Dienstgüte  der  Cloud-Dienste  an  die individuellen Anforderungen von Geschäftskunden. Des Weiteren werden zugehörige Lösungen zur Überwachung der Einhaltung der jeweiligen SLAs zur Laufzeit ebenfalls  von  Cloud-Anbietern  bereitgestellt.  Jedoch  können  Überwachungsdaten, die auf diesem Wege erhalten werden, nicht als zuverlässsige Quelle für die Anzeige von SLA-Verletzungen angesehen werden. Daher sind neue Ansätze erforderlich, die eine automatisierte Aushandlung individueller SLAs als auch eine vom Anbieter unabhängige Überwachung dieser SLAs ermöglichen.
Im Fokus dieser Arbeit wird ein Intermediär in Form eines Brokers betrachet, der als vertrauenswürdige Drittpartei im Markt agiert und eine Aushandlung als auch eine Überwachung von SLAs als Dienstleistungen für Cloud-Nutzer anbietet. In diesem  Sinne  trägt  die  vorliegende  Arbeit  zur  Schaffung  einer  grundlegenden  Basis für eine marktbasierte Bereitstellung von Cloud-Diensten bei. Um eine effektive Bereitstellung der beiden zuvor genannten Dienste aus Sicht von Geschäftskunden zu ermöglichen,  sind  ökonomisch  effiziente  Vertragsabschlüsse  als  auch  zuverlässige Ergebnisse in Bezug auf die Überwachung erforderlich. Zu diesem Zweck liefert die vorliegende Arbeit die nachfolgenden Beiträge.
Den ersten maßgeblichen Beitrag dieser Arbeit stellt der Verhandlungsmechanismus  CSLAB-Neg.KOM  dar,  der  es  ermöglicht,  ökonomisch  effiziente,  sogenannte Pareto-effiziente Vertragsabschlüsse zu erzielen. Der vorgesehene Broker (bezeichnet als  CSLAB.KOM)  führt  zu  diesem  Zweck  parallele  Verhandlungen  über  mehrere Dienstgüteparameter mit mehreren Cloud-Anbietern im Namen eines Kunden. Der entwickelte Verhandlungsmechanismus folgt dabei einer Zwei-Phasen-Metastrategie. Zu diesem Zweck umfasst der Verhandlungsmechanismus ein neues Verhandlungsprotokoll, welches das etablierte Alternate-Offers-Protokoll erweitert, eine neue Verhandlungsstrategie zur Anwendung während der zweiten Phase (als GRiP-basierte Strategie  bezeichnet)  basierend  auf  der  Gier,  den  individuellen  Risikoniveaus,  als auch der Persistenz der verhandelnden Parteien, und darüber hinaus einen zugehörigen Verhandlungsalgorithmus. Dieser definiert das Verhalten der Verhandlungspartner  bei  Anwendung  der  GRiP-basierten  Strategie.  Neben  dieser  Strategie  kommen existierende, zeitabhängige Strategien in der ersten Phase der Metastrategie zum Einsatz. Die angestrebte Leistungsfähigkeit des Verhandlungsmechanismus wird mittels Simulationen validiert, die Daten realer Cloud-Anbieter mit einbeziehen.
Als  zweiter  Hauptbeitrag  wird  der  Ansatz  CSLAB-Mon.KOM  zur  zuverlässigen Überwachung  der  Verfügbarkeit  von  Cloud-Diensten  aus  Kundensicht  vorgestellt. Der Fokus dieser Überwachungslösung liegt auf der Verfügbarkeit, da diese einen der  wenigen  Dienstgüteparameter  darstellt,  die  durch  heutige  Cloud-SLAs  erfasst werden.  Für  den  Erhalt  zuverlässiger  Überwachungsdaten  ist  der  vorgestellte  Ansatz lokationssensitiv, zur Erkennung wirklicher SLA-Verletzungen innerhalb der Kontrollsphäre  eines  Cloud-Anbieters  im  Gegensatz  zu  anderweitigen  Störungen, ressourcensensitiv, zur Bestimmung der betroffenen Ressourcen und zugehörigen SLA-Klauseln, als auch präzise. Zur präzisen Bereitstellung von Überwachungdaten stellt die vorliegende Arbeit Entscheidungsunterstützung in zweierlei Hinsicht bereit. Zum einen ermöglicht der entwickelte Ansatz die Bestimmung einer geeigneten Überwachungsfrequenz und benötigten Stichprobengröße, um ein bestimmtes Konfidenzniveau zu erreichen, zum anderen die Berechnung einer minimal erforderlichen Auszeit unter gegebenen existierenden Störungen im Netzwerk in Form von Paketverlusten zur Verhinderung einer Abnahme der Präzision der Ergebnisse. Die Präzision der  Überwachungsergebnisse  wurde  in  Form  von  Experimenten  in  einer  Testumgebung  validiert.  Zu  diesem  Zweck  wurde  der  Überwachungsansatz  prototypisch implementiert und ein echter Cloud-Dienst überwacht.
Abschließend  beinhaltet  der  dritte  Hauptbeitrag  dieser  Arbeit  Strategien  zur  robusten Platzierung von Cloud-Überwachungseinheiten, zusammengefasst unter dem Begriff CSLAB-Loc.KOM, da eine zuverlässige Infrastruktur eine Voraussetzung für die Bereitstellung zuverlässiger Überwachungsdaten darstellt. Zu diesem Zweck wird das betrachtete Robust Cloud Monitor Placement Problem (RCMPP) zunächst als mathematisches Optimierungsmodell formuliert. Da es sich bei dem resultierenden Problem um ein nicht-lineares Optimierungsproblem mit Mehrfachzielsetzung handelt, wird  dieses  anschließend  mittels  vorgeschlagener  Transformationen  in  ein  lineares Optimierungsproblem mit Einfachzielsetzung überführt. Die Transformationen beruhen dabei auf der Betrachtung eines Worst-Case-Szenarios. Der Erhalt eines linearen Optimierungsproblems mit Einfachzielsetzung ermöglicht die Anwendung standardisierter Verfahren zum Erhalt einer exakten Lösung. Der aus den Transformationen resultierende exakte Lösungsansatz CSLAB-Loc-Exa.KOM besitzt jedoch exponentielle Laufzeitkomplexität und ist somit nicht auf größere Probleminstanzen aus der Praxis anwendbar. Aus diesem Grund wurden im Rahmen dieser Arbeit noch zwei heuristische Ansätze entwickelt, die beide polynomielles Laufzeitverhalten aufweisen. Während es sich bei der ersten Heuristik CSLAB-Loc-Start.KOM um ein Eröffnungsverfahren handelt, stellt die zweite Heuristik CSLAB-Loc-Imp.KOM ein Verbesserungsverfahren  dar,  das  dazu  genutzt  werden  kann,  die  Güte  der  Lösungen,  die  mit  dem  Eröffnungsverfahren erhalten wurden, noch weiter zu verbessern. Alle Strategien wurden mittels Simulationen evaluiert, die reelle Daten von Cloud-Anbietern als auch Internet-Leistungsstatistiken mit einbeziehen.

PhD Theses