Paylanmış hesablama mühitində Apache Spark platformasının tətbiq imkanları

Şamil Hacıyev; Firuz Qurbanov

Authors

Şamil Hacıyev Azərbaycan Respublikasının Prezidenti yanında Dövlət İdarəçilik Akademiyası
Firuz Qurbanov Azərbaycan Respublikasının Prezidenti yanında Dövlət İdarəçilik Akademiyası

Keywords:

Apache Spark, böyük verilənlər, paylanmış hesablama, Spark SQL, Spark Streaming, MLlib, verilənlər analitikası

Abstract

Müasir dövrdə rəqəmsal texnologiyaların inkişafı, internet xidmətlərinin genişlənməsi və müxtəlif informasiya sistemlərinin fəaliyyətinin artması nəticəsində yaradılan məlumatların həcmi sürətlə çoxalmaqdadır. Böyük verilənlər (Big Data) adlandırılan bu məlumatların emalı ənənəvi hesablama sistemləri üçün ciddi çətinliklər yaradır və daha məhsuldar texnologiyaların tətbiqini zəruri edir. Bu məqsədlə paylanmış hesablama mühitləri və böyük verilənlərin paralel emalını təmin edən platformalar geniş istifadə olunmağa başlanmışdır. Belə platformalar arasında Apache Spark yüksək məhsuldarlığı, operativ yaddaş əsaslı işləmə mexanizmi və geniş funksional imkanları ilə xüsusi yer tutur. Apache Spark böyük həcmli verilənlərin sürətli emalına imkan verməklə yanaşı, real vaxt məlumat axınlarının təhlili, maşın öyrənməsi və verilənlər analitikası kimi sahələrdə də geniş tətbiq olunur.
Məqalədə Apache Spark platformasının nəzəri əsasları, arxitekturası və iş prinsipi araşdırılmışdır. Spark ekosisteminin əsas komponentləri, o cümlədən Spark SQL, Spark Streaming, MLlib və GraphX modullarının funksional imkanları təhlil edilmişdir. Həmçinin platformanın böyük verilənlərin analitikası, kibertəhlükəsizlik, dövlət informasiya sistemləri və maşın öyrənməsi sahələrində tətbiq imkanları qiymətləndirilmişdir.
Müasir müəssisələr və təşkilatlar tərəfindən böyük verilənlərin emalı üçün geniş istifadə olunan Apache Spark platforması müxtəlif mənbələrdən daxil olan məlumatların inteqrasiyasını və operativ təhlilini təmin edir. Platformanın çevik arxitekturası fərqli verilənlər formatları ilə işləməyə imkan verir və mürəkkəb analitik tapşırıqların yerinə yetirilməsini asanlaşdırır. Bu xüsusiyyətlər Spark-ın böyük verilənlər ekosistemində mühüm mövqeyə malik olmasına şərait yaradır.
Aparılan təhlillər göstərir ki, Apache Spark yüksək sürət, miqyaslana bilmə və çeviklik kimi üstünlüklərə malik olsa da, böyük yaddaş resurslarına olan tələbat və klaster idarəetməsinin mürəkkəbliyi kimi müəyyən məhdudiyyətlər də mövcuddur. Məqalədə bu problemlərin aradan qaldırılması istiqamətində müasir yanaşmalar və platformanın gələcək inkişaf perspektivləri də nəzərdən keçirilmişdir.

Paylanmış hesablama mühitində Apache Spark platformasının tətbiq imkanları

Authors

Keywords:

Abstract

Published

How to Cite

Issue

Section

License