1.INTRODUCTION Sejumlah besar proyek bisnis terlibat dalam siklus hidup barang-barang insinyur-untuk-memesan seperti bangunan. Kita dibanjiri banjir data hari ini. Dalam rentang luas area aplikasi, data sedang dikumpulkan di luar biasa skala. Keputusan yang sebelumnya didasarkan pada dugaan, atau pada model realitas yang dibangun dengan susah payah, bisa sekarang dibuat berdasarkan data itu sendiri. Analisis Data Besar tersebut sekarang mendorong hampir setiap aspek masyarakat modern kita, termasuk layanan seluler, ritel, manufaktur, keuangan layanan, ilmu kehidupan, dan ilmu fisika. Penelitian ilmiah telah direvolusi oleh Big Data. Bidang Astronomi sedang diubah dari satu di mana mengambil gambar langit adalah bagian besar dari pekerjaan astronomer ke satu tempat semua gambar berada dalam database sudah dan tugas astronom adalah untuk menemukannya objek dan fenomena menarik dalam database. Membayangkan sebuah dunia di mana kita memiliki akses ke basis data besar di mana kami mengumpulkan setiap ukuran detail dari setiap siswa prestasi akademik. Data ini dapat digunakan untuk mendesain pendekatan yang paling efektif untuk pendidikan, mulai dari membaca, menulis, dan matematika, hingga mahir, tingkat perguruan tinggi, kursus. Kami jauh dari memiliki akses ke data tersebut, tetapi ada tren kuat dalam arah ini. Khususnya, ada tren kuat untuk penyebaran Web besar – besaran kegiatan pendidikan, dan ini akan menghasilkan semakin banyak sejumlah besar data terperinci tentang kinerja siswa. Selama 20 tahun terakhir, data telah meningkat dalam skala besar di berbagai bidang. Menurut laporan dari International Data Corporation (IDC), pada 2011, keseluruhan dibuat dan volume data yang disalin di dunia adalah 1,8ZB (≈1021B) [1]. Yang meningkat hampir sembilan kali dalam lima tahun. Angka ini akan berlipat ganda setidaknya setiap dua tahun dalam waktu dekat. Baru-baru ini, industri menjadi tertarik pada potensi besar data besar, dan banyak pemerintah agensi mengumumkan rencana besar untuk mempercepat data besar penelitian dan aplikasi [2]. Selain itu, masalah pada data besar sering diliput di media publik, seperti The Economist [3, 4], New York Times [5], dan Radio Publik Nasional [6,7]. Dua jurnal ilmiah utama, Alam dan Sains, juga membuka kolom khusus untuk membahas tantangan dan dampak big data [8, 9]. Era big data telah tiba tanpa keraguan [10]. Kapasitas arsitektur TI dan infrastruktur perusahaan yang ada, dan realtime-nya Persyaratan juga akan sangat menekankan komputasi yang tersedia kapasitas. Semakin banyak data menyebabkan masalah bagaimana caranya menyimpan dan mengelola dataset heterogen yang sangat besar dengan persyaratan moderat pada perangkat keras dan perangkat lunak infrastruktur. Saat ini, data besar terkait dengan layanan Perusahaan internet berkembang pesat. Misalnya, Google memproses data ratusan Petabyte (PB), Facebook menghasilkan data log lebih dari 10 PB per bulan, Baidu, a Perusahaan China, memproses data puluhan PB, dan Taobao, anak perusahaan dari Alibaba menghasilkan data puluhan Terabyte (TB) untuk perdagangan online per hari.
2. MENGETAHUI BIG DATA Big data adalah konsep abstrak. Terlepas dari massa data, ini juga memiliki beberapa fitur lain, yang menentukan perbedaan antara dirinya dan "data besar" atau "sangat besar data." ATAU "Data besar adalah kumpulan set data yang sangat besar dan kompleks bahwa menjadi sulit untuk diproses menggunakan basis data di tangan alat manajemen atau pemrosesan data tradisional aplikasi. Tantangannya termasuk penangkapan, kurasi, penyimpanan, pencarian, berbagi, transfer, analisis, dan visualisasi. "
Big Data mengacu pada manajemen basis data baru dan analitik pendekatan yang dikembangkan untuk menganalisis, menyimpan, dan memanipulasi data besar atau kompleks. Investasi dalam Big Data termasuk yang ada di sumber daya manusia (mis., Ilmuwan data) dan dalam solusi bisnis dan teknologi, termasuk platform manajemen basis data (mis., Hadoop, IBM / Netezza), kemampuan analitik dan visualisasi (mis., Revolution R) atau pemrosesan teks dan streaming waktu-nyata solusi. Big Data mengacu pada dataset yang ukurannya di luar kemampuan alat perangkat lunak basis data khas untuk menangkap, menyimpan, mengelola dan menganalisis. Tidak ada definisi eksplisit tentang caranya set data yang besar harus dianggap Data Besar. Teknologi baru harus ada untuk mengelola Big Data ini fenomena. IDC mendefinisikan teknologi Big Data sebagai yang baru generasi teknologi dan arsitektur yang dirancang untuk ekstrak nilai secara ekonomis dari volume yang sangat besar dari a berbagai macam data dengan mengaktifkan penangkapan kecepatan tinggi, penemuan dan analisis. Data besar adalah data yang melebihi kapasitas pemrosesan sistem basis data konvensional. Itu data terlalu besar, bergerak terlalu cepat, atau tidak sesuai dengan struktur arsitektur database yang ada. Untuk mendapatkan nilai dari ini data, harus ada cara alternatif untuk memprosesnya. Pada akhir 1970-an, konsep "mesin database" muncul, yang merupakan teknologi yang khusus digunakan untuk menyimpan dan menganalisis data. Dengan meningkatnya volume data, maka kapasitas penyimpanan dan pemrosesan satu mainframe sistem komputer menjadi tidak memadai. Pada 1980-an, orang-orang mengusulkan "tidak berbagi," sistem database paralel, untuk memenuhi permintaan volume data yang meningkat. [11] Itu berbagi apa pun arsitektur sistem didasarkan pada penggunaan cluster dan setiap mesin memiliki prosesor, penyimpanan, dan disk. Sistem data tera adalah yang pertama berhasil sistem database paralel komersial. Database seperti itu menjadi sangat populer belakangan ini. Pada 2 Juni 1986, tonggak sejarah Peristiwa terjadi ketika Teradata mengirimkan paralel pertama sistem basis data dengan kapasitas penyimpanan 1TB hingga Kmart untuk membantu perusahaan ritel berskala besar di Amerika Utara perluas gudang datanya. [12] Pada akhir 1990-an, the kelebihan dari database paralel diakui secara luas di bidang basis data. Namun, banyak tantangan pada data besar muncul. Dengan perkembangan layanan internet, indeks dan konten yang ditanyakan dengan cepat tumbuh. Karena itu, perusahaan mesin pencari harus menghadapi tantangan menangani data sebesar itu. Google menciptakan GFS [13] dan Model pemrograman MapReduce [14] untuk mengatasi tantangan yang ditimbulkan oleh manajemen dan analisis data pada skala internet. Selain itu, konten yang dihasilkan oleh pengguna, sensor, dan sumber data di mana-mana juga dibuat aliran data yang luar biasa, yang membutuhkan fundamental perubahan pada arsitektur komputasi dan data skala besar mekanisme pemrosesan. Saat ini, data telah menjadi faktor produksi penting yang bisa dibandingkan dengan aset material dan manusia modal. Seperti multimedia, media sosial, dan IoT berkembang, perusahaan akan mengumpulkan lebih banyak informasi, terkemuka meningkatkan volume besar dan heterogenitas besar data. Komunitas riset telah mengusulkan beberapa solusi dari berbagai perspektif. Misalnya, komputasi awan digunakan untuk memenuhi persyaratan infrastruktur besar data, mis., efisiensi biaya, elastisitas, dan kelancaran menurunkan peringkat.
3. KARAKTERISTIK DATA BESAR Karakteristik big data tergantung pada ketiganya faktor yang meliputi Kecepatan Data, Volumn Data dan Variasi data. Big Data bukan hanya tentang ukuran data tetapi juga termasuk variasi data dan kecepatan data. ini adalah tiga V dari Data Besar. [1]
VarietasAspek selanjutnya dari Big Data adalah variasinya. Ini berarti bahwa kategori tempat Big Data berada juga fakta yang sangat penting yang perlu diketahui oleh data analis. Ini membantu orang-orang, yang menganalisis dengan cermat data dan terkait dengannya, untuk secara efektif menggunakan data untuk keuntungan mereka dan dengan demikian menjunjung tinggi pentingnya dari Big Data. VelocityIstilah 'velocity' dalam konteks ini merujuk pada kecepatan pembuatan data atau seberapa cepat data tersebut dihasilkan dan diproses untuk memenuhi permintaan dan tantangan yang ada di depan di jalur pertumbuhan dan pengembangan. VariabilitasIni adalah faktor yang bisa menjadi masalah bagi mereka yang menganalisis data. Ini mengacu pada ketidakkonsistenan yang dapat ditunjukkan oleh data pada waktu, sehingga menghambat proses untuk dapat menangani dan mengelola data secara efektif. KompleksitasManajemen data dapat menjadi sangat kompleks proses, terutama ketika volume besar data berasal berbagai sumber. Data-data ini perlu dihubungkan, dihubungkan, dan dikorelasikan agar dapat memahami informasi tersebut yang seharusnya disampaikan oleh data ini. Ini Oleh karena itu, situasi ini disebut sebagai 'kompleksitas' Big Data. Data datang terutama dalam dua bentuk : 1. Terstruktur, dan 2. Data Tidak Terstruktur (ada juga data semi-terstruktur - misalnya. XML) Data terstruktur memiliki makna semantik yang melekat padanya sedangkan data tidak terstruktur tidak memiliki makna laten. Pertumbuhan data yang kami rujuk adalah yang paling data tidak terstruktur. Di bawah ini adalah beberapa contoh yang tidak terstruktur data 1. Panggilan, teks, tweet, surfing internet, menelusuri berbagai situs web setiap hari dan bertukar pesan melalui beberapa situs cara. 2. Penggunaan media sosial untuk beberapa juta orang bertukar data dalam berbagai bentuk juga merupakan bagian dari Big Data. 3. Transaksi dilakukan melalui kartu untuk berbagai pembayaran masalah dalam jumlah besar setiap detik di seluruh dunia juga merupakan Big Data. Semoga posting ini memberi Anda cukup informasi tentang Big Data dan dalam posting mendatang, kita akan melihat - Aplikasi Big Data yaitu Big Data Analytics, Karier di Big Data - Dari Insinyur Perangkat Lunak hingga menjadi Data Ilmuwan, Hadoop dan Aplikasi. Menangani tiga V membantu organisasi mengekstraksi nilai Data Besar. Nilainya datang dalam mengubah tiga V menjadi ketiganya adalah: 1. Intuisi informasi: memprediksi kemungkinan kejadian di masa depan dan tindakan apa yang lebih mungkin untuk berhasil.
2. Kecerdasan: melihat apa yang terjadi sekarang secara nyata waktu (atau dekat dengan waktu nyata) dan menentukan tindakan untuk mengambil. 3. Wawasan: meninjau kembali apa yang telah terjadi dan menentukan tindakan yang harus diambil.
4. TANTANGAN DATA BESAR Banjir data yang meningkat tajam di era data besar membawa tantangan besar pada akuisisi data, penyimpanan, manajemen dan analisis. Manajemen data tradisional dan sistem analisis didasarkan pada basis data relasional sistem manajemen (RDBMS). Namun, RDBMS tersebut hanya berlaku untuk data terstruktur, selain semi-terstruktur atau data tidak terstruktur. Selain itu, RDBMS semakin meningkat memanfaatkan perangkat keras yang semakin mahal. Ini rupanya RDBMS tradisional tidak dapat menangani volume besar dan heterogenitas data besar. Itu komunitas riset telah mengusulkan beberapa solusi dari perspektif yang berbeda. Sebagai contoh, komputasi awan digunakan untuk memenuhi persyaratan infrastruktur untuk data besar, mis., biaya efisiensi, elastisitas, dan peningkatan / penurunan yang mulus. Untuk solusi penyimpanan permanen dan manajemen dataset gangguan skala besar, sistem file terdistribusi dan Database NoSQL adalah pilihan yang baik. Pemrograman seperti itu kerangka kerja telah mencapai sukses besar dalam pemrosesan tugas berkerumun, terutama untuk peringkat halaman web. Berbagai aplikasi big data dapat dikembangkan berdasarkan ini teknologi atau platform inovatif. Selain itu, tidak penting untuk menggunakan sistem analisis data besar. Beberapa literatur [15-16] membahas hambatan dalam pengembangan aplikasi big data. Tantangan utama terdaftar sebagai berikut: - Representasi data: banyak set data memiliki level tertentu heterogenitas dalam jenis, struktur, semantik, organisasi, rincian, dan aksesibilitas. Representasi data bertujuan untuk membuat data lebih bermakna untuk analisis komputer dan pengguna interpretasi. Namun demikian, data yang tidak benar representasi akan mengurangi nilai data asli dan bahkan dapat menghambat analisis data yang efektif. Data yang efisien representasi harus mencerminkan struktur data, kelas, dan jenis, seperti serta teknologi terintegrasi, sehingga memungkinkan efisien operasi pada dataset yang berbeda. - Redundansi reduksi dan kompresi data: umumnya, ada tingkat redundansi yang tinggi dalam dataset. Redundansi reduksi dan kompresi data efektif untuk mengurangi biaya tidak langsung dari seluruh sistem pada premis bahwa nilai potensial dari data tidak terpengaruh. Sebagai contoh, sebagian besar data yang dihasilkan oleh jaringan sensor sangat tinggi redundan, yang dapat disaring dan dikompresi atas perintah besarnya. - Data manajemen siklus hidup: dibandingkan dengan yang relatif kemajuan lambat dari sistem penyimpanan, penginderaan yang meresap dan Komputasi menghasilkan data pada tingkat yang belum pernah terjadi sebelumnya dan sisik. Kami dihadapkan dengan banyak tantangan mendesak, salah satunya adalah sistem penyimpanan saat ini tidak bisa mendukung data masif seperti itu. Secara umum, nilai-nilai tersembunyi dalam data besar tergantung pada kesegaran data. Oleh karena itu, a prinsip pentingnya data terkait dengan nilai analitis harus dikembangkan untuk memutuskan data mana yang harus disimpan dan data mana yang akan dibuang.
- Mekanisme analitik: sistem analitik data besar harus memproses massa data heterogen dalam waktu terbatas waktu. Namun, RDBMS tradisional dirancang dengan ketat dengan kurangnya skalabilitas dan pengembangan, yang bisa tidak memenuhi persyaratan kinerja. Non-relasional database telah menunjukkan keunggulan unik mereka di pemrosesan data yang tidak terstruktur dan mulai menjadi arus utama dalam analisis data besar. Meski begitu, masih ada beberapa masalah database nonrelasional di dalamnya kinerja dan aplikasi tertentu. Kami akan menemukan solusi kompromi antara RDBMS dan basis data non-relasional. Sebagai contoh, beberapa perusahaan telah menggunakan arsitektur database campuran itu mengintegrasikan keunggulan kedua jenis basis data (mis., Facebook dan Taobao). Diperlukan lebih banyak penelitian tentang basis data dan sampel data berdasarkan perkiraan analisis. - Kerahasiaan data: sebagian besar penyedia layanan data besar atau pemilik saat ini tidak dapat secara efektif memelihara dan menganalisis kumpulan data sedemikian besar karena keterbatasannya kapasitas. Mereka harus bergantung pada profesional atau alat untuk menganalisis data tersebut, yang meningkatkan potensi risiko keselamatan. Sebagai contoh, dataset transaksional umumnya mencakup a set data operasi lengkap untuk mendorong bisnis utama proses. Data tersebut berisi perincian granularity terendah dan beberapa informasi sensitif seperti kredit nomor kartu. Karena itu, analisis big data mungkin dikirim ke pihak ketiga untuk diproses hanya jika layak langkah-langkah pencegahan diambil untuk melindungi sensitif tersebut data, untuk memastikan keamanannya. - Manajemen energi: konsumsi energi sistem komputasi mainframe telah menarik banyak perhatian baik dari perspektif ekonomi dan lingkungan peningkatan volume data dan tuntutan analitis, pemrosesan, penyimpanan, dan pengiriman data besar akan mau tidak mau mengkonsumsi energi listrik semakin banyak. Oleh karena itu, kontrol konsumsi daya tingkat sistem dan mekanisme manajemen harus ditetapkan untuk data besar sementara perluasan dan aksesibilitas terjamin. - Expendability dan skalabilitas: sistem analitik besar data harus mendukung dataset saat ini dan masa depan. Itu Algoritme analitis harus dapat memproses lebih banyak memperluas dan dataset yang lebih kompleks. - Kerjasama: analisis data besar adalah interdisipliner penelitian, yang membutuhkan para ahli di berbagai bidang bekerja sama untuk memanen potensi big data. Arsitektur jaringan data besar yang komprehensif harus didirikan untuk membantu para ilmuwan dan insinyur di berbagai bidang mengakses berbagai jenis data dan memanfaatkan sepenuhnya keahlian, sehingga dapat bekerja sama untuk melengkapi analitis tujuan.
5. GENERASI DATA BESAR DAN AKUISISI Secara umum dapat dibagi menjadi empat fase: pembuatan data, akuisisi data, penyimpanan data, dan analisis data. Jika kita ambil data sebagai bahan baku, pembuatan data, dan akuisisi data adalah proses eksploitasi, penyimpanan data adalah penyimpanan proses, dan analisis data adalah proses produksi itu menggunakan bahan baku untuk menciptakan nilai baru. [9]
5.1. Pembuatan Data: Pembuatan data adalah langkah pertama dari big data. Diberikan internet data sebagai contoh, sejumlah besar data dalam hal mencari entri, posting forum Internet, catatan obrolan, dan pesan microblog, dihasilkan. Data itu adalah terkait erat dengan kehidupan sehari-hari orang, dan memiliki kesamaan fitur bernilai tinggi dan kepadatan rendah. Data internet seperti itu mungkin tidak berharga secara individual, tetapi, melalui eksploitasi akumulasi data besar, informasi berguna seperti kebiasaan dan hobi pengguna dapat diidentifikasi, dan itu bahkan mungkin untuk meramalkan perilaku dan suasana hati pengguna. Apalagi dihasilkan melalui longitudinal dan / atau sumber data terdistribusi, dataset lebih besar, sangat beragam, dan kompleks. Sumber data tersebut meliputi sensor, video, aliran klik, dan / atau semua lainnya yang tersedia sumber data. Saat ini, sumber utama big data adalah operasi dan informasi perdagangan di perusahaan, logistik dan penginderaan informasi dalam IoT, informasi interaksi manusia dan informasi posisi di dunia internet, dan data dihasilkan dalam penelitian ilmiah, dll. Informasi jauh melampaui kapasitas arsitektur dan TI infrastruktur perusahaan yang ada, sementara waktu sebenarnya Persyaratan juga sangat menekankan komputasi yang ada kapasitas. 5.2. Akuisisi Data Besar: Sebagai fase kedua dari sistem big data, big data akuisisi meliputi pengumpulan data, pengiriman data, dan pra-pemrosesan data. Selama akuisisi data besar, begitu kita mengumpulkan data mentah, kami akan memanfaatkan yang efisien mekanisme transmisi untuk mengirimnya ke penyimpanan yang tepat sistem manajemen untuk mendukung analitik yang berbeda aplikasi. Kumpulan data yang terkumpul terkadang termasuk banyak data yang berlebihan atau tidak berguna, yang tidak perlu meningkatkan ruang penyimpanan dan memengaruhi data selanjutnya analisis. Misalnya, redundansi tinggi sangat umum antara set data yang dikumpulkan oleh sensor untuk lingkungan pemantauan. Teknologi kompresi data dapat diterapkan mengurangi redundansi. Karena itu, pra-pemrosesan data operasi sangat diperlukan untuk memastikan penyimpanan data yang efisien dan eksploitasi. 5.3. Penyimpanan data besar: Pertumbuhan data yang eksplosif memiliki persyaratan yang lebih ketat pada penyimpanan dan manajemen. Di bagian ini, kami fokus penyimpanan data besar. Penyimpanan data besar mengacu pada penyimpanan dan pengelolaan dataset skala besar sementara mencapai keandalan dan ketersediaan akses data. Kita akan meninjau masalah penting termasuk penyimpanan besar-besaran sistem, sistem penyimpanan terdistribusi, dan penyimpanan data besar mekanisme. Di satu sisi, kebutuhan infrastruktur penyimpanan untuk menyediakan layanan penyimpanan informasi dengan penyimpanan yang andal ruang; di sisi lain, ia harus memberikan akses yang kuat antarmuka untuk kueri dan analisis sejumlah besar data. Secara tradisional, sebagai alat bantu server, penyimpanan data perangkat digunakan untuk menyimpan, mengelola, mencari, dan menganalisis data dengan RDBMS terstruktur. Dengan pertumbuhan data yang tajam, perangkat penyimpanan data menjadi semakin banyak penting, dan banyak perusahaan internet mengejar yang besar kapasitas penyimpanan agar kompetitif. Karena itu, ada a kebutuhan mendesak untuk penelitian tentang penyimpanan data. Sistem penyimpanan untuk data masif. Berbagai sistem penyimpanan muncul untuk memenuhi permintaan data besar-besaran. Ada teknologi penyimpanan besar dapat diklasifikasikan sebagai Langsung Penyimpanan Terlampir (DAS) dan penyimpanan jaringan, sementara penyimpanan jaringan dapat diklasifikasikan lebih lanjut ke dalam Jaringan Penyimpanan Terlampir (NAS) dan Jaringan Area Penyimpanan (SAN).
Dalam DAS, berbagai harddisk terhubung langsung dengan server, dan manajemen data adalah server-sentris, sedemikian rupa perangkat penyimpanan adalah peralatan periferal, masing-masing membutuhkan sejumlah sumber daya I / O dan dikelola oleh perangkat lunak aplikasi individual. Untuk alasan ini, DAS adalah hanya cocok untuk menghubungkan server dengan skala kecil. Namun, karena skalabilitasnya rendah, DAS akan dipamerkan efisiensi yang tidak diinginkan ketika kapasitas penyimpanan meningkat, mis., peningkatan dan perluasan adalah sangat terbatas. Dengan demikian, DAS terutama digunakan secara pribadi komputer dan server berukuran kecil. Penyimpanan jaringan adalah untuk memanfaatkan jaringan untuk menyediakan pengguna dengan antarmuka gabungan untuk akses dan berbagi data. Jaringan peralatan penyimpanan termasuk pertukaran data khusus peralatan, larik disk, perpustakaan ketuk, dan penyimpanan lainnya media, serta perangkat lunak penyimpanan khusus. Ini ditandai dengan kemampuan pengembangan yang kuat. NAS sebenarnya adalah peralatan penyimpanan tambahan dari a jaringan. Terhubung langsung ke jaringan melalui hub atau beralih melalui protokol TCP / IP. Di NAS, data adalah dikirim dalam bentuk file. Dibandingkan dengan DAS, I / O beban di server NAS berkurang secara ekstensif sejak server mengakses perangkat penyimpanan secara tidak langsung melalui a jaringan. Sementara NAS berorientasi jaringan, SAN khususnya dirancang untuk penyimpanan data dengan scalable dan bandwidth jaringan intensif, mis., jaringan berkecepatan tinggi dengan optik koneksi serat. Di SAN, manajemen penyimpanan data adalah relatif independen dalam jaringan area penyimpanan lokal, di mana multipath berbasis data berpindah antar internal node digunakan untuk mencapai tingkat data maksimum berbagi dan manajemen data. Dari organisasi sistem penyimpanan data, DAS, NAS, dan SAN semuanya dapat dibagi menjadi tiga bagian: (i) disk array: itu adalah dasar dari sistem penyimpanan dan dasar jaminan untuk penyimpanan data; (ii) koneksi dan subsistem jaringan, yang menyediakan koneksi di antara satu disk atau lebih array dan server; (iii) perangkat lunak manajemen penyimpanan, yang menangani berbagi data, pemulihan bencana, dan lainnya tugas manajemen penyimpanan beberapa server. 5.4 Analisis Data: Analisis data besar terutama melibatkan metode analitik untuk data tradisional dan data besar, arsitektur analitik untuk big data, dan perangkat lunak yang digunakan untuk penambangan dan analisis big data. Analisis data adalah yang terakhir dan yang paling penting fase dalam rantai nilai big data, dengan tujuan mengekstraksi nilai yang bermanfaat, memberikan saran atau keputusan. Tingkat potensi nilai yang berbeda dapat dihasilkan melalui analisis dataset di berbagai bidang. Namun, analisis data merupakan bidang yang luas, yang sering dilakukan berubah dan sangat kompleks. Di bagian ini, kita memperkenalkan metode, arsitektur, dan alat untuk data besar analisis. 5.4.1 Analisis Data Tradisional: Analisis data tradisional berarti menggunakan statistik yang tepat metode untuk menganalisis data besar, untuk berkonsentrasi, mengekstrak, dan memperbaiki data yang berguna yang disembunyikan dalam kumpulan dataset kacau, dan untuk mengidentifikasi hukum yang melekat pada materi pelajaran, sehingga untuk memaksimalkan nilai data. Analisis data memainkan peran yang sangat besar peran bimbingan dalam membuat rencana pembangunan untuk suatu negara, memahami permintaan pelanggan untuk perdagangan, dan memprediksi tren pasar untuk perusahaan. Analisis data besar dapat dianggap sebagai teknik analisis untuk jenis khusus data.
Oleh karena itu, banyak metode analisis data tradisional mungkin masih digunakan untuk analisis data besar. Beberapa perwakilan metode analisis data tradisional diperiksa dalam berikut, banyak di antaranya dari statistik dan komputer ilmu. - Analisis Cluster: adalah metode statistik untuk pengelompokan objek, dan secara khusus, mengklasifikasikan objek menurut beberapa fitur. Analisis cluster digunakan untuk membedakan objek dengan fitur tertentu dan membaginya menjadi beberapa kategori (cluster) sesuai dengan fitur ini, sedemikian rupa sehingga objek dalam kategori yang sama akan memiliki homogenitas tinggi sedangkan kategori yang berbeda akan memiliki heterogenitas yang tinggi. Analisis cluster adalah metode studi tanpa pengawasan tanpa data pelatihan. - Analisis Faktor: pada dasarnya ditujukan untuk menggambarkan hubungan di antara banyak elemen dengan hanya beberapa faktor, yaitu, pengelompokan beberapa variabel yang terkait erat menjadi faktor, dan beberapa faktor kemudian digunakan untuk mengungkapkan sebagian besar informasi dari data asli. - Analisis Korelasi: adalah metode analitik untuk menentukan hukum hubungan, seperti korelasi, ketergantungan korelatif, dan saling membatasi, di antara mengamati fenomena dan karenanya melakukan perkiraan dan kontrol. Hubungan semacam itu dapat diklasifikasikan menjadi dua jenis: (i) fungsi, mencerminkan ketergantungan yang ketat hubungan antar fenomena, yang juga disebut a hubungan ketergantungan yang pasti; (ii) korelasi, beberapa hubungan ketergantungan yang tidak ditentukan atau tidak pasti, dan nilai numerik suatu variabel dapat sesuai dengan beberapa nilai numerik dari variabel lain, dan angka tersebut nilai menyajikan fluktuasi teratur di sekitar rata-rata mereka nilai-nilai. - Analisis Regresi: adalah alat matematika untuk mengungkapkan korelasi antara satu variabel dan beberapa lainnya variabel. Berdasarkan sekelompok eksperimen atau yang diamati data, analisis regresi mengidentifikasi ketergantungan hubungan antar variabel yang disembunyikan secara acak. Analisis regresi dapat menjadi kompleks dan tidak dapat ditentukan korelasi antar variabel menjadi sederhana dan teratur. Menurut persyaratan ketepatan waktu, analisis data besar dapat diklasifikasikan ke dalam analisis waktu nyata dan analisis off-line. - Analisis waktu nyata: terutama digunakan dalam E-commerce dan keuangan. Karena data terus berubah, analisis data cepat diperlukan dan hasil analisis harus dikembalikan dengan a penundaan yang sangat singkat. Arsitektur utama analisis realtime yang ada meliputi (i) cluster pemrosesan paralel yang menggunakan database relasional tradisional, dan (ii) berbasis memori platform komputasi. Misalnya, Greenplum dari EMC dan HANA dari SAP keduanya adalah analisis real-time arsitektur. - Analisis offline: biasanya digunakan untuk aplikasi tanpa persyaratan tinggi pada waktu respons, mis., pembelajaran mesin, analisis statistik, dan algoritma rekomendasi. Analisis offline umumnya melakukan analisis dengan mengimpor log ke platform khusus melalui alat akuisisi data. Di bawah pengaturan data besar, banyak perusahaan Internet memanfaatkan arsitektur analisis offline berdasarkan Hadoop secara berurutan untuk mengurangi biaya konversi format data dan meningkatkan efisiensi akuisisi data. Contohnya termasuk Alat sumber terbuka Facebook Scribe, LinkedIn terbuka alat sumber Kafka,
terowongan sumber terbuka alat waktu Taobao, dan Chukwa dari Hadoop, dll. Alat ini dapat memenuhi tuntutan akuisisi dan pengiriman data dengan ratusan MB per detik. Analisis pada berbagai tingkat Analisis data besar juga dapat dilakukan diklasifikasikan ke dalam analisis tingkat memori, Business Intelligence (BI) analisis tingkat, dan analisis tingkat masif, yaitu diperiksa berikut ini. - Analisis tingkat memori: untuk kasus di mana total data volume lebih kecil dari memori maksimum sebuah cluster. Saat ini, memori server cluster melampaui ratusan GB sementara bahkan tingkat TB adalah umum. Oleh karena itu, teknologi basis data internal dapat digunakan, dan data panas harus berada di memori untuk meningkatkan efisiensi analitis. Analisis tingkat memori adalah sangat cocok untuk analisis waktu nyata. Mongo DB adalah a Arsitektur analitik tingkat memori yang representatif. Dengan pengembangan SSD (Solid-State Drive), kapasitasnya dan kinerja analisis data tingkat memori telah lebih ditingkatkan dan diterapkan secara luas. - Analisis BI: untuk kasus ketika skala data melampaui tingkat memori tetapi dapat diimpor ke dalam analisis BI lingkungan Hidup. Saat ini, produk utama BI adalah disediakan dengan rencana analisis data untuk mendukung level atas TB. - Analisis besar-besaran: untuk kasus ketika skala data memiliki sepenuhnya melampaui kapasitas produk BI dan database relasional tradisional. Saat ini, paling masif analisis menggunakan HDFS dari Hadoop untuk menyimpan data dan menggunakan MapReduce untuk analisis data. Analisis paling masif termasuk dalam kategori analisis offline.
6. PELUANG BARU DALAM DATA BESAR Sejak diperkenalkannya internet, kami telah mantap bergerak dari komunikasi berbasis teks ke data yang lebih kaya itu termasuk gambar, video, dan peta interaktif juga metadata terkait seperti informasi lokasi geografis dan perangko waktu dan tanggal. Dua puluh tahun yang lalu, jalur ISDN tidak bisa menangani lebih dari grafis dasar, tetapi hari ini jaringan komunikasi berkecepatan tinggi memungkinkan transmisi tipe data penyimpanan intensif. [17] Misalnya, pengguna smartphone dapat mengambil kualitas tinggi foto dan video dan unggah langsung ke sosial situs jaringan melalui Wi-Fi dan jaringan seluler 3G atau 4G. Kami juga terus meningkatkan jumlah data ditangkap dalam interaksi dua arah, baik orang-perut maupun mesin-ke-mesin, dengan menggunakan telematika dan perangkat telemetri dalam sistem sistem. Bahkan lebih besar yang penting adalah jaringan e-health yang memungkinkan data menggabungkan dan berbagi gambar resolusi tinggi dalam formulir rontgen pasien, CT scan, dan MRI pemangku kepentingan. Kemajuan dalam penyimpanan data dan teknologi penambangan membuatnya mungkin untuk mempertahankan peningkatan jumlah data yang dihasilkan secara langsung atau tidak langsung oleh pengguna dan menganalisanya untuk menghasilkan wawasan baru yang berharga. Sebagai contoh, perusahaan dapat belajar tren pembelian konsumen untuk target pemasaran yang lebih baik. Di
Selain itu, data yang hampir real-time dari ponsel bisa memberikan karakteristik terperinci tentang pembeli yang membantu mengungkapkan proses pengambilan keputusan mereka yang rumit saat mereka berjalan melewati mal. Data besar dapat mengekspos pola perilaku tersembunyi orang dan bahkan menjelaskan niat mereka. Lebih tepatnya, itu dapat menjembatani kesenjangan antara apa yang orang ingin lakukan dan apa yang sebenarnya mereka lakukan serta bagaimana mereka berinteraksi orang lain dan lingkungan mereka. Informasi ini berguna untuk instansi pemerintah serta perusahaan swasta untuk mendukung pengambilan keputusan di berbagai bidang mulai dari hukum penegakan layanan sosial untuk keamanan tanah air. Ini sangat menarik untuk area terapan situasional kesadaran dan pendekatan antisipatif yang diperlukan untuk Penemuan dekat waktu nyata. 7. KESIMPULAN Di sini kita telah memasuki era Big Data. Melalui yang lebih baik analisis volume besar data yang menjadi tersedia, ada potensi untuk membuat kemajuan lebih cepat dalam banyak disiplin ilmu dan meningkatkan keuntungan dan kesuksesan banyak perusahaan. kami meninjau latar belakang dan state-of-the-art data besar. kami perkenalkan latar belakang umum data besar dan ulasan terkait teknologi, seperti bisa komputasi, IoT, pusat data, dan Hadoop. Kemudian kita fokus pada empat fase nilai rantai data besar, yaitu, pembuatan data, akuisisi data, penyimpanan data, dan analisis data. Untuk setiap fase, kami perkenalkan latar belakang umum, bahas teknisnya tantangan, dan tinjau kemajuan terbaru