Browsing merupakan aktivitas
menjelajahi dunia maya (Internet) untuk mencari informasi yang terkini tanpa
batas dan tanpa birokrasi atau dikenal juga dengan istilah surfing internet
(berselancar di dunia maya), software yang digunakan dikenal dengan nama web
browser. Beberapa contoh web browser
adalah Mozilla Firefox, Internet aexplorer, Opera, Chrome, dll.
Dalam beberapa tahun terakhir,
perkembangan Internet telah didefinisikan kembali berbagai bidang hiburan, khususnya, yaitu
musik. Hari ini, real-time Internet Real audio streaming musik dan MP3 secara
teratur dinikmati oleh jutaan pendengar. Makalah ini menyajikan multimedia yang
berpusat manusia audio (audio informasi) sistem pencarian melalui jaringan
komputer.
Karya ini juga telah diurus
memainkan audio yang terus-menerus tanpa ada data yang mengganggu dengan
menerapkan mekanisme streaming dan buffering. Arsitektur sistem client-server
berikut model. Database digunakan untuk menyimpan informasi metadata audio.
Server audio yang bertanggung jawab untuk mengambil informasi dari database
untuk memenuhi permintaan klien. Klien menyediakan antarmuka komputer manusia
untuk pengguna melalui antarmuka pengguna grafis untuk browsing, mencari dan
memainkan audio yang menarik melalui jaringan. Berdasarkan masukan klien
permintaan pengguna ke server untuk mendapatkan informasi audio (seperti daftar
film-film bahasa tertentu, daftar lagu-lagu film tertentu dan daftar lagu
berdasarkan pencocokan pengguna memasukkan teks lirik). Audio pengambilan
informasi dari basis data akan dilakukan oleh server berbasis teks menggunakan
metode pencarian.
Browsing Audio Data merupakan metode
browsing jaringan yang digunakan untuk browsing video / audio data yang
ditangkap oleh sebuah IP kamera. Sebuah komputer lokal digabungkan ke LAN
(local area network) untuk mendeteksi IP kamera. Jaringan video / audio metode
browsing mencakupi langkah-langkah sebagai berikut :
1. Menjalankan sebuah program aplikasi
komputer lokal untuk mendapatkan kode identifikasi
yang disimpan dalam kamera IP.
2. Transmisi untuk mendaftarkan kode
identifikasi ke DDNS ( Dynamic Domain Name Server)
oleh program aplikasi.
3. Mendapatkan kamera IP pribadi alamat
dan alamat server pribadi sehingga pasangan IP kamera
dan kontrol kamera IP melalui kamera IP pribadi alamat dan alamat server pribadi compile ke layanan server
melalui alamat server pribadi sehingga untuk mendapatkan
video / audio data yang ditangkap oleh kamera IP, dimana server layanan menangkap video / audio data melalui
Internet.
Browsing audio data tidak semudah
browsing dokumen cetak, karena adanya sifat temporal suara. Ketika melakukan
browsing terhadap dokumen, kita dapat dengan cepat mengalihkan fokus perhatian
dengan membaca sepintas isi dari dokumen tersebut. Kita dapat mengetahui ukuran
dan struktur dokumen, dan menggunakan memori spasial visual untuk mengingat dan
mencari spesifik topik. Namun, ketika
browsing suatu rekaman audio, kita harus berulang kali memainkan dan melompati
bagian tertentu, tanpa memainkannya, kita tidak bisa menyadari suara atau
isinya. Kita harus mendengarkan semua stream audio untuk dapat menangkap semua
isinya.
Beberapa bentuk informasi yang dapat
dicari (browsed) melalui internet,
yaitu: informasi berupa teks (text/plain, text/html), image (image/gif,
image/jpeg, image/png), video (video/mpeg, video/quicktime), audio
(audio/basic, audio/wav) dan application (application/msword,
application/octet-stream).
Speech Regocnition
Pengenalan ucapan atau pengenalan
wicara, dalam istilah bahasa Inggris disebut Automatic Speech Recognition (ASR)
adalah suatu pengembangan sistem yang memungkinkan komputer untuk menerima
masukan berupa kata yang diucapkan. Alat pengenal ucapan atau yang sering
disebut dengan Speech Recognizer, membutuhkan sampel kata sebenarnya yang
diucapkan dari pengguna.
Speech Recognizer pertama kali
muncul di tahun 1952 dan terdiri dari device untuk pengenalan satu digit yang
diucapkan. Kemudian pada tahun 1964, muncul IBM ShoeBox. Salah satu teknologi
yang cukup terkenal di Amerika dalam bidang kesehatan adalah Medical
Transcriptionist (MT) merupakan aplikasi komersial yang menggunakan Speech
Recognizer. Dan sampai sekarang banyak aplikasi yang dikembangkan menggunakan
Speech recognizer, antara lain di bidang kesehatan terdapat MT, di bidang
militer terdapat High-perfomance fighter aircraft, Training air traffic
controllers, sampai pada alat yang membantu orang-orang yang memiliki kesulitan
dalam menggunakan tangan, maka diciptakannya komputer yang dapat dioperasikan
menggunakan deteksi pengucapan user.
Ada
dua pemodelan dasar untuk Speech Recognition, yaitu
1. Hidden Markov Model (HMM)-based
recognition.
Model ini digunakan pada Modern general-purpose
speech recognition sistem. Model ini merupakan model yang statistikal dimana
output adalah sekuens dari simbol atau kuantitas. Model ini digunakan karena
sebuah sinyal dari pengucapan bisa dilihat seperti piecewise stationary signal
atau short-time stationary signal, selain itu model ini sederhana dan secara
komputasional bisa digunakan.
2. Dynamic time warping (DTW)-based
speech recognition
Adalah pendekatan yang pernah
sejarahnya digunakan untuk speech recognition yang sekarang sudah digantikan
oleh model Hidden Markov. DTW pertama kali dikenalkan pada tahun 60an dan
dieksplorasi sampai tahun 70an yang menghasilkan alat speech recognizer.
Jenis-jenis pengenalan ucapan
Berdasarkan
kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata,
yaitu
1. Kata-kata yang terisolasi.
Proses
pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata
tersebut memiliki jeda waktu pengucapan antar kata.
2. Kata-kata yang berhubungan.
Proses pengidentifikasian kata
hampir mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu
pengucapan antar kata yang lebih singkat.
3. Kata-kata yang berkelanjutan.
Proses pengidentifikasian kata yang
sudah lebih maju, karena dapat mengenal kata-kata yang diucapkan secara
berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu.
4. Kata-kata spontan.
Proses
pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara
spontan tanpa jeda waktu antar kata.
5. Verifikasi atau identifikasi
suara.
Proses pengidentifikasian kata yang
tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
Alat pengenal ucapan memiliki empat
tahapan dalam prosesnya, yaitu:
1. Tahap penerimaan masukan
Masukkan
berupa kata-kata yang diucapkan lewat pengeras suara.
2. Tahap ekstrasi
Tahap ini adalah tahap penyimpanan
masukan yang berupa suara sekaligus pembuatan basis data sebagai pola. Proses
ini dilakukan berdasarkan model Markov tersembunyi atau Hidden Markov Model
(HMM). Hal pertama yang dilakukan adalah menentukan parameter-parameter
tersembunyi dari parameter yang dapat diamati, parameter yang telah ditentukan
tersebut kemudian digunakan untuk analisis yang lebih jauh pada proses
pengenalan kata yang diucapkan. Berdasarkan HMM, proses ini menghasilkan
keluaran sebagai sinyal, sinyal tersebut dapat bersifat diskrit (karakter dalam
abjad) maupun kontinu (pengukuran temperatur, alunan musik).
Model sinyal secara garis besar dapat
dikategorikan menjadi dua, yaitu:
a. Model deterministik:
Menggunakan nilai-nilai properti
dari sebuah sinyal, seperti amplitudo, frekuensi dan fase dari gelombang sinus.
b. Model statistikal:
Menggunakan nilai-nilai statistik
dari sebuah sinyal, seperti proses Gaussian, proses Poisson, proses Markov, dan
proses Markov Tersembunyi.
Suatu model HMM secara umum memiliki
unsur-unsur sebagai berikut:
a. N
Yaitu jumlah bagian dalam model.
Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu
bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan
model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain
dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu
bagian berikutnya. Hal ini bergantung pada implementasi dari model.
b. M
Yaitu jumlah simbol observasi secara
unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian diartikan
sebagai huruf dalam kata.
c. Probabilita Perpindahan Bagian {
} = ij A a
d. Probabilita Simbol Observasi
pada bagian j, { } () = j Bb k
e. Inisial Distribusi Bagian i p p
Setelah memberikan nilai N, M, A, B,
dan p , maka proses ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi
pengenalan ucapan berdasarkan HMM :
a. Tahap ekstraksi tampilan
Penyaringan sinyal suara dan
pengubahan sinyal suara analog ke digital
b. Tahap tugas pemodelan
Pembuatan suatu model HMM dari
data-data yang berupa sampel ucapan sebuah kata yang sudah berupa data digital
c. Tahap sistem pengenalan HMM
Penemuan parameter-parameter yang
dapat merepresentasikan sinyal suara untuk analisis lebih lanjut.
3. Tahap pembandingan
Tahap ini merupakan tahap pencocokan
data baru dengan data suara pada pola. Tahap ini dimulai dengan proses konversi
sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara
yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data.
Sebelumnya, data suara masukan dipisahkan dan diproses satu per satu
berdasarkan urutannya. Proses yang pertama kali dilakukan ialah memproses
gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya
ialah proses kalkulasi yang dibagi menjadi dua bagian :
a. Transformasi gelombang diskrit
menjadi data yang terurut
Gelombang diskrit berbentuk masukan
berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan
cara pembagian rincian waktu
b. Menghitung frekuensi pada tiap
elemen data yang terurut
Selanjutnya tiap elemen dari data
yang terurut tersebut dikonversi ke dalam bentuk bilangan biner.
4. Tahap validasi identitas
pengguna
Alat pengenal ucapan yang sudah
memiliki sistem verifikasi/identifikasi suara akan melakukan identifikasi orang
yang berbicara berdasarkan kata yang diucapkan setelah menerjemahkan suara
tersebut menjadi tulisan atau komando.
Aplikasi Alat Pengenal Ucapan
1. Bidang Komunikasi
a. Komando Suara
suatu
program pada komputer yang melakukan perintah berdasarkan komando suara dari
pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris.
b. Pendiktean
Sebuah proses mendikte yang sekarang
ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada
aplikasi Microsoft Dictation, yang merupakan aplikasi yang dapat menuliskan apa
yang diucapkan oleh pengguna secara otomatis.
c. Telepon.
Pada telepon teknologi pengenal ucapan
digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor
tujuan dengan komando suara
2. Bidang Kesehatan
Alat pengenal ucapan banyak
digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam
beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User
Interface (VUI).
3. Bidang Militer
a. Pelatihan penerbangan.
Aplikasinya
adalah pada pengatur lalu lintas udara atau yang dikenal dengan Air Traffic
Controllers (ATC) yang dipakai oleh pilot untuk mendapatkan keterangan mengenai
keadaan lalu lintas udara seperti radar, cuaca dan navigasi.
b. Helikopter.
Aplikasinya
digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi.
Tidak ada komentar:
Posting Komentar