Rabu, 07 Maret 2012

Teks to Speech Bahasa Melayu Pontianak

Text to speech adalah sebuah teknologi yang dapat menghasilkan suara ucapan dari teks. Metode sintesa ucapan saat ini umumnya menggunakan metode statistik parametrik yang memiliki keunggulan hasil model ucapan suara yang kecil, dan korpus latih yang relatif lebih kecil dibanding metode seleksi unit. Teknologi text-to-speech merupakan salah satu upaya yang dapat digunakan untuk melestarikan bahasa daerah.

Sistem sintesa ucapan alami bahasa Melayu dialek Pontianak dibangun menggunakan HMM-Based Speech Synthesis System (HTS). Model ucapan suara yang dihasilkan adalah Hidden Markov Model. Jumlah korpus latih yang digunakan 300 kalimat dalam durasi 23 menit 18 detik. Pengembangan sintesa dimulai dari pengumpulan korpus kalimat dan rekaman suara, melakukan pelabelan fonem dan durasi, melatih HMM dengan HTS, membuat bagian menganalisa teks menjadi label konteksual dan membangkitkan gelombang ucapan suara dengan menggunakan HTS_engine.

Selasa, 06 Maret 2012

Kuliah Umum ASR

Materi : Automatic Speech Recognation
oleh : Prof. Dr. Sadaoki FURUI 
from : Tokyo Institute of Technology
web : http://www.furui.cs.titech.ac.jp/~furui/indexE.html

Selasa, 28 Februari 2012

NLTK : Natural Language Toolkit

NLTK adalah singkatan dari Natural Language Toolkit, berupa fungsi-fungsi atau library program dalam bahasa Python yang digunakan untuk pemrosesan bahasa alami. Pemrosesan bahasa yang disediakan NLTK dapat digunakan untuk klasifikasi, tokenization, stemming, tagging, parsing, dan semantik. NLTK bisa dikatakan sebagai alat dalam komputasi linguistik untuk pemrosesan bahasa alami.

NLTK menyediakan buku panduan praktis mengenai dasar-dasar pemrogram Pyhton bagi pemrogram untuk pemrosesan bahasa, agar dapat mengkategorikan teks, menganalisis struktur bahasa, dan banyak lagi.

Sabtu, 18 Februari 2012

Natural Language Processing

Apakah Natural Language Processing (NLP) itu?
Natural Language Processing atau biasa disingkat dengan NLP, dalam bahasa Indonesia bisa diartikan sebagai Pemrosesan Bahasa Alami (PBA). NLP adalah suatu proses atau pengolahan yang berhubungan dengan suatu bahasa, yang digunakan oleh manusia sebagai alat komunikasi. Pemrosesan Bahasa dapat berupa suara ucapan maupun teks tulisan.

Untuk apa bahasa alami tersebut diproses ?
Pemroses dilakukan agar komputer dapat melakukan komunikasi kepada manusia menggunakan bahasa alami manusia, dapat pula untuk mendapatkan informasi-informasi baru dari suatu bahasa alami tersebut. Namun tujuan awal dilakukan pemrosesan bahasa alami ini adalah agar bahasa tersebut dapat dipahami.

Mengapa bahasa alami ini diproses ?
Alasan utama melakukan pemrosesan bahasa alami, karena bahasa alami ini membingungkan dan tidak konsisten. Hal ini dapat terjadi baik pada suara ucapan maupun teks kalimat.
Membingungkan dapat terjadi ketika kata yang sama, namun dapat dimaknai berbeda. Misalkan pada kalimat "Abang memberi tahu kepada Andi". Kata "tahu" yang dimaksud dapat berupa informasi atau makanan. Kebalikannya, pada kata-kata yang berbeda namun memiliki makna yang sama. Misalkan pada kalimat "Adik bisa membaca", "Adik dapat membaca", dan "Adik mampu membaca". Ketiga kalimat tersebut pada dasarnya memiliki makna yang sama walupun dibedakan oleh kata "bisa", "dapat" dan "mampu".
Membingungkan juga dapat terjadi pada bunyi ucapan. Misalnya untuk bunyi ucapan kata "bank" dan "bang", yang bunyi ucapannya sama tetapi makna dan ejaannya berbeda. Kebalikannya, bunyinya dan maknanya berbeda, tetapi ejaannya sama. Misal pada kata "apel", bunyi ucapannya bisa "apél" bermakna upacara, dan "apel" bermakna buah.