Dilbilimciler Kelimeleri Nasıl Söylediğimizi Bulmak İçin İnterneti Kullanıyorlar
Cornell'li bir dilbilimci olan Mats Rooth, internette var olan ses verilerini kullanarak onlarda geçen kelime öbeklerin aruzlarının/vezinlerinin ritim, stres ve tonlamalarını bulmak için ilginç bir program kullanıyor ve geliştirmeler üzerinde çalışıyor. Bu çalışmadan maksat milyonlarca kitabın içeriğini ve podcasti(sesli oynatıcı yayın) nasıl analiz ederiz?
Dilbilim, bilgisayar ve bilgi bilimleri profesörü Mats Rooth, şu sıralar özel bir bilgisayar programı yardımıyla ses ve video dosyalarındaki seslerin transkripsiyonundaki kelime öbeklerini/kalıplarını araştırıyor.
Rooth'a göre, ana dilinde konuşanların, verilen bir cümledeki aruzları/vezinleri hemen kolayca tanımlayabildiği fakat bilinen hipoteze göre belirli bir fenomenin yeterli örneklerle bile tanımlanabilmesinin zorluğunun kanıtına tersine niçin insanlarda bunu tanımlama yeteneğinin olduğudur ve üzerinde çalıştıkları şey de çok yeni ve henüz oldukça temel seviyede.
Projede, laboratuvar üretimi kelime kalıplarının/öbeklerinin yerine internetten binlerce farklı kaynaktan toparlanan rastgele örneklerin kullanılması araştırmacılara seslerdeki aruzun/vezinin yapısı ve anlamıhakkında benzeri görülmemiş bir ölçekte teoriler değerlendirmelerini sağlayacaktır.
Rooth, projesinin aruzu/vezini anlamada dönüştürücü bir etki meydana getireceğini umuyor.
Proje iki parça halinde ilerliyor. McGill Üniversitesinden araştırmacılar verilerin analizi üzerine uğraşırken; Cornell takımı veri sağlamadan ve programlamadan sorumlular.
Projede kullanılan bilgisayar programı, kullanılan veri setleri ve araştırma ürünleri şu an da açık bir şekilde internette sunuluyor. Sitede ayrıca, 104 farklı sesden elde edilmiş aynı "than I did" kelime öbeğinin farklı vurgulama tonlarındaki gösterimi ve incelemesi de mevcut.
Projenin adresi:
http://confluence.cornell.edu/display/prosody/Prosody+Datasets
Bu Yazıyı Paylaşın |
 |
|
|
|
|
|
Teknoloji