Aplicação do Valor de Base da Frequência Fundamental Via Estatística MVKD em Comparação Forense de Locutor

Ronaldo Rodrigues da Silva, João Paulo Carvalho Lustosa da Costa, Ricardo Kehrle Miranda, giovanni Del Galdo

Resumo


Comparação forense de locutor (CFL) é um exame de determinação de fonte no qual são comparadas amostras de fala de origem conhecida, provenientes de um suspeito, com amostras de fala presentes em um ou mais áudios questionados, cuja autoria se deseja determinar, produzindo uma prova pericial que pode reforçar ou se contrapor à hipótese de que o suspeito é o autor da fala questionada. Em levantamento realizado em 2011 por pesquisadores da Universidade de York entre peritos de treze países, incluindo o Brasil, a metodologia mais usada nos exames de CFL se baseava em análises perceptuais e acústicas. Entre as medidas acústicas, a Frequência Fundamental (F0) era utilizada por quase 70 % dos entrevistados. F0 possui características importantes para a área forense, como a robustez em áudios de baixa qualidade e, em medidas de longo termo, a independência do conteúdo das falas. Conforme estudos recentes, a medida estatística valor de base de F0 é menos afetado pelo estilo e conteúdo da fala, pelo canal utilizado na gravação e exige menor quantidade de áudio para obter uma medida estável, comparada às medidas de F0 comumente utilizadas, entre elas, a média aritmética e o desvio padrão. Neste trabalho é analisado o poder discriminante do valor de base de F0 aplicado ao Corpus Forense do Português Brasileiro (CFPB), obtendo-se uma Taxa de Erro Igual, do inglês Equal Error Rate (EER) 5,9 % melhor que o segundo parâmetro mais discriminativo, a média aritmética. A combinação do valor de base de F0 a outras medidas de longo termo de F0 por meio da estatística de densidade do núcleo de multivariáveis, do inglês Multivariate Kernel-Density (MVKD), resultou, em todas as simulações, em ganho de poder discriminativo, sendo a combinação entre as medidas do valor de base com a mediana de F0 aquela que obteve o melhor resultado, com uma EER de 13 %, superando valores relatados em pesquisas recentes. Os resultados obtidos demonstram que o valor de base de F0 é o melhor parâmetro a ser utilizado em análises de F0.


Palavras-chave


F0; Valor de base de F0; MVKD; LTF0; EER.

Texto completo:

PDF

Referências


E. Gold, J.P. French. International practices in forensic speaker comparison. Int. J. Speech Lang. La.18(2), 293-307, 2011.

J. Lindh, A. Eriksson. RobustnessofLong Time Measuresof Fundamental Frequency. Interspeech 2007, 2025-2028, 2007.

P. Arantes, A. Eriksson. Temporal stabilityoflong-termmeasuresof fundamental frequency. Anais da 7ª Conferência International Conference on Speech Prosody 1149-1152, 2014.

Y. Kinoshita, S.Ishihara, P. Rose. Exploring the discriminatory potential of F0 distribution parameters in traditional forensic speaker recognition. Int. J. Speech, Lang. La. 16, 91-111, 2009.

H. Traunmüller. Conventional, biological, andenvironmentalfactors in speech communication: A modulationtheory. Phonetica 51, 170-183, 1994.

H. Traunmüller, A. Eriksson. The Frequency Range oftheVoice Fundamental in the Speech of Male andFemaleAdults. Unpublished manuscript. Disponível em: http://www2.ling.su.se/staff/hartmut/f0_m%26f.pdf. Acesso em: Agosto de 2014.

H. Traunmüller, A. Eriksson. The perceptual evaluationof F0-excursions in speech as evidenced in livelinesestimations. J. Acoust. Soc. Am. 97, 1905-1915, 1995.

C.G.G. Aitken, D. Lucy. Evaluationof trace evidence in theformofmultivariate data. J. Royal Stat. Soc. 53(1), 109-122, 2004.

G.S. Morrison. A comparisonof procedures for thecalculationofforensiclikelihoodratiosfromacoustic-phonetic data: multivariatekerneldensity (MVKD) versus Gaussianmixturemodel-universal background model (GMM-UBM). Speech Commun. 53(2), 242-256, 2011.

V. Hughes. The definition of the relevant population and the collection of data for likelihood ratio – based forensic voice comparison. Tese de Doutorado, Universityof York, 2014.

E. Gold. Calculating likelihood ratios in forensic speaker comparison cases using phonetic and linguistic features. Tese de Doutorado, Universityof York, 2014.

ENFSI. ENFSI guideline for evaluative reporting in forensic science. Disponível em http://www.enfsi.eu/documents/external-publications. Acesso em: 05/04/2016.

C.G.G. Aitken, F. Taroni. Statistics and the Evaluation of Evidence for Forensic Scientists. Chichester, Wiley, segunda edição: capítulo 1, 2004.

N. Brümmer, J. du Preez. Application independente valuation of speaker detection. Comp. Speech Lang. 20, 230-275, 2006.

G.S Morrison. Likelihood –ratio voice comparison using parametric representations of the formant trajectories of diphthongs. J. Acoust. Soc. Am. 125, 2387-2397, 2009.

P. Boersma. Accurate short-termanalysisofthe fundamental frequency and the harmonics-to-noise ratio of a sampled sound. Anais da conferência IFA. 17, 97-110, 1993.

P. Boersma, D. Weenink. Praat: doing phonetics by computer. Programa de computador. Versão 5.3.70, Retirado em 05/04/2014, de: http://www.praat.org/.

D. Meyer, E. Dimitriadou, K. Hornik, A. Weingessel, F. Leisch. e1071: Misc Functions of the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. R package version 1.6-7. Retirado em 12/12/2015 de http://CRAN.R-project.org/package=e1071, 2015.

R. Core Team. A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Retirado em 05/03/2015 de http://www.R-project.org/, 2014.

M. Wand. Kern Smooth: Functions for Kernel smoothing for Wandand Jones 1995. R package version 2.23-12. Retirado em 12/12/2015 de http://CRAN.R-project.org/package=KernSmooth, 2015.

G.S. Morrison. Mat Lab implementation of Aitken and Lucy's (2004) forensic likelihood ratio software using multivariate-kernel-density estimation, 2007. Retirado em 01/11/2015 de http://geoff-morrison.net/#MVKD, 2007.




DOI: http://dx.doi.org/10.15260/rbc.v5i3.134

Creative Commons License
This work is licensed under a Creative Commons Attribution 3.0 License.