Samartim, Roberto / Fernández Rodriguez, María Luísa - Análise estatística do discurso para a exploração e classificação de textos literários: extração de conteúdos do romance jacobeu em espanhol de 2010

Publicado en Comunicações Livres 08. Discurso, poder e espaço público

Autoria Samartim, Roberto  (Universidade da Corunha)
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
Fernández Rodriguez, María Luísa  (Universidade de Santiago de Compostela - Grupo Galabra)
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
Título Análise estatística do discurso para a exploração e classificação de textos literários: extração de conteúdos do romance jacobeu em espanhol de 2010
Sessão CL08. Discurso, poder e espaço público

Resumo

A partir de técnicas de análise estatística de dados textuais e métodos não-supervisionados, este trabalho pretende testar as possibilidades de exploração de conteúdos, classificação e agrupamento temático de grandes volumes de corpus literário. Para isto selecionamos uma amostragem de 19 romances em castelhano publicados no último Ano Santo (2010) dentre o universo de materiais catalogados no projeto “Discursos, imagens e práticas culturais sobre Santiago de Compostela como meta dos Caminhos de Santiago”. Este projeto, subsidiado polo Governo da Espanha, conta com um volumoso e variado corpus composto por inquéritos (a visitantes, comerciantes e outra população local), e por 546 livros, 211 sites e 90 produtos audiovisuais que suportam discursos relativos à rota jacobeia ou à cidade compostelã produzidos de 2008 a 2014 na Galiza, Espanha, Portugal e o Brasil.

Com a seleção dessa amostragem procuramos estabelecer um quadro procedimental e teórico-metodológico capaz de reduzir empiricamente informação volumosa e variada garantindo a representatividade, a replicabilidade e a objetivação duns resultados extrapoláveis ao universo dos materiais do projeto, assim como realizar o agrupamento temático e a análise exploratória dos conteúdos do corpus em foco. Para isso recorremos a enfoques textométricos apoiados em técnicas estatísticas (Benzécri 1973 e 1976; Reinert 2007), que aplicam operações básicas de frequências, de co-ocorrências e de probabilidades para derivar classificações temáticas e caraterizar agrupamentos. Procurando este objetivo, utilizamos dous programas informáticos (Iramuteq e Treecloud) caraterizados polo acesso livre e uma curva de aprendizagem relativamente curta e por terem sido concebidos para aplicar cálculos estatísticos sobre variáveis essenciamente qualitativas.

Assim, através do Iramuteq obtemos as propriedades semânticas do corpus e individualizamos até cinco classes de documentos a partir dos conteúdos detetados no conjunto, bem como a distribução e o peso relativo de cada produto nessas classes. O programa Treecloud complementa a análise e funciona como método de exploração ou comprovação a posteriori e num nível micro de agrupamentos entre textos e entre temas. Em ambos os casos, os resultados obtidos permitem extrair classificações do conjunto e facilitam a seleção posterior de elementos representativos, ao calcular quais são os textos que mais contribuem para definir os grandes eixos discursivos presentes e para etiquetar cada grupo partindo do vocabulário específico que o determina.

Os resultados destas análises exploratórias de conteúdo derivadas deste método estatístico serão contrastadas com os resultados achegados por outros métodos não-supervisionados, como a análise de cluster. Em termos de projeto, estas técnicas de análise estatística textual léxica e semântica contribuirão para sistematizar e contrastar os discursos literários com os discursos retirados dos inquéritos e com os três macrodiscursos do imaginário contemporâneo de Santiago de Compostela e os Caminhos identificados em Torres Feijó (2011): o religioso de João Paulo II, o patrimonial da UNESCO e o exotérico de Diário de um Mago de Paulo Coelho.