Estilometria - Stylometry

A estilometria é a aplicação do estudo do estilo linguístico , geralmente à linguagem escrita, mas tem sido aplicada com sucesso à música e também às pinturas de belas-artes. Outra conceituação o define como a disciplina linguística que avalia o estilo de um autor por meio da aplicação de análise estatística a um corpo de sua obra.

A estilometria é freqüentemente usada para atribuir autoria a documentos anônimos ou contestados. Tem aplicações jurídicas, acadêmicas e literárias, que vão desde a questão da autoria das obras de Shakespeare até a linguística forense .

História

A estilometria cresceu a partir de técnicas anteriores de análise de textos em busca de evidências de autenticidade, identidade do autor e outras questões.

A prática moderna da disciplina recebeu publicidade a partir do estudo dos problemas de autoria no drama do Renascimento inglês. Pesquisadores e leitores observaram que alguns dramaturgos da época tinham padrões distintos de preferências linguísticas e tentaram usar esses padrões para identificar autores de obras incertas ou colaborativas. Os esforços iniciais nem sempre foram bem-sucedidos: em 1901, um pesquisador tentou usar a preferência de John Fletcher por "⁠'em", a forma contracional de "eles", como um marcador para distinguir entre Fletcher e Philip Massinger em suas colaborações - mas ele erroneamente empregou uma edição das obras de Massinger na qual o editor havia expandido todas as ocorrências de "⁠ ⁠'em" para "eles".

Os fundamentos da estilometria foram estabelecidos pelo filósofo polonês Wincenty Lutosławski em Principes de stylométrie (1890). Lutosławski usou este método para desenvolver uma cronologia dos Diálogos de Platão .

O desenvolvimento dos computadores e de suas capacidades para analisar grandes quantidades de dados aumentaram esse tipo de esforço em ordens de magnitude. A grande capacidade dos computadores para análise de dados, entretanto, não garantia uma saída de boa qualidade. Durante o início dos anos 1960, o Rev. AQ Morton produziu uma análise por computador das quatorze epístolas do Novo Testamento atribuídas a São Paulo, que indicava que seis autores diferentes haviam escrito aquele corpo de trabalho. Uma verificação de seu método, aplicado às obras de James Joyce , deu o resultado que Ulysses , o romance de múltiplas perspectivas e estilos de Joyce, foi composto por cinco indivíduos separados, nenhum dos quais aparentemente teve qualquer participação na elaboração do primeiro romance de Joyce. romance, Um Retrato do Artista Quando Jovem .

Com o tempo, entretanto, e com a prática, pesquisadores e estudiosos refinaram seus métodos para produzir melhores resultados. Um sucesso inicial notável foi a resolução da disputa de autoria de doze dos Documentos Federalistas por Frederick Mosteller e David Wallace. Embora ainda existam questões relativas a suposições e métodos iniciais (e, talvez, sempre haverá), poucos agora contestam a premissa básica de que a análise linguística de textos escritos pode produzir informações e percepções valiosas. (Na verdade, isso era aparente mesmo antes do advento dos computadores: a aplicação bem-sucedida de uma análise textual / linguística ao cânone de Fletcher por Cyrus Hoy e outros produziu resultados claros durante o final dos anos 1950 e início dos anos 1960).

Formulários

As aplicações da estilometria incluem estudos literários, estudos históricos, estudos sociais e muitos casos e estudos forenses. Também pode ser aplicado à detecção de código de computador e de plágio intrínseco , que é a detecção de plágio com base nas mudanças no estilo de escrita do documento. A estilometria também pode ser usada para prever se alguém é um falante nativo ou não nativo de inglês por sua velocidade de digitação .

A estilometria como método é vulnerável à distorção do texto durante a revisão. Há também o caso do autor adotando estilos diferentes ao longo de sua carreira, como foi demonstrado no caso de Platão , que optou por políticas estilísticas distintas, como as adotadas para os diálogos iniciais e intermediários que tratam do problema socrático.

Pesquisa atual

A estilometria moderna usa computadores para análises estatísticas , inteligência artificial e acesso ao crescente corpus de textos disponíveis na Internet . Sistemas de software como Signature (freeware produzido pelo Dr. Peter Millican da Universidade de Oxford), JGAAP (o Java Graphical Authorship Attribution Program - freeware produzido pelo Dr. Patrick Juola da Duquesne University), stylo (um pacote R de código aberto para uma variedade de estilométricos análises, incluindo atribuição de autoria, desenvolvidas por Maciej Eder , Jan Rybicki e Mike Kestemont ) e Stylene for Dutch (freeware online do Prof Walter Daelemans da Universidade de Antuérpia e Dr. Véronique Hoste da Universidade de Ghent) tornam seu uso cada vez mais praticável, mesmo para o não especialista.

Locais e eventos acadêmicos

Métodos estilométricos são usados ​​para vários tópicos acadêmicos, principalmente como um suplemento, como aprendizado de máquina, processamento de linguagem natural e lexicografia.

Linguística forense

A International Association of Forensic Linguists (IAFL) organiza a Conferência Bienal da International Association of Forensic Linguists (13ª edição em 2016 no Porto ) e publica o The International Journal of Speech, Language and the Law tendo a estilística forense como um dos seus tópicos centrais.

AAAI

A Associação para o Avanço da Inteligência Artificial (AAAI) organizou diversos eventos sobre análise subjetiva e estilística de texto.

FRIGIDEIRA

Oficinas PAN (originalmente, análise de plágio, identificação de autoria e detecção de quase duplicata, mais tarde, de forma mais geral, workshop sobre a descoberta de plágio, autoria e uso indevido de software social) organizadas desde 2007 principalmente em conjunto com conferências de acesso a informações, como ACM SIGIR , FIRE e CLEF . PAN formula tarefas de desafio compartilhadas para detecção de plágio, identificação de autoria, identificação de gênero do autor, perfil do autor , detecção de vandalismo e outras tarefas de análise de texto relacionadas, muitas das quais dependem de estilometria.

Estudos de caso de interesse

  • Em 1439, Lorenzo Valla mostrou que a Doação de Constantino era uma falsificação , um argumento baseado em parte na comparação do latim com o usado em documentos autênticos do século IV.
  • Em 1952, o padre sueco Dick Helander foi eleito bispo de Strängnäs . A campanha foi competitiva e Helander foi acusado de escrever uma série de centenas de cartas difamatórias anônimas sobre outros candidatos ao eleitorado do bispado de Strängnäs. Helander foi primeiro condenado por escrever as cartas e perdeu sua posição como bispo, mas depois foi parcialmente inocentado. As cartas foram estudadas usando uma série de medidas estilométricas (e também características da máquina de escrever) e os vários processos judiciais e exames posteriores, muitos contratados pelo próprio Helander durante os anos até sua morte em 1978, discutiram o método estilométrico e seu valor como evidência em alguns detalhes .
  • Em 1975, depois que Ronald Reagan serviu como governador da Califórnia, ele começou a dar comentários semanais de rádio para centenas de estações. Depois que suas anotações pessoais foram tornadas públicas em seu 90º aniversário em 2001, um estudo usou métodos estilostatísticos para determinar quais dessas palestras foram escritas por ele e quais foram escritas por vários assessores.
  • Em 1996, a análise estilométrica do controverso livro de pseudônimo Primary Colors , realizada pelo professor do Vassar College , Donald Foster, trouxe o assunto à atenção de um público mais amplo após identificar corretamente o autor como Joe Klein . (Este caso foi resolvido somente depois que uma análise de caligrafia confirmou a autoria.)
  • Em 1996, métodos estilométricos foram usados ​​para comparar o manifesto Unabomber com cartas escritas por um dos suspeitos, Theodor Kaczynski, o que resultou na apreensão de Theodor e posterior condenação.
  • Em abril de 2015, pesquisadores usando técnicas de estilometria identificaram uma peça, Double Falsehood , como sendo obra de William Shakespeare . Os pesquisadores analisaram 54 peças de Shakespeare e John Fletcher e compararam o comprimento médio das frases, estudaram o uso de palavras incomuns e quantificaram a complexidade e a valência psicológica de sua linguagem.
  • Em 2016, MacDonald P. Jackson, Professor Emérito de Inglês na University of Auckland , Nova Zelândia e Fellow da Royal Society of New Zealand , que passou toda a sua carreira acadêmica analisando atribuição de autoria, escreveu um livro intitulado Who Wrote "The Night Before Christmas "?: Analisando o Clement Clarke Moore vs. Henry Livingston Question , [20] em que ele avalia os argumentos opostos e, pela primeira vez, usa as técnicas de atribuição de autor da estilística computacional moderna para examinar a controvérsia de longa data. Jackson emprega uma série de testes e apresenta um novo, a análise estatística de fonemas; ele conclui que Livingston é o verdadeiro autor da obra clássica.
  • Em 2017, Simon Fuller e James O'Sullivan publicaram um estudo afirmando que o autor do best-seller James Patterson não escreve em seus romances aparentemente em coautoria. De acordo com O'Sullivan, sua colaboração com o ex-presidente dos EUA Bill Clinton , The President is Missing , é uma exceção a essa regra.
  • Em 2017, um grupo de linguistas, cientistas da computação e acadêmicos analisou a autoria de Elena Ferrante . A partir de um corpus criado na Universidade de Pádua contendo 150 romances escritos por 40 autores, eles analisaram o estilo de Ferrante a partir de sete de seus romances. Eles puderam comparar seu estilo de escrita com 39 outros romancistas usando, por exemplo, o estilo. A conclusão foi a mesma para todos: Domenico Starnone é o autor secreto de Elena Ferrante.
  • Em 2018, Mark Glickman , um professor de estatística da Universidade de Harvard, trabalhou com Ryan Song, um ex-aluno estatísticas em Harvard, e Jason Brown, professor da Universidade de Dalhousie em Nova Scotia, aplicando estilometria ao descobrir que, muito provavelmente, The A canção dos Beatles " In My Life " foi composta por John Lennon, mas com 50% de chance de Paul McCartney ter escrito o oitavo do meio .
  • Em 2019, o projeto ETSO: Estilometria aplicada ao Teatro Espanhol da Idade de Ouro , dirigido por Álvaro Cuéllar González e Germán Vega García-Luengos (Universidade de Valladolid) conseguiu reunir mais de 1200 peças da Idade de Ouro espanhola. Após a aplicação da análise estilométrica, foi ratificada a atribuição de Mujeres y criados a Lope de Vega e detectado um problema de autoria em La monja alférez , peça atribuída a Pérez de Montalbán que, graças a essas análises e através de pesquisas históricas e filológicas, foi eventualmente atribuído a Juan Ruiz de Alarcón .
  • Em 2020, Rachel McCarthy e James O'Sullivan argumentaram que Emily Brontë é a verdadeira autora de O Morro dos Ventos Uivantes , encerrando as especulações de alguns críticos de que o romance poderia ter sido escrito por um de seus irmãos, especificamente Branwell ou Charlotte .
  • Em 2020, Hartmut Ilsemann usou Rolling Delta e Rolling Classify do pacote de programas R Stylo para mostrar que o corpus de Marlowe é estilisticamente não homogêneo e que o autor dos dois Tamburlaines dificilmente estava presente no corpus oficial restante de Marlowe,

Dados e métodos

Uma vez que a estilometria tem casos de uso descritivos, usados ​​para caracterizar o conteúdo de uma coleção, e casos de uso identificadores, por exemplo, identificando autores ou categorias de textos, os métodos usados ​​para analisar os dados e recursos acima variam daqueles construídos para classificar itens em conjuntos ou para distribuir itens em um espaço de variação de recursos. A maioria dos métodos são de natureza estatística, como análise de cluster e análise discriminante , são normalmente baseados em dados e recursos filológicos e são domínios de aplicação frutíferos para métodos modernos de aprendizado de máquina .

Enquanto, no passado, a estilometria enfatizava os elementos mais raros ou mais marcantes de um texto, as técnicas contemporâneas podem isolar padrões de identificação mesmo em classes gramaticais comuns. A maioria dos sistemas é baseada em estatísticas lexicais, ou seja, usando a frequência de palavras e termos no texto para caracterizar o texto (ou seu autor). Neste contexto, ao contrário da recuperação de informação , os padrões de ocorrência observados das palavras mais comuns são mais interessantes do que os termos tópicos que são menos frequentes.

O método estilométrico primário é o invariante do escritor : uma propriedade mantida em comum por todos os textos, ou pelo menos todos os textos por tempo suficiente para admitir uma análise que produza resultados estatisticamente significativos, escrita por um determinado autor. Um exemplo de invariante de escritor é a frequência das palavras funcionais usadas pelo escritor.

Em um desses métodos, o texto é analisado para encontrar as 50 palavras mais comuns. O texto é então dividido em blocos de 5.000 palavras e cada um dos blocos é analisado para encontrar a frequência dessas 50 palavras naquele bloco. Isso gera um identificador de número 50 exclusivo para cada pedaço. Esses números colocam cada pedaço de texto em um ponto em um espaço de 50 dimensões. Este espaço de 50 dimensões é achatado em um plano usando a análise de componentes principais (PCA). Isso resulta em uma exibição de pontos que correspondem ao estilo de um autor. Se duas obras literárias são colocadas no mesmo plano, o padrão resultante pode mostrar se ambas as obras eram do mesmo autor ou de autores diferentes.

1. Estatísticas gaussianas

Os dados estilométricos são distribuídos de acordo com a lei Zipf-Mandelbrot . A distribuição é extremamente pontiaguda e leptocúrtica , razão pela qual os pesquisadores não podem usar estatísticas para resolver, por exemplo, problemas de atribuição de autoria. No entanto, o uso de estatísticas gaussianas é perfeitamente possível aplicando a transformação de dados .

2. Redes neurais

Redes neurais , um caso especial de métodos estatísticos de aprendizado de máquina, têm sido usadas para analisar a autoria de textos. Textos de autoria indiscutível são usados ​​para treinar uma rede neural por processos como retropropagação , de forma que o erro de treinamento seja calculado e usado para atualizar o processo para aumentar a precisão. Por meio de um processo semelhante à regressão não linear, a rede ganha a capacidade de generalizar sua capacidade de reconhecimento para novos textos aos quais ainda não foi exposta, classificando-os em um determinado grau de confiança. Essas técnicas foram aplicadas às reivindicações de longa data de colaboração de Shakespeare com seus contemporâneos Fletcher e Christopher Marlowe , e confirmaram a opinião, com base em estudos mais convencionais, de que tal colaboração realmente ocorreu.

Um estudo de 1999 mostrou que um programa de rede neural atingiu 70% de precisão na determinação da autoria de poemas que ainda não havia analisado. Este estudo da Vrije Universiteit examinou a identificação de poemas de três autores holandeses usando apenas sequências de letras, como "den".

Um estudo utilizou redes de crença profunda (DBN) para o modelo de verificação de autoria aplicável para autenticação contínua (CA).

Um problema com esse método de análise é que a rede pode se tornar tendenciosa com base em seu conjunto de treinamento, possivelmente selecionando os autores que a rede analisou com mais frequência.

3. Algoritmos genéticos

O algoritmo genético é outra técnica de aprendizado de máquina usada para estilometria. Isso envolve um método que começa com um conjunto de regras. Um exemplo de regra pode ser: "Se, porém, aparecer mais de 1,7 vezes a cada mil palavras, então o texto é o autor X". O programa é apresentado com texto e usa as regras para determinar a autoria. As regras são testadas em relação a um conjunto de textos conhecidos e cada regra recebe uma pontuação de aptidão. As 50 regras com as pontuações mais baixas não são usadas. As 50 regras restantes recebem pequenas alterações e 50 novas regras são introduzidas. Isso é repetido até que as regras evoluídas atribuam os textos corretamente.

4. Pares raros

Um método para identificar o estilo é denominado "pares raros" e depende de hábitos individuais de colocação . O uso de certas palavras pode, para um determinado autor, ser associado idiossincraticamente ao uso de outras palavras previsíveis.

Atribuição de autoria em mensagens instantâneas

A difusão da internet mudou a atenção de atribuição de autoria para textos online (páginas da web, blogs, etc.) mensagens eletrônicas (e-mails, tweets, posts, etc.) e outros tipos de informações escritas que são muito mais curtas do que um livro médio, muito menos formal e mais diversificado em termos de elementos expressivos como cores , layout , fontes , gráficos , emoticons , etc. Esforços para levar em consideração tais aspectos no nível de estrutura e sintaxe foram relatados em. dicas específicas de conteúdo e idiossincráticas (por exemplo, modelos de tópicos e ferramentas de verificação gramatical) foram introduzidas para revelar escolhas estilísticas deliberadas.

Recursos estilométricos padrão foram empregados para categorizar o conteúdo de um chat por mensagem instantânea ou o comportamento dos participantes, mas as tentativas de identificar os participantes do chat ainda são poucas e precoces. Além disso, a semelhança entre conversas faladas e interações de chat foi negligenciada, sendo uma grande diferença entre os dados do chat e qualquer outro tipo de informação escrita.

Veja também

Notas

Referências

Leitura adicional

Veja também a revista acadêmica Literary and Linguistic Computing (publicada pela University of Oxford ) e a revista Language Resources and Evaluation .

links externos