Um Método para Coleta, Tratamento de uma Base de Dados de Textos Literários em Língua Portuguesa para uso na Identificação de Autoria
A utilização do meio computacional para a resolução de casos de identificação de autoria tem crescido progressivamente em áreas como a computação, a linguística e o direito. Este artigo tem por objetivo apresentar um método para auxiliar no processo de coleta, tratamento e validação de base de dados para fins de testes de modelos computacionais. Como base de dados foram coletados, tratados e validados 100 amostras de textos de autores consagrados da literatura brasileira. Ao final a base de dados foi validada e com as características utilizadas tal base se mostrou robusta e confiável para utilização no processo de identificação de autoria de textos.