Skip to content

Criando um novo dicionário Pt Br e Alterando o idioma ACAT

Gabriela Rabelo Andrade edited this page Jul 7, 2016 · 8 revisions

Muitas pessoas tiveram dificuldade de esta fazendo a alteração do idioma para portugues com isso estou fazendo essa documentação com base na documentação do samalkah. Fiz isso no Windows 8, criando um novo banco de dados em português (brasileiro) baseado em um livro brasileiro. Tenha em mente que é melhor você utilizar um texto produzido pelo próprio usuário.Esta documentação tem como objetivo ajudar usuários do ACAT assim ajudando muito as pessoas pois a versão original é encontrada apenas em Inglês.

##1.Introdução Para criação do banco de dados é necessário a ferramenta "text2ngram" essa ferramenta é instalada durante a instalação do ACAT. Seu diretório padrão é "C: \ Program Files (x86) \ presságio \ bin \" Esta ferramenta é utilizada no final da instalação para gera o banco de dados padrão para previsão de palavras a partir de um arquivo de texto.

Como você pode observar a linguagem padrão do ACAT é ingles. Para utilizar o português oque teremos de fazer é bastante simples basta encontra um texto em português para construir um novo banco de dados a partir dele. Isso que vou esta explicando nessa documentação.

2. Primeiro passo é encontrar um bom texto para criar o banco de dados

  • É importante escolher um bom texto e que se adeque a maneira do usuario falar.

  • Um dica seria uma autobiografia do usuario, pois é escrita em primeira pessoa e essa é a maneira que o usuario vai falar.

  • O tamanho do texto padrão (text8) é de 100mb e conte cerca de 17 000 000 palavras o arquivo é grande pois o pressagio vai aprendendo palavras automaticamente.

  • Tente localizar um livro (texto) com menos caracteres especiais.

O livro que eu utilizei foi um dos livros desse site aqui Link pra baixar livros Txt

3. Transformando o texto para text2ngram

Para ser adequado para o text2ngram o texto de entrada que voce escolher tem que ser um arquivo puro de Txt simples no UTF-8 esse é o suficiente.

Mesmo com o arquivo no formato text voce tera de fazer algumas alterações para esta removendo pontos, virgulas, cractes especiais, quebras de linhas, numeros e todas letras minusculas. Para esta realizando esssas alterações eu utilizarei a ferramenta Notpad++ download notpad++ apos realizar o download do Notepad++ abrar o txt como ele e vamos para as modificações.

  • Exclua as linhas em branco transformando o arquivo em uma unica linha para executar esse comando basta voce selecionar todo o texto (Ctrl + A) e aperta (Ctrl + J)
  • Converter todas as letras para minusculas (Ctrl+A) e depois (Ctrl + U)
  • remover comas, pontos e cada caracteres especiais (Encontrar-Procurar ..., guia Substituir e digite seu personagem e substituí-la por nada)

No final seu texto sera apenas uma linha muito grande.

Após configura o texto "ebook_ptbr.txt" o arquivo texto com o nome "ebook_ptbr.txt" cole dentro da pastaC:\Program Files (x86)\presage\bin ##4 Instale o Text2ngram Você vai baixar o Text2Ngram Baixar Text2Ngram site oficial extrair todos os arquivos para um pasta qualquer ao extrair copie todos os arquivos para a pasta C:\Program Files (x86)\presage\bin

###4.1 Iniciando o Text2ngram O seu arquivo texto com o nome ebook_ptbr.txt cole dentro da pasta C:\Program Files (x86)\presage\bin após voce vai ter que abrir o prompt de comando como administrador (digite "cmd" no campo de busca do menu iniciar, em seguida, clique direito em "Prompt de comando" e selecione "Abrir como Administrador"). ao iniciar tem de digitar sem aspas "cd C:\Program Files (x86)\presage\bin"


gi cmd 1


em seguida digite text2ngram.exe ira iniciar o text2ngram


git 3


###4.2 Gerando Banco de dados Dentro do cmd "ainda vamos colocar o txt dentro de um banco de dados em 5 partes" então basta voce digitar os comandos um por um:

`*'text2ngram -n5 -f sqlite -o C:\Intel\ACAT\Users\ACAT\WordPredictors\Presage\database_ptbr.db ebook_ptbr.txt'`
`*'text2ngram -n4 -f sqlite -o C:\Intel\ACAT\Users\ACAT\WordPredictors\Presage\database_ptbr.db ebook_ptbr.txt'`
`*'text2ngram -n3 -f sqlite -o C:\Intel\ACAT\Users\ACAT\WordPredictors\Presage\database_ptbr.db ebook_ptbr.txt'`
`*'text2ngram -n2 -f sqlite -o C:\Intel\ACAT\Users\ACAT\WordPredictors\Presage\database_ptbr.db ebook_ptbr.txt'`
`*'text2ngram -n1 -f sqlite -o C:\Intel\ACAT\Users\ACAT\WordPredictors\Presage\database_ptbr.db ebook_ptbr.txt'`

git 4


Apos esse processo voce vai ter criado um banco com o nome database_ptbr.db na pasta C:\Intel\ACAT\Users\ACAT\WordPredictors\Presage\ va a pasta para verificar se o arquivo foi criado.

5. Configurando o ACAT para o novo Banco

Para configura o ACAT para usar o novo banco de dados vá ao seguinte diretório C:\Intel\ACAT\Users\ACATe abra o arquivo "PresageWordPredictorSettings.xml" com o Notepad ++ e altere essa linha do arquivo de <DatabaseFileName>database.db</DatabaseFileName> para <DatabaseFileName>database_ptbr.db</DatabaseFileName> como na imagem


ptbr


RESULTADO FINAL

tomaz

Download Banco de dados

Download database_ptbr.db