diff --git a/R/padronizar_bairros.R b/R/padronizar_bairros.R index 57ae821..85b5e94 100644 --- a/R/padronizar_bairros.R +++ b/R/padronizar_bairros.R @@ -41,6 +41,9 @@ padronizar_bairros <- function(bairros) { "\\.\\.+" = ".", # remover pontos repetidos "\\.([^ ])" = "\\. \\1", # garantir que haja espaco depois do ponto + # sinalizacao + r"{"}" = "'", # existem ocorrencias em que aspas duplas sao usadas para se referir a um logradouro/quadra com nome relativamente ambiguo - e.g. RUA \"A\", 26. isso pode causar um problema quando lido com o data.table: https://github.com/Rdatatable/data.table/issues/4779. por enquanto, substituindo por aspas simples. depois a gente pode ver o que fazer com as aspas simples rs. + # valores non-sense r"{^(.)\1{1,}$}" = "", # fiquei na duvida se ja tirava repetindo "soh" duas vezes ou se precisava de mais, mas dois ja parece o suficiente. esses sao os que aparecem: "00" "XX" "CC" "RR" "PP" "NN" "FF" "II" "11" "HH" "22" "KK" "44" "SS" "AA" "--" (total de 157 observacoes em 2 milhoes, sendo a maioria "00") diff --git a/R/padronizar_complementos.R b/R/padronizar_complementos.R index fedc2f0..756a154 100644 --- a/R/padronizar_complementos.R +++ b/R/padronizar_complementos.R @@ -45,6 +45,9 @@ padronizar_complementos <- function(complementos) { r"{\.([^ ])}" = "\\. \\1", # garantir que haja espaco depois do ponto r"{ (-|\.) }" = " ", + # sinalizacao + r"{"}" = "'", # existem ocorrencias em que aspas duplas sao usadas para se referir a um logradouro/quadra com nome relativamente ambiguo - e.g. RUA \"A\", 26. isso pode causar um problema quando lido com o data.table: https://github.com/Rdatatable/data.table/issues/4779. por enquanto, substituindo por aspas simples. depois a gente pode ver o que fazer com as aspas simples rs. + # valores non-sense r"{^([^\d])\1{1,}$}" = "", r"{^(\d)\1{3,}$}" = "", # assumindo que qualquer numero que apareca 4 ou mais vezes repetido eh um erro de digitacao diff --git a/R/padronizar_logradouros.R b/R/padronizar_logradouros.R index 1934ea8..ec526ae 100644 --- a/R/padronizar_logradouros.R +++ b/R/padronizar_logradouros.R @@ -46,6 +46,9 @@ padronizar_logradouros <- function(logradouros) { " \\." = "\\.", # garantir que não haja um espaco antes dos pontos " ," = ",", # garantir que não haja um espaco antes dos pontos + # sinalizacao + r"{"}" = "'", # existem ocorrencias em que aspas duplas sao usadas para se referir a um logradouro/quadra com nome relativamente ambiguo - e.g. RUA \"A\", 26. isso pode causar um problema quando lido com o data.table: https://github.com/Rdatatable/data.table/issues/4779. por enquanto, substituindo por aspas simples. depois a gente pode ver o que fazer com as aspas simples rs. + # valores non-sense r"{^(.)\1{1,}$}" = "",