Skip to content

Commit

Permalink
lidando com aspas duplas nas funcoes de logrs, compls e bairros
Browse files Browse the repository at this point in the history
  • Loading branch information
dhersz committed Apr 12, 2024
1 parent 6c1caba commit b25b56a
Show file tree
Hide file tree
Showing 3 changed files with 9 additions and 0 deletions.
3 changes: 3 additions & 0 deletions R/padronizar_bairros.R
Original file line number Diff line number Diff line change
Expand Up @@ -41,6 +41,9 @@ padronizar_bairros <- function(bairros) {
"\\.\\.+" = ".", # remover pontos repetidos
"\\.([^ ])" = "\\. \\1", # garantir que haja espaco depois do ponto

# sinalizacao
r"{"}" = "'", # existem ocorrencias em que aspas duplas sao usadas para se referir a um logradouro/quadra com nome relativamente ambiguo - e.g. RUA \"A\", 26. isso pode causar um problema quando lido com o data.table: https://github.com/Rdatatable/data.table/issues/4779. por enquanto, substituindo por aspas simples. depois a gente pode ver o que fazer com as aspas simples rs.
# valores non-sense
r"{^(.)\1{1,}$}" = "", # fiquei na duvida se ja tirava repetindo "soh" duas vezes ou se precisava de mais, mas dois ja parece o suficiente. esses sao os que aparecem: "00" "XX" "CC" "RR" "PP" "NN" "FF" "II" "11" "HH" "22" "KK" "44" "SS" "AA" "--" (total de 157 observacoes em 2 milhoes, sendo a maioria "00")
Expand Down
3 changes: 3 additions & 0 deletions R/padronizar_complementos.R
Original file line number Diff line number Diff line change
Expand Up @@ -45,6 +45,9 @@ padronizar_complementos <- function(complementos) {
r"{\.([^ ])}" = "\\. \\1", # garantir que haja espaco depois do ponto
r"{ (-|\.) }" = " ",

# sinalizacao
r"{"}" = "'", # existem ocorrencias em que aspas duplas sao usadas para se referir a um logradouro/quadra com nome relativamente ambiguo - e.g. RUA \"A\", 26. isso pode causar um problema quando lido com o data.table: https://github.com/Rdatatable/data.table/issues/4779. por enquanto, substituindo por aspas simples. depois a gente pode ver o que fazer com as aspas simples rs.
# valores non-sense
r"{^([^\d])\1{1,}$}" = "",
r"{^(\d)\1{3,}$}" = "", # assumindo que qualquer numero que apareca 4 ou mais vezes repetido eh um erro de digitacao
Expand Down
3 changes: 3 additions & 0 deletions R/padronizar_logradouros.R
Original file line number Diff line number Diff line change
Expand Up @@ -46,6 +46,9 @@ padronizar_logradouros <- function(logradouros) {
" \\." = "\\.", # garantir que não haja um espaco antes dos pontos
" ," = ",", # garantir que não haja um espaco antes dos pontos

# sinalizacao
r"{"}" = "'", # existem ocorrencias em que aspas duplas sao usadas para se referir a um logradouro/quadra com nome relativamente ambiguo - e.g. RUA \"A\", 26. isso pode causar um problema quando lido com o data.table: https://github.com/Rdatatable/data.table/issues/4779. por enquanto, substituindo por aspas simples. depois a gente pode ver o que fazer com as aspas simples rs.
# valores non-sense
r"{^(.)\1{1,}$}" = "",
Expand Down

0 comments on commit b25b56a

Please sign in to comment.