Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

地名, 住所一覧のテキストの除去 #8

Open
syoyo opened this issue Dec 19, 2023 · 2 comments
Open

地名, 住所一覧のテキストの除去 #8

syoyo opened this issue Dec 19, 2023 · 2 comments

Comments

@syoyo
Copy link
Contributor

syoyo commented Dec 19, 2023

石神井公園駅(211)
大泉学園駅(192)
小竹向原駅(133)
新桜台駅(98)
豊島園駅(96)
上石神井駅(148)
武蔵関駅(202)
地下鉄赤塚駅(151)

賃貸サイトのテキストのように, 地名や住所の羅列の文章について判定し除去したい.

@syoyo
Copy link
Contributor Author

syoyo commented Dec 19, 2023

住所については

https://github.com/inouet/ken-all
https://www.post.japanpost.jp/zipcode/download.html

あたりで対応できるか

@syoyo
Copy link
Contributor Author

syoyo commented Feb 2, 2024

http://jusyo.jp/

住所データ csv

文章を jagger-python で形態素解析, optional で jdepp-python(地名(固有名詞)を連結するなど)で文節にし, 住所データとマッチングすればよい.

地名の解説文とかで削除したくないケースもあるだろ.

  • 羅列であるか
  • 個人情報であるか

などの extra な判定が必要となろう

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant