Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Japanese specific line-wise filtering #3

Open
syoyo opened this issue Nov 7, 2023 · 4 comments
Open

Japanese specific line-wise filtering #3

syoyo opened this issue Nov 7, 2023 · 4 comments
Labels
enhancement New feature or request

Comments

@syoyo
Copy link
Contributor

syoyo commented Nov 7, 2023

Implement Japanese-specific linse-wise filtering(quality filtering) described in RefinedWeb https://arxiv.org/abs/2306.01116

Remove Web navigation

  • ...はこちらをクリック
  • 続きを読む
  • ホーム | ...
  • 件表示
  • もっと見る
  • スポンサーリンク
  • アーカイブ 月を選択

The line contains multiple separators(|, >, /, etc)

starts with

  • 続きを読む
  • [続きを読む]
  • カテゴリー カテゴリーを選択
  • |トップページ|
    -2020年7月13日 / 最終更新日時
  • 投稿者:XXXX 2022年12月6日

ends with

  • がシェアした投稿 – 2017 2月 20 4:28午前 PST
  • ... [続きを読む]
  • の続きを読む
  • ...ここをクリック
  • ..(続く)
  • 011-09-02閲覧.
  • 詳しくはこちら
  • (続きを読む)
  • 吉宗将軍就任...(続きをみる)
  • 続きを見る
  • ...(続きを表示)
  • 2018年10月5日閲覧。
  • -- 2007-12-16 (日) 18:04:28

Terms in EC site

    • ※画像はイメージです
@syoyo syoyo added the enhancement New feature or request label Nov 7, 2023
@syoyo
Copy link
Contributor Author

syoyo commented Dec 19, 2023

カウンター

賃貸情報関連

石神井公園駅(211)
大泉学園駅(192)
小竹向原駅(133)
新桜台駅(98)
豊島園駅(96)
上石神井駅(148)
武蔵関駅(202)
地下鉄赤塚駅(151)

地名, 駅名 + (N) で判定するのがよいか?

@syoyo
Copy link
Contributor Author

syoyo commented Jan 14, 2024

一度入力文章を文節分解し, 頻出文節を求める処理をしたほうがよいでしょう.

@syoyo
Copy link
Contributor Author

syoyo commented Jan 24, 2024

時刻情報

2017年4月27日 (木) 15時00分

dedup 時, 日付の (月), (火) あたりも placeholder 化必要

@syoyo
Copy link
Contributor Author

syoyo commented Jan 25, 2024

入力文章を文節分解し, 上位 N %(e.g. 5%) を占める文節を求め, 文章がその上位 N % で構成される場合は棄却する

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

1 participant