Skip to content

Commit

Permalink
Add Turkish News Category Dataset - 270K - Lite Version (#1967)
Browse files Browse the repository at this point in the history
* Add Turkish News Category Dataset - 270K - Lite Version

* updated readme
  • Loading branch information
yavuzKomecoglu committed Mar 2, 2021
1 parent 1116d65 commit d5afa3c
Show file tree
Hide file tree
Showing 4 changed files with 264 additions and 0 deletions.
150 changes: 150 additions & 0 deletions datasets/interpress_news_category_tr_lite/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,150 @@
---
annotations_creators:
- found
language_creators:
- found
languages:
- tr
licenses:
- unknown
multilinguality:
- monolingual
size_categories:
- 100k<n<1M
source_datasets:
- extended|interpress_news_category_tr
task_categories:
- text_classification
task_ids:
- text_classification-other-news-category-classification
---

# Dataset Card for Interpress Turkish News Category Dataset (270K - Lite Version)

## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-instances)
- [Data Splits](#data-instances)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Discussion of Social Impact and Biases](#discussion-of-social-impact-and-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)

## Dataset Description

- **Homepage:** [Interpress](https://www.interpress.com/)
- **Point of Contact:** [Yavuz Komecoglu](mailto:[email protected])

### Dataset Summary

Turkish News Category Dataset (270K - Lite Version) is a Turkish news data set consisting of 273601 news in 10 categories ("kültürsanat", "ekonomi", "siyaset", "eğitim", "dünya", "spor", "teknoloji", "magazin", "sağlık", "gündem"), compiled from printed media and news websites between 2010 and 2017 by the Interpress (https://www.interpress.com/) media monitoring company. **It has been rearranged as easily separable and with fewer classes.**

### Languages

The dataset is based on Turkish.

## Dataset Structure

### Data Instances

A text classification dataset with 10 different news category.

Here is an example from the dataset:

```
{
'category': 0,
'content': 'Tarihten Sınıfta Kaldık Bugün tarihe damgasını vuran Osmanlı İmparatorluğu nun kuruluş yıldönümü. Adına dizilerin çekildiği tarihimizi ne kadar biliyoruz? Gerekçeler faklı; ama sonuç aynı çıktı. Tarihten sınıfta kaldık. Sayfa 5r 1 Bugün tarihe damgasını vuran Osmanlı İmparatorluğumun kuruluş yıldönümü. Adına dizilerin çekildiği tarihimizi ne kadar biliyoruz? Gerekçeler faklı; ama sonuç aynı çıktı. Tarihten sınıfta kaldık 7 Ocak 1299... Kıtalara dağılan ücüyle, ülkeler arasında gördüğü aygıyla tarihe damgasını vuran anlı devletin kuruluş tarihi. Peki, anlı tarihimizi ne kadar biliyoruz? on zamanlarda tarihimizi anlatan izilere ilgi nasıl? Bu dizilerde anlatanlar ne kadar sağlıklı? İşte sokaın değerlendirmesi; levlüdiye Karaman (42-Ev lamım): Bir bilgim yok. Tarihle izla ilgilenmiyorum. Eşim daha ilgilidir bu konuda. Evde anlatır, ndan duyduklarımla yetiniyorum esem yalan olmaz. Osmanlı döeminde yaşamak isterdim. Tarih izileri izlerim Muhteşem Yüzyıl izisini çok izledim; hatta hiç kaırmazdım. Ama tarihimiz bu değil. Sunuün bilincindeyim. Muhteşem üzyıl dizisi genelde haremiyle ön landaydı. Onun için tarihi diziden ğrenmeyi de doğru bulmuyorum. )kullarda verilen tarih dersleri yeisiz. Daha çok tanıtabilirler. Görel anlatım yapılsın çocuklarımız aten okumak istemiyor. En azman eğlenceli hale getirip bu şekilde ilgilendirebilirler. erdi Üstün (22-Saatçi): Bu gün Osmanlı Devleti nin kuruluş yıldönümü olduğunu bilmiyordum. O dönemde yaşamak isterdim. Tarih yazılmış neden yaşamak istemeyim ki. Tarihime yeterince hakim olduğumu düşünüyorum. Araştırmalar yapıyorum. Merak ediyorum. Okullarda verilen tarih dersleri yeterli. Tarih dizisi izlemem, televizyondan tarihimi öğrenmek bana mantıklı gelmiyor. Yeterli olabilir; ama hikayeleştiriliyor. Sonuçta olduğu gibi anlatılsa daha iyi olur. Songül Karabacak (40-Ev Hanımı): Kuruluş yıldönümü olduğunu bilmiyordum. Tarih bilgim çok azdır. Zaten biz yaşadığımız dönemde tarih yazıyoruz. Osmanlı Dönemi nde yaşamak istemezdim. Sebebini bilmiyorum; ama hayatımdan memnunum, dönemden de memnunum. Dizileri takip etmiyorum. Ama mutlaka dizilerde tarihimiz doğru yansıtılıyor ki insanlar sürekli takip ediyor. Benim televizyonla pek aram yoktur. Ertuğrul Şahin (47-Çalışmıyor): Kuruluş yıldönümü olduğunu bilmiyordum. Sizden öğrendim. O dönemde yaşamak isterdim. Tarih sonuçta merak ederim. Tarihle ilgili çok bilgim yok. Okumadım, zaten şartlar el vermedi. Okullarda verilen eğitim yeterli değil. Örnek vermek gerekirse; 20 yaşında oğlum var Atatürk ün doğum yılını soruyorum yüzüme bakıyor. Verilen eğitim belli. Konu belirliyorlar onun dışına çıkmıyorlar. Daha fazla bilgi verilebilir. Tabi gençlerimizde de suç var bize baksınlar tarihimizi bilmiyoruz. Onlar araştırma yapsınlar her gün internette geziyorlar faydasız bir şeye bakacaklarına ecdatlarını okusunlar. Tarih dizlerini izlerim. Ama doğru yansıtılıyor mu orasını bilmiyorum sadece izleyiciyim. Ama önceden Süleyman Şah ı duyardım. Büyüklerimiz anlatırdı bunu diziden teyit ettim mesela. Ahmet Efe (22-Muhasebeci): Kuruluş yıldönümü olduğuyla ilgili bir bilgim yok. O dönemde yaşamak isterdim. Aldığımız bilgiler sonucunda illa ki bir özenme oluyor. Tam anlamıyla tarih bilgisine sahip olduğumu düşünmüyorum. Tarihe merakım var aslında; ama çok kısıtlı araştırma yapıyorum. Okullarda verilen tarih dersi yeterli değil. Çünkü şuradan birkaç çocuğu çevirip sorsanız size yeterli bilgi vermez. Veremez onun da bilgisi yok sonuçta. Zaten kısıtlı bilgiler veriliyor. Tarih dizilerini kılıç kalkan kuşanıp izliyorum. Doğru yansıtılıyor bundan dolayı da biraz insanlar tarihini öğrenmeye başladı desek yalan olmaz. Bu ne kadar doğru derseniz de bilgiyi doğru verdikten sonra tabi diziden de tarih öğrenilebilir. Mehmet Ak (28-Satış Danışmanı): Kuruluşunun bugün olduğunu bilmiyordum. O dönemde yaşamak isterdim. Yeterli bilgim yok bence kim tarihi tam anlamıyla öğrenebilir ki zaten. Ama tabi tarih kitapları okuyorum, araştırıyorum. Okullarda verilen tarih derslerini yeterli bulmuyorum; ama daha fazla neler yapılabilir, tarih küçüklere nasıl anlatılır bilmiyorum tek bildiğim yeterli olmadığı. Tarih dizileri gerçeği yüzde 75 yansıtıyor. Bu konuda araştırma yaptım yüzeysel anlatılıyor; fakat yine de bilgi edinilebilecek diziler. En azından rutinleşmiş dizi konularından uzak. Aile ile rahat rahat izleyebilirsin. Hasan Çalık (65-Emekli): Kuruluş yıldönümü olduğunu biliyorum. Araştırma yaparım. O dönemde yaşamak istemezdim Cumhuriyet döneminde yaşamayı daha çok isterdim. Okullarda verilen dersler yeterli. Film ya da dizi okumak yerine kitap okumayı tercih ederim. Bir insan ancak kitap okuyarak aydınlanabilir. Bu şekilde kendini geliştirebilir. Bir ömre ne kadar kitap sığdırırsan o kadar aydın bir insan olursun. Konusu fark etmez ister tarih olsun, ister roman okumak her zaman kazanç sağlar. Bir diziden tarihi ne kadar yeterli öğrenebilirsin ki ya da ne kadar doğru anlatılabilir. Bence diziyi bırakıp kitaplara yönelsinler. Nuray Çelik'
}
```

### Data Fields

- **category** : Indicates to which category the news text belongs.
(Such as "kültürsanat" (0), "ekonomi" (1), "siyaset" (2), "eğitim" (3), "dünya" (4), "spor" (5), "teknoloji" (6), "magazin" (7), "sağlık" (8), "gündem" (9))
- **content** : Contains the text of the news.

### Data Splits

The data is split into a training and testing. The split is organized as the following

| | Tain | Test |
|---------- | ------- | ----- |
|data split | 218,880 | 54,721|

## Dataset Creation

### Curation Rationale

[More Information Needed]

### Source Data

[More Information Needed]

#### Initial Data Collection and Normalization

Downloaded over 270,000 news from the printed media and news websites between 2010 and 2017 by the Interpress (https://www.interpress.com/) media monitoring company. This data collection compiled from print media and internet news is presented in its raw form. For this reason, it is appropriate to use it with careful pre-processing steps regarding various OCR errors and typos.


#### Who are the source language producers?

Turkish printed news sources and online news sites.

### Annotations

The dataset does not contain any additional annotations.

#### Annotation process

[More Information Needed]

#### Who are the annotators?

[More Information Needed]

### Personal and Sensitive Information

[More Information Needed]

## Considerations for Using the Data

### Discussion of Social Impact and Biases

[More Information Needed]

### Other Known Limitations

[More Information Needed]

## Additional Information

### Dataset Curators

[More Information Needed]

### Licensing Information

[More Information Needed]

### Citation Information

[More Information Needed]

### Contributions

Thanks to [@basakbuluz](https://github.com/basakbuluz) & [@yavuzkomecoglu](https://github.com/yavuzkomecoglu) & [@serdarakyol](https://github.com/serdarakyol/) for adding this dataset.
Original file line number Diff line number Diff line change
@@ -0,0 +1 @@
{ "270k_10class": { "description": "It is a Turkish news data set consisting of 273601 news in 10 categories, compiled from print media and news websites between 2010 and 2017 by the Interpress (https://www.interpress.com/) media monitoring company. It has been rearranged as easily separable and with fewer classes.\n", "citation": "", "homepage": "https://www.interpress.com/", "license": "", "features": { "content": { "dtype": "string", "id": null, "_type": "Value" }, "category": { "num_classes": 10, "names": ["kültürsanat", "ekonomi", "siyaset", "eğitim", "dünya", "spor", "teknoloji", "magazin", "sağlık", "gündem"], "names_file": null, "id": null, "_type": "ClassLabel" } }, "post_processed": null, "supervised_keys": null, "builder_name": "interpress_news_category_tr_lite", "config_name": "270k_10class", "version": { "version_str": "1.0.0", "description": null, "major": 1, "minor": 0, "patch": 0 }, "splits": { "train": { "name": "train", "num_bytes": 721110711, "num_examples": 218880, "dataset_name": "interpress_news_category_tr_lite" }, "test": { "name": "test", "num_bytes": 179348267, "num_examples": 54721, "dataset_name": "interpress_news_category_tr_lite" } }, "download_checksums": { "https://www.interpress.com/downloads/interpress_news_category_tr_270k_lite.zip": { "num_bytes": 342920336, "checksum": "2970ed00673459d611831fef5ad5ce8160fd6cd6e552fe7e8fb86fe187b274f0" } }, "download_size": 342920336, "post_processing_size": null, "dataset_size": 900458978, "size_in_bytes": 1243379314 } }
Binary file not shown.
Original file line number Diff line number Diff line change
@@ -0,0 +1,113 @@
# coding=utf-8
# Copyright 2020 The HuggingFace Datasets Authors and the current dataset script contributor.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# Lint as: python3
"""Turkish News Category Dataset (270K - Lite Version) - Interpress Media Monitoring Company"""

from __future__ import absolute_import, division, print_function

import csv
import os

import datasets


logger = datasets.logging.get_logger(__name__)


_DESCRIPTION = """\
It is a Turkish news data set consisting of 273601 news in 10 categories, compiled from print media and news websites between 2010 and 2017 by the Interpress (https://www.interpress.com/) media monitoring company. It has been rearranged as easily separable and with fewer classes.
"""

_CITATION = ""
_LICENSE = "unknown"
_HOMEPAGE = "https://www.interpress.com/"
_DOWNLOAD_URL = "https://www.interpress.com/downloads/interpress_news_category_tr_270k_lite.zip"
_DATASET_URLS = {
"train": "interpress_news_category_tr_270k_lite_train.tsv",
"test": "interpress_news_category_tr_270k_lite_test.tsv",
}


class InterpressNewsCategoryTRLiteConfig(datasets.BuilderConfig):
"""BuilderConfig for InterpressNewsCategoryTRLite."""

def __init__(self, **kwargs):
"""BuilderConfig for InterpressNewsCategoryTRLite.
Args:
**kwargs: keyword arguments forwarded to super.
"""
super(InterpressNewsCategoryTRLiteConfig, self).__init__(**kwargs)


class InterpressNewsCategoryTRLite(datasets.GeneratorBasedBuilder):
"""Turkish News Category Dataset (270K - Lite Version) - Interpress Media Monitoring Company"""

BUILDER_CONFIGS = [
InterpressNewsCategoryTRLiteConfig(
name="270k_10class",
version=datasets.Version("1.0.0"),
description="Turkish News Category Dataset (270K - Lite Version) - Interpress Media Monitoring Company",
),
]

def _info(self):
return datasets.DatasetInfo(
description=_DESCRIPTION,
features=datasets.Features(
{
"content": datasets.Value("string"),
"category": datasets.features.ClassLabel(
names=[
"kültürsanat",
"ekonomi",
"siyaset",
"eğitim",
"dünya",
"spor",
"teknoloji",
"magazin",
"sağlık",
"gündem",
]
),
}
),
supervised_keys=None,
homepage=_HOMEPAGE,
citation=_CITATION,
)

def _split_generators(self, dl_manager):
dl_dir = dl_manager.download_and_extract(_DOWNLOAD_URL)
return [
datasets.SplitGenerator(
name=datasets.Split.TRAIN, gen_kwargs={"filepath": os.path.join(dl_dir, _DATASET_URLS["train"])}
),
datasets.SplitGenerator(
name=datasets.Split.TEST, gen_kwargs={"filepath": os.path.join(dl_dir, _DATASET_URLS["test"])}
),
]

def _generate_examples(self, filepath):
"""Generate InterpressNewsCategoryTRLite examples."""
logger.info("⏳ Generating examples from = %s", filepath)
with open(filepath, encoding="utf-8") as f:
reader = csv.DictReader(f, delimiter="\t", quoting=csv.QUOTE_NONE)
for idx, row in enumerate(reader):
yield idx, {
"content": row["news"],
"category": int(row["label"]),
}

1 comment on commit d5afa3c

@github-actions
Copy link

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Show benchmarks

PyArrow==0.17.1

Show updated benchmarks!

Benchmark: benchmark_array_xd.json

metric read_batch_formatted_as_numpy after write_array2d read_batch_formatted_as_numpy after write_flattened_sequence read_batch_formatted_as_numpy after write_nested_sequence read_batch_unformated after write_array2d read_batch_unformated after write_flattened_sequence read_batch_unformated after write_nested_sequence read_col_formatted_as_numpy after write_array2d read_col_formatted_as_numpy after write_flattened_sequence read_col_formatted_as_numpy after write_nested_sequence read_col_unformated after write_array2d read_col_unformated after write_flattened_sequence read_col_unformated after write_nested_sequence read_formatted_as_numpy after write_array2d read_formatted_as_numpy after write_flattened_sequence read_formatted_as_numpy after write_nested_sequence read_unformated after write_array2d read_unformated after write_flattened_sequence read_unformated after write_nested_sequence write_array2d write_flattened_sequence write_nested_sequence
new / old (diff) 0.017981 / 0.011353 (0.006628) 0.016009 / 0.011008 (0.005001) 0.049311 / 0.038508 (0.010803) 0.039011 / 0.023109 (0.015901) 0.219733 / 0.275898 (-0.056165) 0.251698 / 0.323480 (-0.071782) 0.006389 / 0.007986 (-0.001596) 0.004905 / 0.004328 (0.000576) 0.006702 / 0.004250 (0.002451) 0.054025 / 0.037052 (0.016973) 0.215593 / 0.258489 (-0.042896) 0.250061 / 0.293841 (-0.043780) 0.153874 / 0.128546 (0.025328) 0.120815 / 0.075646 (0.045169) 0.461991 / 0.419271 (0.042719) 0.455122 / 0.043533 (0.411589) 0.218192 / 0.255139 (-0.036947) 0.248270 / 0.283200 (-0.034930) 1.647003 / 0.141683 (1.505320) 1.865487 / 1.452155 (0.413332) 2.018199 / 1.492716 (0.525483)

Benchmark: benchmark_indices_mapping.json

metric select shard shuffle sort train_test_split
new / old (diff) 0.042731 / 0.037411 (0.005320) 0.027994 / 0.014526 (0.013468) 0.064396 / 0.176557 (-0.112161) 0.052527 / 0.737135 (-0.684608) 0.033000 / 0.296338 (-0.263338)

Benchmark: benchmark_iterating.json

metric read 5000 read 50000 read_batch 50000 10 read_batch 50000 100 read_batch 50000 1000 read_formatted numpy 5000 read_formatted pandas 5000 read_formatted tensorflow 5000 read_formatted torch 5000 read_formatted_batch numpy 5000 10 read_formatted_batch numpy 5000 1000 shuffled read 5000 shuffled read 50000 shuffled read_batch 50000 10 shuffled read_batch 50000 100 shuffled read_batch 50000 1000 shuffled read_formatted numpy 5000 shuffled read_formatted_batch numpy 5000 10 shuffled read_formatted_batch numpy 5000 1000
new / old (diff) 0.229028 / 0.215209 (0.013818) 2.292402 / 2.077655 (0.214747) 1.295331 / 1.504120 (-0.208789) 1.176117 / 1.541195 (-0.365078) 1.244731 / 1.468490 (-0.223759) 6.788685 / 4.584777 (2.203908) 5.925458 / 3.745712 (2.179746) 8.418123 / 5.269862 (3.148261) 7.294915 / 4.565676 (2.729238) 0.686033 / 0.424275 (0.261758) 0.011358 / 0.007607 (0.003751) 0.283310 / 0.226044 (0.057265) 2.922502 / 2.268929 (0.653574) 1.820111 / 55.444624 (-53.624513) 1.547442 / 6.876477 (-5.329035) 1.634566 / 2.142072 (-0.507506) 6.713655 / 4.805227 (1.908428) 4.506137 / 6.500664 (-1.994527) 10.742536 / 0.075469 (10.667067)

Benchmark: benchmark_map_filter.json

metric filter map fast-tokenizer batched map identity map identity batched map no-op batched map no-op batched numpy map no-op batched pandas map no-op batched pytorch map no-op batched tensorflow
new / old (diff) 10.288317 / 1.841788 (8.446529) 15.837646 / 8.074308 (7.763338) 17.367279 / 10.191392 (7.175887) 0.577569 / 0.680424 (-0.102854) 0.296866 / 0.534201 (-0.237334) 0.749261 / 0.579283 (0.169978) 0.591594 / 0.434364 (0.157230) 0.689536 / 0.540337 (0.149199) 1.623858 / 1.386936 (0.236922)
PyArrow==1.0
Show updated benchmarks!

Benchmark: benchmark_array_xd.json

metric read_batch_formatted_as_numpy after write_array2d read_batch_formatted_as_numpy after write_flattened_sequence read_batch_formatted_as_numpy after write_nested_sequence read_batch_unformated after write_array2d read_batch_unformated after write_flattened_sequence read_batch_unformated after write_nested_sequence read_col_formatted_as_numpy after write_array2d read_col_formatted_as_numpy after write_flattened_sequence read_col_formatted_as_numpy after write_nested_sequence read_col_unformated after write_array2d read_col_unformated after write_flattened_sequence read_col_unformated after write_nested_sequence read_formatted_as_numpy after write_array2d read_formatted_as_numpy after write_flattened_sequence read_formatted_as_numpy after write_nested_sequence read_unformated after write_array2d read_unformated after write_flattened_sequence read_unformated after write_nested_sequence write_array2d write_flattened_sequence write_nested_sequence
new / old (diff) 0.017848 / 0.011353 (0.006495) 0.015227 / 0.011008 (0.004219) 0.050654 / 0.038508 (0.012146) 0.038736 / 0.023109 (0.015627) 0.386946 / 0.275898 (0.111048) 0.411167 / 0.323480 (0.087687) 0.006532 / 0.007986 (-0.001453) 0.005641 / 0.004328 (0.001312) 0.006983 / 0.004250 (0.002732) 0.061813 / 0.037052 (0.024761) 0.377281 / 0.258489 (0.118792) 0.414943 / 0.293841 (0.121102) 0.150685 / 0.128546 (0.022138) 0.126225 / 0.075646 (0.050578) 0.474614 / 0.419271 (0.055343) 0.493790 / 0.043533 (0.450257) 0.379479 / 0.255139 (0.124340) 0.412721 / 0.283200 (0.129521) 1.947306 / 0.141683 (1.805624) 2.015207 / 1.452155 (0.563052) 2.068703 / 1.492716 (0.575987)

Benchmark: benchmark_indices_mapping.json

metric select shard shuffle sort train_test_split
new / old (diff) 0.044722 / 0.037411 (0.007310) 0.022444 / 0.014526 (0.007919) 0.045180 / 0.176557 (-0.131377) 0.051998 / 0.737135 (-0.685138) 0.050668 / 0.296338 (-0.245670)

Benchmark: benchmark_iterating.json

metric read 5000 read 50000 read_batch 50000 10 read_batch 50000 100 read_batch 50000 1000 read_formatted numpy 5000 read_formatted pandas 5000 read_formatted tensorflow 5000 read_formatted torch 5000 read_formatted_batch numpy 5000 10 read_formatted_batch numpy 5000 1000 shuffled read 5000 shuffled read 50000 shuffled read_batch 50000 10 shuffled read_batch 50000 100 shuffled read_batch 50000 1000 shuffled read_formatted numpy 5000 shuffled read_formatted_batch numpy 5000 10 shuffled read_formatted_batch numpy 5000 1000
new / old (diff) 0.296588 / 0.215209 (0.081378) 2.981260 / 2.077655 (0.903605) 1.983659 / 1.504120 (0.479539) 1.888596 / 1.541195 (0.347401) 1.973293 / 1.468490 (0.504803) 6.973830 / 4.584777 (2.389053) 6.011315 / 3.745712 (2.265603) 8.481316 / 5.269862 (3.211454) 7.828715 / 4.565676 (3.263039) 0.664784 / 0.424275 (0.240509) 0.010705 / 0.007607 (0.003098) 0.354082 / 0.226044 (0.128038) 3.755242 / 2.268929 (1.486314) 2.632124 / 55.444624 (-52.812500) 2.401898 / 6.876477 (-4.474579) 2.559996 / 2.142072 (0.417923) 6.645389 / 4.805227 (1.840161) 4.693153 / 6.500664 (-1.807511) 4.841391 / 0.075469 (4.765922)

Benchmark: benchmark_map_filter.json

metric filter map fast-tokenizer batched map identity map identity batched map no-op batched map no-op batched numpy map no-op batched pandas map no-op batched pytorch map no-op batched tensorflow
new / old (diff) 11.648667 / 1.841788 (9.806879) 17.240146 / 8.074308 (9.165838) 19.428947 / 10.191392 (9.237555) 1.103225 / 0.680424 (0.422801) 0.613920 / 0.534201 (0.079719) 0.734440 / 0.579283 (0.155157) 0.553086 / 0.434364 (0.118722) 0.678125 / 0.540337 (0.137788) 1.611646 / 1.386936 (0.224710)

CML watermark

Please sign in to comment.