becxer
diff --git a/‎pytrain/lib/__init__.py
+2-1 b/‎pytrain/lib/__init__.py
+2-1
diff --git a/‎pytrain/lib/batch.py ‎pytrain/lib/autotest.py
+2-4 b/‎pytrain/lib/batch.py ‎pytrain/lib/autotest.py
+2-4
diff --git a/‎pytrain/lib/dataset.py
+14-5 b/‎pytrain/lib/dataset.py
+14-5
diff --git a/‎pytrain/lib/fs.py
+5-5 b/‎pytrain/lib/fs.py
+5-5
diff --git a/‎pytrain/lib/nlp.py
+2-2 b/‎pytrain/lib/nlp.py
+2-2
diff --git a/‎run_dev.sh
-4 b/‎run_dev.sh
-4
diff --git a/‎sample_data/iris/train.csv ‎sample_data/iris/iris.csv
+30 b/‎sample_data/iris/train.csv ‎sample_data/iris/iris.csv
+30
diff --git a/‎sample_data/iris/test.csv
-30 b/‎sample_data/iris/test.csv
-30
diff --git a/‎sample_data/mnist/t10k-images-idx3-ubyte
7.48 MB b/‎sample_data/mnist/t10k-images-idx3-ubyte
7.48 MB
diff --git a/‎sample_data/mnist/t10k-images-idx3-ubyte.gz
-1.57 MB b/‎sample_data/mnist/t10k-images-idx3-ubyte.gz
-1.57 MB
diff --git a/‎sample_data/mnist/t10k-labels-idx1-ubyte
9.77 KB b/‎sample_data/mnist/t10k-labels-idx1-ubyte
9.77 KB
diff --git a/‎sample_data/mnist/t10k-labels-idx1-ubyte.gz
-4.44 KB b/‎sample_data/mnist/t10k-labels-idx1-ubyte.gz
-4.44 KB
diff --git a/‎sample_data/mnist/train-images-idx3-ubyte
44.9 MB b/‎sample_data/mnist/train-images-idx3-ubyte
44.9 MB
diff --git a/‎sample_data/mnist/train-images-idx3-ubyte.gz
-9.45 MB b/‎sample_data/mnist/train-images-idx3-ubyte.gz
-9.45 MB
diff --git a/‎sample_data/mnist/train-labels-idx1-ubyte
58.6 KB b/‎sample_data/mnist/train-labels-idx1-ubyte
58.6 KB
diff --git a/‎sample_data/mnist/train-labels-idx1-ubyte.gz
-28.2 KB b/‎sample_data/mnist/train-labels-idx1-ubyte.gz
-28.2 KB
diff --git a/‎test.py
100644100755
+1 b/‎test.py
100644100755
+1
diff --git a/‎test_pytrain/test_KNN/test_KNN.py
+4-4 b/‎test_pytrain/test_KNN/test_KNN.py
+4-4
diff --git a/‎test_pytrain/test_lib/__init__.py
+2-1 b/‎test_pytrain/test_lib/__init__.py
+2-1
diff --git a/‎test_pytrain/test_lib/test_autotest.py
+24 b/‎test_pytrain/test_lib/test_autotest.py
+24
diff --git a/‎test_pytrain/test_lib/test_batch.py
-27 b/‎test_pytrain/test_lib/test_batch.py
-27
diff --git a/‎test_pytrain/test_lib/test_dataset.py
+31 b/‎test_pytrain/test_lib/test_dataset.py
+31
diff --git a/‎test_pytrain/test_lib/test_fs.py
+16-21 b/‎test_pytrain/test_lib/test_fs.py
+16-21
@@ -1,5 +1,6 @@
+
 from convert import *
-from batch import *
+from autotest import *
 from nlp import *
 from fs import *
 from normalize import *
 
@@ -1,16 +1,14 @@
 #
-# library for batch processing module
+# library for autotest processing module
 #
 # @ author becxer
 # @ e-mail [email protected]
 #
 
-from numpy import *
 import operator
 import math
 import sys
 
-
 # abstracted evaluation logic
 # p_module is pytrain module that you already trained
 def eval_predict(p_module, mat_test, label_test, log_on = True):
@@ -25,7 +23,7 @@ def eval_predict(p_module, mat_test, label_test, log_on = True):
 
 def eval_predict_one(p_module, input_array_test, label_one_test, log_on = True):
     res = p_module.predict(input_array_test)
-    if log_on : print "input : '" + str(input_array_test[:2]) + \
+    if log_on : print "input : '" + str(input_array_test[:3]) + \
             "' --> predicted : '" + str(res) + "' --? origin : '" \
                     + str(label_one_test) + "'"
     if list(str(res)) != list(str(label_one_test)) :
 
@@ -1,6 +1,8 @@
 import os, struct
 from array import array as pyarray
 from numpy import append, array, int8, uint8, zeros
+import numpy as np
+from pytrain.lib import fs
 
 def load_mnist(path=".", dataset="training", digits=np.arange(10)):
 
@@ -32,10 +34,17 @@ def load_mnist(path=".", dataset="training", digits=np.arange(10)):
         images[i] = array(img[ ind[i]*rows*cols : (ind[i]+1)*rows*cols ]).reshape((rows, cols))
         labels[i] = lbl[ind[i]]
 
-    return images, labels:
+    return images, labels
 
 def load_iris(path=".", dataset="training"):
-    pass
-
-
-
+    
+    sample_data = os.path.join(path, "iris.csv")    
+    dmat_train, dlabel_train, dmat_test, dlabel_test \
+      = fs.csv_loader(sample_data, 0.2)
+      
+    if dataset == "training":
+        return dmat_train, dlabel_train
+    elif dataset == "testing":
+        return dmat_test, dlabel_test
+    else:
+        raise ValueError("dataset must be 'testing' or 'training'")
@@ -16,7 +16,7 @@
 # to matrix_train, label_train, matrix_test, label_test
 # according to ho_ratio
 # ho_ratio is test_set ratio how you want
-def f2mat(filename, ho_ratio):
+def csv_loader(filename, ho_ratio):
     fr = open(filename)
     lines = fr.readlines()
     mat_train = []
@@ -45,8 +45,8 @@ def f2mat(filename, ho_ratio):
         return mat_train, label_train, mat_test, label_test
 
 
-def f2wordmat(filename, ho_ratio, nlp_lib):
-    wmat = f2mat(filename, ho_ratio)
+def csv_loader_with_nlp(filename, ho_ratio, nlp_lib):
+    wmat = csv_loader(filename, ho_ratio)
     wmat_train, label_train  = wmat[:2]
 
     mat_train = []
@@ -56,12 +56,12 @@ def f2wordmat(filename, ho_ratio, nlp_lib):
     vocabulary = nlp_lib.extract_vocabulary(wmat_train)
 
     for row in wmat_train:
-        mat_train.append(nlp_lib.bag_of_words2vector(vocabulary, row))
+        mat_train.append(nlp_lib.bag_of_word2vector(vocabulary, row))
 
     if len(wmat) > 2 and ho_ratio != 0:
         wmat_test, label_test = wmat[2:4]
         for row in wmat_test:
-            mat_test.append(nlp_lib.bag_of_words2vector(vocabulary, row))
+            mat_test.append(nlp_lib.bag_of_word2vector(vocabulary, row))
 
     if ho_ratio == 0:
         return mat_train,label_train, vocabulary
 
@@ -69,7 +69,7 @@ def extract_vocabulary(self, documents):
             vocabulary = vocabulary | set(ndoc)
         return list(vocabulary)
 
-    def set_of_words2vector(self, vocabulary, sentence):
+    def set_of_word2vector(self, vocabulary, sentence):
         voca_vector = [0] * len(vocabulary)
         if str(type(sentence).__name__) == 'str':
             sentence = self.split2words(sentence)
@@ -78,7 +78,7 @@ def set_of_words2vector(self, vocabulary, sentence):
                 voca_vector[vocabulary.index(word)] = 1
         return voca_vector
 
-    def bag_of_words2vector(self, vocabulary, sentence):
+    def bag_of_word2vector(self, vocabulary, sentence):
         voca_vector = [0] * len(vocabulary)
         if str(type(sentence).__name__) == 'str':
             sentence = self.split2words(sentence)
 
@@ -118,3 +118,33 @@
 0	5.2	3.4	1.4	0.2
 1	6.9	3.1	4.9	1.5
 2	6.5	3.0	5.8	2.2
+0	4.4	2.9	1.4	0.2
+1	6.7	3.1	4.7	1.5
+2	6.5	3.0	5.2	2.0
+0	5.1	3.3	1.7	0.5
+1	5.7	2.8	4.1	1.3
+2	6.5	3.2	5.1	2.0
+0	5.1	3.5	1.4	0.3
+1	5.7	2.6	3.5	1.0
+2	7.1	3.0	5.9	2.1
+0	5.1	3.8	1.6	0.2
+1	5.5	2.5	4.0	1.3
+2	7.9	3.8	6.4	2.0
+0	5.8	4.0	1.2	0.2
+1	5.0	2.3	3.3	1.0
+2	6.4	2.8	5.6	2.2
+0	5.2	3.5	1.5	0.2
+1	5.6	2.5	3.9	1.1
+2	7.2	3.2	6.0	1.8
+0	4.6	3.1	1.5	0.2
+1	5.5	2.4	3.7	1.0
+2	7.2	3.6	6.1	2.5
+0	5.7	4.4	1.5	0.4
+1	5.6	3.0	4.1	1.3
+2	4.9	2.5	4.5	1.7
+0	4.8	3.0	1.4	0.1
+1	6.3	3.3	4.7	1.6
+2	6.0	2.2	5.0	1.5
+0	4.8	3.4	1.9	0.2
+1	5.8	2.7	4.1	1.0
+2	6.3	2.9	5.6	1.8
@@ -1,2 +1,3 @@
+#!/usr/bin/python
 from test_pytrain import test_main
 
@@ -7,7 +7,7 @@
 from test_pytrain import test_Suite
 from pytrain.KNN import KNN
 from pytrain.lib import fs
-from pytrain.lib import batch
+from pytrain.lib import autotest
 
 
 class test_KNN(test_Suite):
@@ -20,8 +20,8 @@ def test_process(self):
         sample_label = ['A','A','B','B']
         knn = KNN(sample_mat, sample_label, 3, 'manhattan')
 
-        r1 = batch.eval_predict_one(knn, [0.9,0.9] , 'A', self.logging)
-        r2 = batch.eval_predict_one(knn, [0.1,0.4] , 'B', self.logging)
+        r1 = autotest.eval_predict_one(knn, [0.9,0.9] , 'A', self.logging)
+        r2 = autotest.eval_predict_one(knn, [0.1,0.4] , 'B', self.logging)
 
         assert r1 == True
         assert r2 == True
@@ -36,6 +36,6 @@ def test_process(self):
         dg_mat_train, dg_label_train = fs.f2mat("sample_data/digit/digit-train.txt",0)
         dg_mat_test, dg_label_test = fs.f2mat("sample_data/digit/digit-test.txt",0)
         knn_digit = KNN(dg_mat_train, dg_label_train, 3, 'euclidean')
-        error_rate = batch.eval_predict(knn_digit, dg_mat_test, dg_label_test, self.logging)
+        error_rate = autotest.eval_predict(knn_digit, dg_mat_test, dg_label_test, self.logging)
         self.tlog("digit predict (with basic knn) error rate :" + str(error_rate))
 
@@ -1,4 +1,5 @@
 from test_fs import *
 from test_normalize import *
-from test_batch import *
+from test_autotest import *
 from test_nlp import *
+from test_dataset import *
@@ -0,0 +1,24 @@
+#
+# test lib.autotest
+#
+# @ author becxer
+# @ email [email protected]
+#
+from test_pytrain import test_Suite
+from pytrain.KNN import KNN
+from pytrain.lib import autotest
+
+class test_autotest(test_Suite):
+
+    def __init__(self, logging = True):
+        test_Suite.__init__(self, logging)
+
+    def test_process(self):
+        normed_dmat_train = self.get_global_value('normed_iris_mat_train')
+        normed_dmat_test = self.get_global_value('normed_iris_mat_test')
+        dlabel_train = self.get_global_value('iris_label_train')
+        dlabel_test = self.get_global_value('iris_label_test')
+
+        knn_date = KNN(normed_dmat_train, dlabel_train, 3, 'euclidean')
+        error_rate = autotest.eval_predict(knn_date, normed_dmat_test, dlabel_test, self.logging)
+        self.tlog("date predict (with basic knn) error rate : " + str(error_rate))
@@ -0,0 +1,31 @@
+#
+# test lib.normalize
+#
+# @ author becxer
+# @ email [email protected]
+#
+from test_pytrain import test_Suite
+from pytrain.lib import dataset
+
+class test_dataset(test_Suite):
+
+    def __init__(self, logging = True):
+        test_Suite.__init__(self, logging)
+
+    def test_load_iris(self):
+        iris_mat_train, iris_label_train = dataset.load_iris("sample_data/iris", "training")
+        iris_mat_test, iris_label_test = dataset.load_iris("sample_data/iris", "testing")
+        self.tlog("iris train data size : " + str(len(iris_mat_train)))
+        self.tlog("iris test data size : " + str(len(iris_mat_test)))
+        
+    def test_load_mnist(self):
+        mnist_mat_train, mnist_label_train \
+          = dataset.load_mnist("sample_data/mnist", "training", [0,1,2,3,4])
+        mnist_mat_test, mnist_label_test \
+          = dataset.load_mnist("sample_data/mnist", "testing", [0,1,2,3,4])
+        self.tlog("mnist train data size : " + str(len(mnist_mat_train)))
+        self.tlog("mnist test data size : " + str(len(mnist_mat_test)))
+        
+    def test_process(self):
+        self.test_load_iris()
+        self.test_load_mnist()
@@ -13,39 +13,34 @@ class test_fs(test_Suite):
     def __init__(self, logging = True):
         test_Suite.__init__(self, logging)
 
-    def test_fs_f2mat(self):
-        sample_data = "sample_data/dating/date_info.txt"
+    def test_fs_csv_loader(self):
+        sample_data = "sample_data/iris/iris.csv"
         self.tlog("loading matrix => " + sample_data)
 
         dmat_train, dlabel_train, dmat_test, dlabel_test \
-            = fs.f2mat(sample_data, 0.1)
-        assert len(dmat_train) == 900
-        assert len(dlabel_train) == 900
-        assert len(dmat_test) == 100
-        assert len(dlabel_test) == 100
+            = fs.csv_loader(sample_data, 0.2)
 
-        self.set_global_value('dmat_train',dmat_train)
-        self.set_global_value('dlabel_train',dlabel_train)
-        self.set_global_value('dmat_test',dmat_test)
-        self.set_global_value('dlabel_test',dlabel_test)
+        self.tlog('iris train data size : ' + str(len(dmat_train)))
+        self.tlog('iris test data size : ' + str(len(dmat_test)))
 
+        self.set_global_value('iris_mat_train',dmat_train)
+        self.set_global_value('iris_label_train',dlabel_train)
+        self.set_global_value('iris_mat_test',dmat_test)
+        self.set_global_value('iris_label_test',dlabel_test)
 
-    def test_fs_f2wordmat(self):
-        sample_words = "sample_data/email/email_word_small.txt"
+    def test_fs_csv_loader_with_nlp(self):
+        sample_words = "sample_data/email/email.csv"
         self.tlog("loading words => " + sample_words)
 
-
         nlp_eng = nlp("eng")
         wordmat_train, wordlabel_train, voca, wordmat_test, wordlabel_test \
-                = fs.f2wordmat(sample_words, 0.1, nlp_eng)
-
-        assert len(voca) == 7
-        assert len(wordmat_train) == 4
-        assert len(wordlabel_train) == 4
+          = fs.csv_loader_with_nlp(sample_words, 0.1, nlp_eng)
 
+        self.tlog('email data voca size : ' + str(len(voca)))
+        self.tlog('voca sample : ' + str(voca[:5]))
 
     def test_process(self):
-        self.test_fs_f2mat()
-        self.test_fs_f2wordmat()
+        self.test_fs_csv_loader()
+        self.test_fs_csv_loader_with_nlp()
         # To see test of storing module, check test_decision_tree
Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,3 @@`
	`1`	`+#!/usr/bin/python`
`1`	`2`	`from test_pytrain import test_main`
`2`	`3`