Merge pull request #105 from koheiw/fix-wordvector

koheiw · web-flow · commit 871aa745159d · 2025-01-06T08:54:14.000+09:00
Fix wordvector
diff --git a/LSX.Rproj b/LSX.Rproj
@@ -1,4 +1,5 @@
 Version: 1.0
+ProjectId: 7985635d-e1dc-4855-b781-313f42a839cc
 
 RestoreWorkspace: Default
 SaveWorkspace: Default
diff --git a/R/as.textmodel.R b/R/as.textmodel.R
@@ -103,11 +103,15 @@ as.textmodel_lss.textmodel_lss <- function(x, ...) {
 #' @export
 #' @method as.textmodel_lss textmodel_wordvector
 as.textmodel_lss.textmodel_wordvector <- function(x, ...) {
+  if (is.null(x$values) && is.null(x$vectors))
+    stop("x must be a valid textmodel_wordvector object")
   if (!requireNamespace("wordvector"))
     stop("wordvector package must be installed")
-  if (is.null(x$vectors))
-    stop("x must be a valid textmodel_wordvector object")
-  result <- as.textmodel_lss(t(x$vectors), ...)
+  if (!is.null(x$values)) {
+    result <- as.textmodel_lss(t(x$values), ...)
+  } else {
+    result <- as.textmodel_lss(t(x$vectors), ...) # for wordvector v0.1.0
+  }
   result$frequency <- x$frequency[names(result$beta)]
   return(result)
 }
diff --git a/tests/data/save.R b/tests/data/save.R
@@ -0,0 +1,13 @@
+require(quanteda)
+require(wordvector)
+
+toks_test <- readRDS("../data/tokens_test.RDS")
+feat_test <- head(char_context(toks_test, "america*", min_count = 1, p = 0.05), 100)
+dfmt_test <- dfm(toks_test)
+seed_test <- as.seedwords(data_dictionary_sentiment)
+
+lss_test <- textmodel_lss(dfmt_test, seed_test, terms = feat_test, k = 300)
+saveRDS(lss_test, "../data/lss_test.RDS")
+
+w2v_test <- word2vec(head(toks, 10), min_count = 1)
+saveRDS(w2v_test, "tests/data/word2vec_test.RDS")
diff --git a/tests/data/word2vec_test.RDS b/tests/data/word2vec_test.RDS
diff --git a/tests/testthat/test-as.textmodel.R b/tests/testthat/test-as.textmodel.R
@@ -101,7 +101,7 @@ test_that("as.textmodel_lss works with textmodel_wordvector", {
   wdv <- readRDS("../data/word2vec_test.RDS")
   lss <- as.textmodel_lss(wdv, seed)
 
-  expect_equal(lss$embedding, t(wdv$vectors))
+  expect_equal(lss$embedding, t(wdv$values))
   expect_identical(lss$frequency, wdv$frequency)
   expect_identical(names(lss$frequency), names(wdv$frequency))
 
diff --git a/tests/testthat/test-utils.R b/tests/testthat/test-utils.R
@@ -1,13 +1,6 @@
 require(quanteda)
 require(ggplot2)
 
-# toks_test <- readRDS("../data/tokens_test.RDS")
-# feat_test <- head(char_context(toks_test, "america*", min_count = 1, p = 0.05), 100)
-# dfmt_test <- dfm(toks_test)
-# seed_test <- as.seedwords(data_dictionary_sentiment)
-# lss_test <- textmodel_lss(dfmt_test, seed_test, terms = feat_test, k = 300)
-# saveRDS(lss_test, "../data/lss_test.RDS")
-
 lss_test <- readRDS("../data/lss_test.RDS")
 
 test_that("diagnosys works", {

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	`Version: 1.0`
	`2`	`+ProjectId: 7985635d-e1dc-4855-b781-313f42a839cc`
`2`	`3`
`3`	`4`	`RestoreWorkspace: Default`
`4`	`5`	`SaveWorkspace: Default`