diff --git a/opennlp-tools/lang/de/sentdetect/abb_DE.xml b/opennlp-tools/lang/de/abb_DE.xml similarity index 100% rename from opennlp-tools/lang/de/sentdetect/abb_DE.xml rename to opennlp-tools/lang/de/abb_DE.xml diff --git a/opennlp-tools/lang/es/abb_ES.xml b/opennlp-tools/lang/es/abb_ES.xml new file mode 100644 index 000000000..cc6633eed --- /dev/null +++ b/opennlp-tools/lang/es/abb_ES.xml @@ -0,0 +1,236 @@ + + + + + + + a.C. + + + a. de C. + + + a.J.C. + + + a. de J.C. + + + a. m. + + + apdo. + + + apdo. + + + aprox. + + + Av. + + + Avda. + + + Bs. As. + + + c.c. + + + cap. + + + D. + + + Da. + + + Dña. + + + d.C. + + + d. de C. + + + d.J.C. + + + d. de J.C + + + dna. + + + EE. UU. + + + etc. + + + f.c. + + + F.C. + + + FF. AA. + + + Dr. + + + Dra. + + + Gob. + + + Lic. + + + Ing. + + + Pdte. + + + Pdta. + + + pág. + + + no. + + + núm. + + + p.ej. + + + p. m. + + + Prof. + + + Profa. + + + q.e.p.d. + + + S.A. + + + S.L. + + + Sr. + + + Sra. + + + Srta. + + + Ud. + + + Vd. + + + Uds. + + + Vds. + + + vol. + + + v. + + + lu. + + + ma. + + + mi. + + + ju. + + + vi. + + + sá. + + + do. + + + en. + + + feb. + + + mzo. + + + abr. + + + my. + + + jun. + + + jul. + + + ag. + + + set. + + + oct. + + + nov. + + + dic. + + diff --git a/opennlp-tools/lang/ga/sentdetect/abb.xml b/opennlp-tools/lang/ga/abb_GA.xml similarity index 100% rename from opennlp-tools/lang/ga/sentdetect/abb.xml rename to opennlp-tools/lang/ga/abb_GA.xml diff --git a/opennlp-tools/src/test/java/opennlp/tools/cmdline/tokenizer/TokenizerTrainerToolTest.java b/opennlp-tools/src/test/java/opennlp/tools/cmdline/tokenizer/TokenizerTrainerToolTest.java index 5431e8c50..8d1fe1398 100644 --- a/opennlp-tools/src/test/java/opennlp/tools/cmdline/tokenizer/TokenizerTrainerToolTest.java +++ b/opennlp-tools/src/test/java/opennlp/tools/cmdline/tokenizer/TokenizerTrainerToolTest.java @@ -63,7 +63,7 @@ public void testGetShortDescription() { @Test public void testLoadDictHappyCase() throws IOException { - File dictFile = new File("lang/ga/sentdetect/abb.xml"); + File dictFile = new File("lang/ga/abb_GA.xml"); Dictionary dict = TokenizerTrainerTool.loadDict(dictFile); Assertions.assertNotNull(dict); } diff --git a/opennlp-tools/src/test/java/opennlp/tools/sentdetect/AbstractSentenceDetectorTest.java b/opennlp-tools/src/test/java/opennlp/tools/sentdetect/AbstractSentenceDetectorTest.java index 5b709b15b..1ce1dfb39 100644 --- a/opennlp-tools/src/test/java/opennlp/tools/sentdetect/AbstractSentenceDetectorTest.java +++ b/opennlp-tools/src/test/java/opennlp/tools/sentdetect/AbstractSentenceDetectorTest.java @@ -29,11 +29,15 @@ import opennlp.tools.util.TrainingParameters; public abstract class AbstractSentenceDetectorTest { - + + protected static final Locale LOCALE_SPANISH = new Locale("es"); + static ObjectStream createSampleStream(Locale loc) throws IOException { final String trainingResource; if (loc.equals(Locale.GERMAN)) { trainingResource = "/opennlp/tools/sentdetect/Sentences_DE.txt"; + } else if (loc.equals(LOCALE_SPANISH)) { + trainingResource = "/opennlp/tools/sentdetect/Sentences_ES.txt"; } else { trainingResource = "/opennlp/tools/sentdetect/Sentences.txt"; } @@ -43,22 +47,26 @@ static ObjectStream createSampleStream(Locale loc) throws IOExce } static SentenceModel train(SentenceDetectorFactory factory, Locale loc) throws IOException { - final String languageCode; + final String lang; if (loc.equals(Locale.GERMAN)) { - languageCode = "deu"; + lang = "deu"; + } else if (loc.equals(LOCALE_SPANISH)) { + lang = "spa"; } else { - languageCode = "eng"; + lang = "eng"; } - return SentenceDetectorME.train(languageCode, createSampleStream(loc), factory, + return SentenceDetectorME.train(lang, createSampleStream(loc), factory, TrainingParameters.defaultParams()); } static Dictionary loadAbbDictionary(Locale loc) throws IOException { final String abbrevDict; if (loc.equals(Locale.GERMAN)) { - abbrevDict = "opennlp/tools/sentdetect/abb_DE.xml"; + abbrevDict = "opennlp/tools/lang/abb_DE.xml"; + } else if (loc.equals(LOCALE_SPANISH)) { + abbrevDict = "opennlp/tools/lang/abb_ES.xml"; } else { - abbrevDict = "opennlp/tools/sentdetect/abb.xml"; + abbrevDict = "opennlp/tools/lang/abb_EN.xml"; } return new Dictionary(AbstractSentenceDetectorTest.class.getClassLoader() .getResourceAsStream(abbrevDict)); diff --git a/opennlp-tools/src/test/java/opennlp/tools/sentdetect/SentenceDetectorMEGermanTest.java b/opennlp-tools/src/test/java/opennlp/tools/sentdetect/SentenceDetectorMEGermanTest.java index 6e1ae169a..a520ed27e 100644 --- a/opennlp-tools/src/test/java/opennlp/tools/sentdetect/SentenceDetectorMEGermanTest.java +++ b/opennlp-tools/src/test/java/opennlp/tools/sentdetect/SentenceDetectorMEGermanTest.java @@ -17,7 +17,6 @@ package opennlp.tools.sentdetect; - import java.io.IOException; import java.util.Locale; @@ -33,8 +32,8 @@ * Verifies OPENNLP-793 in combination with OPENNLP-570. *

* In this context, well-known known German (de_DE) abbreviations must be respected, - * so that non-sentence breaks (words abbreviated with one or more '.' characters) - * result in incorrect sentence boundaries . + * so that words abbreviated with one or more '.' characters do not + * result in incorrect sentence boundaries. *

* See: * OPENNLP-793 @@ -65,8 +64,8 @@ void testSentDetectWithInlineAbbreviationsEx1() { final String sent2 = "Ich wähle den auf S. 183 ff. mitgeteilten Traum von der botanischen Monographie."; SentenceDetectorME sentDetect = new SentenceDetectorME(sentdetectModel); - String sampleSentences1 = sent1 + " " + sent2; - String[] sents = sentDetect.sentDetect(sampleSentences1); + String sampleSentences = sent1 + " " + sent2; + String[] sents = sentDetect.sentDetect(sampleSentences); Assertions.assertEquals(2, sents.length); Assertions.assertEquals(sent1, sents[0]); Assertions.assertEquals(sent2, sents[1]); diff --git a/opennlp-tools/src/test/java/opennlp/tools/sentdetect/SentenceDetectorMESpanishTest.java b/opennlp-tools/src/test/java/opennlp/tools/sentdetect/SentenceDetectorMESpanishTest.java new file mode 100644 index 000000000..b9aad3d03 --- /dev/null +++ b/opennlp-tools/src/test/java/opennlp/tools/sentdetect/SentenceDetectorMESpanishTest.java @@ -0,0 +1,104 @@ +/* + * Licensed to the Apache Software Foundation (ASF) under one or more + * contributor license agreements. See the NOTICE file distributed with + * this work for additional information regarding copyright ownership. + * The ASF licenses this file to You under the Apache License, Version 2.0 + * (the "License"); you may not use this file except in compliance with + * the License. You may obtain a copy of the License at + * + * http://www.apache.org/licenses/LICENSE-2.0 + * + * Unless required by applicable law or agreed to in writing, software + * distributed under the License is distributed on an "AS IS" BASIS, + * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. + * See the License for the specific language governing permissions and + * limitations under the License. + */ + +package opennlp.tools.sentdetect; + +import java.io.IOException; + +import org.junit.jupiter.api.Assertions; +import org.junit.jupiter.api.BeforeAll; +import org.junit.jupiter.api.Test; + +import opennlp.tools.dictionary.Dictionary; + +/** + * Tests for the {@link SentenceDetectorME} class. + *

+ * Demonstrates OPENNLP-1526. + *

+ * In this context, well-known known Spanish (es_ES) abbreviations must be respected, + * so that words abbreviated with one or more '.' characters do not + * result in incorrect sentence boundaries. + *

+ * See: + * OPENNLP-1526 + */ +public class SentenceDetectorMESpanishTest extends AbstractSentenceDetectorTest { + + private static final char[] EOS_CHARS = {'.', '?', '!'}; + + private static SentenceModel sentdetectModel; + + @BeforeAll + public static void prepareResources() throws IOException { + Dictionary abbreviationDict = loadAbbDictionary(LOCALE_SPANISH); + SentenceDetectorFactory factory = new SentenceDetectorFactory( + "spa", true, abbreviationDict, EOS_CHARS); + sentdetectModel = train(factory, LOCALE_SPANISH); + Assertions.assertNotNull(sentdetectModel); + Assertions.assertEquals("spa", sentdetectModel.getLanguage()); + } + + @Test + void testSentDetectWithInlineAbbreviationsEx1() { + // In this rather long sentence, we find two abbreviations: "cf. (see)", "pág. = Página" + final String sent1 = "Ya Aristóteles creía en la posibilidad de hallar en los sueños la indicación" + + "del comienzo de una enfermedad de la que en el estado de vigilia no experimentábamos aún" + + "el menor indicio (merced a la ampliación que el sueño deja experimentar a las" + + "impresiones), y autores médicos de cuyas opiniones se hallaba muy lejos el conceder a los" + + "sueños un valor profético, han aceptado esta significación de los mismos como" + + "anunciadores de la enfermedad (cf. Simón, pág. 31, y otros muchos autores más" + + "antiguos)."; + final String sent2 = "Tampoco en la época moderna faltan ejemplos comprobados de una tal " + + "función diagnóstica del sueño."; + + String sampleSentences = sent1 + " " + sent2; + SentenceDetectorME sentDetect = new SentenceDetectorME(sentdetectModel); + String[] sents = sentDetect.sentDetect(sampleSentences); + Assertions.assertEquals(2, sents.length); + Assertions.assertEquals(sent1, sents[0]); + Assertions.assertEquals(sent2, sents[1]); + double[] probs = sentDetect.getSentenceProbabilities(); + Assertions.assertEquals(2, probs.length); + } + + @Test + void testSentDetectWithInlineAbbreviationsEx2() { + // Here we have three abbreviations: "pág. = Página", "cf. (see)" + final String sent1 = "El panel de color que abro (cf. el análisis de la pág. 185) trata un tema nuevo"; + + SentenceDetectorME sentDetect = new SentenceDetectorME(sentdetectModel); + String[] sents = sentDetect.sentDetect(sent1); + Assertions.assertEquals(1, sents.length); + Assertions.assertEquals(sent1, sents[0]); + double[] probs = sentDetect.getSentenceProbabilities(); + Assertions.assertEquals(1, probs.length); + } + + @Test + void testSentDetectWithInlineAbbreviationsEx3() { + // Here we have two abbreviations "p.ej. = for instance" and "pág. = Página" + final String sent1 = "El panel de color que abro (p.ej. el análisis de la pág. 185) trata un tema nuevo"; + + SentenceDetectorME sentDetect = new SentenceDetectorME(sentdetectModel); + String[] sents = sentDetect.sentDetect(sent1); + Assertions.assertEquals(1, sents.length); + Assertions.assertEquals(sent1, sents[0]); + double[] probs = sentDetect.getSentenceProbabilities(); + Assertions.assertEquals(1, probs.length); + } +} diff --git a/opennlp-tools/src/test/java/opennlp/tools/tokenize/TokenizerFactoryTest.java b/opennlp-tools/src/test/java/opennlp/tools/tokenize/TokenizerFactoryTest.java index 25388b291..1b12c93f8 100644 --- a/opennlp-tools/src/test/java/opennlp/tools/tokenize/TokenizerFactoryTest.java +++ b/opennlp-tools/src/test/java/opennlp/tools/tokenize/TokenizerFactoryTest.java @@ -42,6 +42,8 @@ */ public class TokenizerFactoryTest { + private static final Locale LOCALE_SPANISH = new Locale("es"); + private static ObjectStream createSampleStream() throws IOException { InputStreamFactory in = new ResourceAsStreamFactory( TokenizerFactoryTest.class, "/opennlp/tools/tokenize/token.train"); @@ -57,9 +59,11 @@ private static TokenizerModel train(TokenizerFactory factory) private static Dictionary loadAbbDictionary(Locale loc) throws IOException { final String abbrevDict; if (loc.equals(Locale.GERMAN)) { - abbrevDict = "opennlp/tools/sentdetect/abb_DE.xml"; + abbrevDict = "opennlp/tools/lang/abb_DE.xml"; + } else if (loc.equals(LOCALE_SPANISH)) { + abbrevDict = "opennlp/tools/lang/abb_ES.xml"; } else { - abbrevDict = "opennlp/tools/sentdetect/abb.xml"; + abbrevDict = "opennlp/tools/lang/abb_EN.xml"; } return new Dictionary(TokenizerFactoryTest.class.getClassLoader() .getResourceAsStream(abbrevDict)); @@ -172,6 +176,8 @@ void checkCustomPatternForTokenizerME(String lang, String pattern, String senten Locale loc = Locale.ENGLISH; if ("deu".equals(lang)) { loc = Locale.GERMAN; + } else if ("spa".equals(lang)) { + loc = LOCALE_SPANISH; } TokenizerModel model = train(new TokenizerFactory(lang, loadAbbDictionary(loc), true, Pattern.compile(pattern))); @@ -191,13 +197,22 @@ void checkCustomPatternForTokenizerME(String lang, String pattern, String senten } @Test - void testCustomPatternForTokenizerMEDeu() throws IOException { + void testCustomPatternForTokenizerMEWithAbbreviationsDeu() throws IOException { String lang = "deu"; String pattern = "^[A-Za-z0-9äéöüÄÉÖÜß]+$"; String sentence = "Ich wähle den auf S. 183 ff. mitgeteilten Traum von der botanischen Monographie."; checkCustomPatternForTokenizerME(lang, pattern, sentence, 14); } + @Test + void testCustomPatternForTokenizerMEWithAbbreviationsSpa() throws IOException { + String lang = "spa"; + String pattern = "^[0-9a-záéíóúüýñA-ZÁÉÍÓÚÝÑ]+$"; + String sentence = "Elegiremos el de la monografía botánica expuesto antes del " + + "capítulo V en pág. 448 del presente volumen."; + checkCustomPatternForTokenizerME(lang, pattern, sentence, 18); + } + @Test void testCustomPatternForTokenizerMEPor() throws IOException { String lang = "por"; diff --git a/opennlp-tools/src/test/resources/opennlp/tools/sentdetect/abb_DE.xml b/opennlp-tools/src/test/resources/opennlp/tools/lang/abb_DE.xml similarity index 100% rename from opennlp-tools/src/test/resources/opennlp/tools/sentdetect/abb_DE.xml rename to opennlp-tools/src/test/resources/opennlp/tools/lang/abb_DE.xml diff --git a/opennlp-tools/src/test/resources/opennlp/tools/sentdetect/abb.xml b/opennlp-tools/src/test/resources/opennlp/tools/lang/abb_EN.xml similarity index 100% rename from opennlp-tools/src/test/resources/opennlp/tools/sentdetect/abb.xml rename to opennlp-tools/src/test/resources/opennlp/tools/lang/abb_EN.xml diff --git a/opennlp-tools/src/test/resources/opennlp/tools/lang/abb_ES.xml b/opennlp-tools/src/test/resources/opennlp/tools/lang/abb_ES.xml new file mode 100644 index 000000000..1b8e91bff --- /dev/null +++ b/opennlp-tools/src/test/resources/opennlp/tools/lang/abb_ES.xml @@ -0,0 +1,41 @@ + + + + + + + aprox. + + + pág. + + + p.ej. + + + cf. + + + Sr. + + + Sra. + + diff --git a/opennlp-tools/src/test/resources/opennlp/tools/sentdetect/Sentences_ES.txt b/opennlp-tools/src/test/resources/opennlp/tools/sentdetect/Sentences_ES.txt new file mode 100644 index 000000000..401eedd45 --- /dev/null +++ b/opennlp-tools/src/test/resources/opennlp/tools/sentdetect/Sentences_ES.txt @@ -0,0 +1,102 @@ +Lo primero que la comparación del contenido manifiesto con las ideas latentes evidencia al investigador es que ha tenido efecto una magna labor de condensación. +El sueño es conciso, pobre y lacónico en comparación con la amplitud y la riquea de las ideas latentes. +Su relación escrita ocupa apenas media página. +En cambio, la del análisis en el cual se hallan contenidas las ideas latentes ocupa seis, ocho o doce veces más espacio. +Esta proporción es muy variable, y por lo que hasta el momento hemos podido comprobar, no influye para nada en el sentido de los sueños correspondientes. +Generalmente se estima muy por debajo el montante de la comprensión que ha tenido efecto, pues se consideran las ideas latentes descubiertas como la totalidad del material dado, siendo así que no constituyen sino una parte del mismo y que, prosiguiendo el análisis, podemos hallar todavía nuevas series de ideas que se ocultaban detrás del sueño. +Ya indicamos antes que jamás podemos estar seguros de haber agotado la interpretación de un sueño. +Aunque la solución obtenida nos parezca completa y satisfactoria, queda siempre la posibilidad de que el mismo sueño haya servido también de exteriorización a otro sentido más. +Así, pues, el montante de condensación es -en términos rigurosos- indeterminable. +Contra el aserto de que la desproporción entre contenido manifiesto e ideas latentes nos fuerza a deducir que en la elaboración onírica ha tenido efecto una amplia condensación de material psíquico, podría elevarse una objeción, a primera vista muy plausible. +Pudiera, en efecto, alegarse la impresión que con tanta frecuencia experimentamos de haber soñado muchas cosas a través de toda la noche y haber olvidado después la mayor parte. +De este modo el sueño que al despertar recordamos no sería sino un resto de la total elaboración onírica, la cual, recordada por entero, presentaría una amplitud igual a la de las ideas latentes. +Hay aquí una parte de verdad, pues la observación de que cuando más fielmente nos es dado reproducir un sueño es cuando intentamos recordarlo inmediatamente después de despertar, mientras que conforme avanza el día va haciéndose su recuerdo cada vez más vago e incompleto, es rigurosamente cierta. +Pero, por otro lado, podemos comprobar que el sentimiento de haber soñado mucho más de lo que podemos reproducir reposa muchas veces en una ilusión, cuyo origen aclararemos más adelante. +Además, la hipótesis de una condensación en la elaboración onírica no queda contradicha en modo alguno por la posibilidad del olvido de los sueños, pues resulta demostrada por las masas de representaciones pertenecientes a cada uno de los fragmentos oníricos conservados. +Lo que sucede cuando realmente ha sido olvidada una gran parte del sueño es que tal olvido nos cierra el acceso a una nueva serie de ideas latentes, pues nada justifica la suposición de que los fragmentos oníricos olvidados no se habrían referido sino a aquellas ideas que ya conocemos por el análisis de los conservados. +Ante la extraordinaria cantidad de ocurrencias que el análisis aporta con respecto a cada elemento del contenido onírico surgirá en nuestros lectores la duda de si podemos considerar como perteneciente a las ideas latentes todo aquello que a posteriori se nos ocurre durante la labor analítica; esto es, si debemos suponer que todas estas ideas se hallaban ya en actividad durante el reposo y contribuyeron a la elaboración del sueño, o si no es mucho más verosímil que durante dicha labor surjan nuevas asociaciones de ideas que no tomaron parte alguna en la constitución del mismo. +Sólo condicionalmente podemos agregarnos a esta duda. +Es, desde luego, cierto que durante el análisis surgen por primera vez algunas asociaciones, pero siempre nos es dado comprobar que tales nuevas conexiones sólo se establecen entre ideas que se hallaban ya enlazadas de otra manera en el contenido latente. +Las nuevas conexiones no son sino contactos o corto circuitos facilitados por la existencia de otros caminos de enlace más profundos. +Con respecto a la mayor parte de las masas de ideas descubiertas en el análisis, nos vemos obligados a reconocer que han actuado ya en la elaboración del sueño; pues cuando hemos seguido una cadena de tales pensamientos, que parecen exentos de todo nexo con dicha elaboración, tropezamos bruscamente con una idea que se halla representada en el sueño, es indispensable para la elaboración del mismo y no resulta accesible sino por la persecución de dicha serie de pensamientos, ajena en apariencia a la formación del producto onírico. +Recuérdese a este respecto el sueño de la monografía botánica, que se nos muestra como el resultado de una asombrosa condensación, aunque no hemos comunicado su análisis sino fragmentariamente. +Pero entonces, ¿cómo hemos de representarnos el estado psíquico que durante el reposo precede al soñar? +Las ideas latentes, ¿aparecen dadas en conjunto o son recorridas de un modo sucesivo? +¿No podrá ser también que, partiendo de diversos centros, se constituyan varias cadenas de ideas simultáneas, que luego se unan en un punto dado? +A mi juicio, no tenemos necesidad ninguna de crearnos una representación plástica del estado psíquico en la elaboración onírica. +Bastará con no olvidar que se trata del pensamiento inconsciente y que el proceso puede ser muy distinto del que percibíamos en nosotros en la reflexión voluntaria acompañada de conciencia. +De todos modos, el hecho es que la elaboración onírica reposa sobre una condensación permanente inquebrantable. +Ahora bien: ¿cómo se lleva a cabo tal condensación? Si reflexionamos que de las ideas latentes halladas sólo una minoría queda representada en el sueño por uno de sus elementos de representación, habríamos de concluir que la condensación se verifica por exclusión, no siendo así el sueño una fiel traducción o una proyección, punto por punto, de las ideas latentes, sino una reproducción harto incompleta y llena de lagunas de las mismas. +Este juicio es, sin embargo, como pronto veremos, harto equivocado. +Pero tomémoslo al principio como base y continuemos preguntándonos: si al contenido manifiesto no llegan sino pocos elementos de las ideas latentes, ¿qué condiciones determinan la selección de las mismas? +Para contestar a esta interrogación examinaremos aquellos elementos del contenido manifiesto que tienen que haber cumplido tales condiciones. +El material mejor para esta investigación será, sin duda, un sueño en cuya elaboración haya tenido efecto una condensación particularmente enérgica. +Elegiremos el de la monografía botánica, expuesto antes del capítulo V (pág. 448 del presente volumen). +Sueño de la monografía botánica. +Contenido manifiesto. +He escrito una monografía sobre una especie (indeterminada) de plantas. +Tengo el libro ante mí y vuelvo en este momento la página por la que se hallaba abierto y que contiene una lámina en colores. +Cada ejemplar ostenta, a manera de herbario, un espécimen disecado de la planta. +El elemento más evidente de este sueño es la monografía botánica. +Como ya indicamos, procede de las impresiones del día del sueño, pues la tarde anterior al mismo había visto realmente en el escaparate de un librero una monograma sobre los ciclámenes. +El contenido manifiesto omite mencionar esta especie y conservar tan sólo la monografía y su relación con la Botánica. +La monografía botánica demuestra en seguida su relación con mi estudio sobre la cocaína, y de esta última se dirige la asociación de ideas, por un lado, al escrito redactado con motivo del aniversario de un laboratorio y a determinados hechos relacionados con tal institución, y por otro, a mi amigo el oculista doctor Königstein, que participó en la aplicación de la cocaína como anestésico. +A la persona del doctor Königstein se enlazan, además, el recuerdo del interrumpido diálogo que sostuve con él la tarde anterior y los diversos pensamientos sobre el pago de los servicios médicos entre colegas. +Esta conversación es el verdadero estímulo onírico actual. +La monograma sobre los ciclámenes es también una actualidad, pero de naturaleza indiferente. +Resulta, pues, que la monografía botánica del sueño se demuestra como un elemento común intermedio entre ambos sucesos diurnos, tomado sin modificación alguna de la impresión indiferente y enlazado con el suceso psíquicamente importante por amplísimos enlaces de asociaciones. +Pero no sólo la representación compuesta monografía botánica, sino también aisladamente cada uno de sus elementos, botánica y monografía, van profundizando más y más, por medio de múltiples asociaciones, en la madeja de ideas latentes. +Al elemento botánica pertenecen los recuerdos relativos a la persona del profesor Gaertner (jardinero), a su floreciente mujer, a aquella paciente mía cuyo nombre era Flora y la señora de la que relaté la historia de las flores olvidadas. +El elemento Gaertner me conduce nuevamente al laboratorio y a la conversación con Königstein, a la que pertenece asimismo la mención de mis dos pacientes. +De la señora de las flores parte un camino mental hasta las flores preferidas de mi mujer, punto en el que converge también otro camino cuyo punto de partida es el título de la monografía vista en la vigilia. +El elemento botánica recuerda, además, el episodio del herbario y un examen de mi época universitaria, y un nuevo tema tratado en mi conversación con el oculista -el de mis aficiones- se enlaza por mediación de la alcachofa, a la que humorísticamente llamo mi flor preferida, a la concatenación de ideas por parte de las flores olvidadas. +Detrás del elemento alcachofa se esconde, en primer lugar, el recuerdo de Italia, y en segundo, el de una escena infantil que inició mis relaciones, tan íntimas luego, con los libros. +Así, pues, botánica es un verdadero foco de convergencia, en el que se reúnen para el sueño numerosas series de ideas, cuyo enlace quedó efectuado en mi conversación con Königstein. +Nos hallamos aquí en medio de una fábrica de pensamientos en la que, como en una obra maestra de hilandería y según los famosos versos, se entrecruzan mil y mil hilos, -van y vienen las lanzaderas, -manan invisiblemente las hebras - y un único movimiento establece mil enlaces.(Goethe: 'Faust'.) +El elemento monografía del sueño procede a su vez de dos temas: lo unilateral de mis estudios y lo costoso de mis aficiones. +De este primer examen sacamos la impresión de que los elementos monografía y botánica han sido acogidos en el contenido manifiesto por ser los que presentan más considerable número de contactos con la mayoría de las ideas latentes, constituyendo así puntos de convergencia en los que van a reunirse muchas de tales ideas; esto es, por entrañar con respecto a la interpretación una multiplicidad de significaciones. +Expresando en forma distinta el hecho en que basamos esta explicación, podemos decir que cada uno de los elementos del contenido manifiesto demuestra hallarse superdeterminado y múltiplemente representado en las ideas latentes. +Investigando la emergencia de los demás elementos del sueño en las ideas latentes realizamos aún nuevos descubrimientos. +La lámina en colores contenida en la página por la que abro el libro se refiere (véase el análisis) a un nuevo tema, la crítica de mis obras por mis colegas; a otro ya representado en el sueño, mis aficiones, y al recuerdo infantil de la destrucción de un libro que tenía láminas de colores. +El espécimen disecado de la planta se refiere al suceso del herbario escolar y hace resaltar este recuerdo con especial energía. +Veo, pues, de qué género es la relación entre el contenido manifiesto y las ideas latentes: no sólo se hallan múltiplemente determinados los elementos del sueño por las ideas latentes, sino que cada una de éstas se halla asimismo representada en el sueño por varios elementos. +De un elemento del sueño conduce el camino de asociación a varias ideas latentes y de una idea latente, a varios elementos del sueño. +Así, pues, la elaboración no se verifica suministrando cada una de las ideas latentes o cada grupo por ellas formando una abreviatura destinada al contenido del sueño -como los habitantes de una nación eligen diputados que los representen en Cortes -, sino que la completa totalidad de las ideas latentes es sometida a cierta elaboración conforme a la cual los elementos más firmes y eficazmente sustentados quedan situados en primer término para su acceso al contenido manifiesto, procedimiento análogo al de elección por listas electorales. +Cualquiera que sea el sueño que sometamos a esta disección, confirmaremos los mismos principios; esto es, que los elementos del contenido manifiesto quedan constituidos a expensas de la totalidad de las ideas latentes y cada uno de ellos se muestra múltiplemente determinado con relación a dichas ideas. +No es seguramente ocioso demostrar prácticamente esta relación entre contenido manifiesto e ideas latentes con un nuevo ejemplo, caracterizado por la complicada trama de las relaciones recíprocas. +Este sueño procede de un enfermo de claustrofobia (miedo a los espacios cerrados) al que tuve sometido a tratamiento. +El título que doy a su ingeniosísima construcción onírica se halla plenamente justificado, como el lector verá más adelante. +Un bello sueño. +Acompañado por un nutrido grupo de gente, entra en la calle de X, en la cual hay una modesta posada (dato inexacto en la realidad). +En las habitaciones de esta posada se está verificando una representación teatral, y él es tan pronto espectador como actor. +Al final tienen todos que cambiarse de traje para volver a la ciudad. +A este fin se designa a parte del personal las habitaciones del piso bajo y a la otra las del primero. +Los de arriba se incomodan porque los de abajo no han acabado todavía y no pueden ellos bajar. +Su hermano está arriba; él, abajo, y se incomoda con aquél porque le da tanta prisa (toda esta parte, oscura en el sueño). +Además, ya al llegar estaban distribuidas las habitaciones y determinado quién había de estar arriba y quién abajo. +Luego camina solitario por la cuesta arriba que la calle X forma en dirección a la ciudad y anda tan difícil y trabajosamente, que apenas avanza. +Un caballero anciano se une a él e insulta al rey de Italia. +Próximo ya al final de la pendiente comienza a andar con mayor facilidad.La fatiga al andar fue tan clara en el sueño, que todavía, al despertar, dudó el sujeto por algunos momentos si se trataba de un sueño o de una realidad. +Si nos atenemos al contenido manifiesto, no presenta este sueño nada que merezca nuestro interés. +Contra lo regular, comenzaré la interpretación por el fragmento que el sujeto manifiesta ha sido el más claro y preciso. +La fatiga soñada y probablemente sentida en el sueño, esto es, la disnea al subir la cuesta, es uno de los síntomas que el sujeto mostró realmente hace algunos años y fue atribuido por entonces, con otros fenómenos, a una tuberculosis (simulada probablemente por la histeria). +Conocemos ya, por nuestro estudio de los sueños exhibicionistas, esta sensación de parálisis, peculiar al fenómeno onírico, y volvemos a comprobar aquí que es utilizada como un material disponible en todo momento para los fines de otra cualquier representación. +El fragmento onírico que describe cómo la subida se hacía muy trabajosa al principio y fácil, en cambio, al final de la pendiente me recordó, al escuchar el relato de este sueño, la conocida y magistral introducción de la Safo, de Alfonso Daudet. +Un joven sube una escalera llevando en brazos a su amada. +Al principio no siente apenas el peso del adorado cuerpo, pero conforme va subiendo va haciéndose más pesada la carga, hasta resultarle intolerable. +Esta escena resume la narración de Daudet, en la cual se propone el poeta advertir a la juventud de los peligros de prodigar seria inclinación a mujeres de baja extracción y dudoso pasado. +Aunque sabía que mi paciente había mantenido, y roto poco tiempo antes, relaciones amorosas con una actriz, no esperaba yo que mi espontánea interpretación se demostrase acertada. +Además, la escena de Safo se desarrollaba en sentido inverso a la del sueño, pues en éste es la subida penosa al principio y luego fácil mientras que para el símbolo de la +novela es necesario que aquello que al principio parece ligero resulte luego una pesada carga. +Para mi sorpresa, observó el paciente que tal interpretación se adaptaba muy bien al contenido de la obra que la noche anterior había visto representar en el teatro. +Dicha obra se titulaba En derredor de Viena y desarrollaba la vida de una muchacha de origen humilde que, lanzada a la vida galante, subía a capas más altas de la sociedad por sus relaciones con hombres aristócratas, pero acababa descendiendo cada vez más bajo. +El argumento de esta obra le había recordado otra, titulada De escalón en escalón, en cuyos carteles anunciadores se ostentaba una escalera de varios escalones. +La interpretación de este sueño continuó luego en la forma siguiente: En la calle X había vivido la actriz con la que últimamente había mantenido relaciones. +En dicha calle no hay posada ninguna. +Pero una vez que el sujeto había pasado parte del verano en Viena se alojó (descendió 'abgestregen') en un hotel cercano. +Al abandonarlo, dijo al cochero: Después de todo, no está mal este hotel. +Por lo menos no hay en él pulgas ni chinches (ésta era, además, una de sus fobias). +A lo cual respondió el cochero: No sé cómo se le ha ocurrido a usted venir a parar aquí. +Más que un hotel es una posada. +Al elemento posada se enlaza en seguida el recuerdo de unos versos de Uhland: Hace poco fui invitado -por un amable posadero. +EI posadero de estos versos es un manzano. \ No newline at end of file diff --git a/opennlp-tools/src/test/resources/opennlp/tools/sentdetect/origin-training-data.txt b/opennlp-tools/src/test/resources/opennlp/tools/sentdetect/origin-training-data.txt index c90ee9bfd..265ea8de3 100644 --- a/opennlp-tools/src/test/resources/opennlp/tools/sentdetect/origin-training-data.txt +++ b/opennlp-tools/src/test/resources/opennlp/tools/sentdetect/origin-training-data.txt @@ -3,4 +3,10 @@ Sentences_DE.txt: - Sigmund Freud - Die Traumdeutung - chapter VI: Die Traumarbeit | section A "Die Verdichtungsarbeit" available here: https://www.projekt-gutenberg.org/freud/traumdeu/chap006.html +################ +Sentences_ES.txt: +- Sigmund Freud - La interpretación de los sueños +- chapter VI: La elaboración onírica | section A "La labor de condensación" +available here: +https://ia600607.us.archive.org/9/items/El_Inconsciente/Freud_interpretacion_de_los_Suenios.pdf#page170 ################ \ No newline at end of file