apache
diff --git a/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/DummyExtractionBackend.java‎
Lines changed: 2 additions & 2 deletions b/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/DummyExtractionBackend.java‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/ExtractingDocumentLoader.java‎
Lines changed: 7 additions & 7 deletions b/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/ExtractingDocumentLoader.java‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/ExtractionBackend.java‎
Lines changed: 1 addition & 2 deletions b/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/ExtractionBackend.java‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/ExtractionMetadata.java‎
Lines changed: 57 additions & 9 deletions b/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/ExtractionMetadata.java‎
Lines changed: 57 additions & 9 deletions
diff --git a/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/ExtractionRequest.java‎
Lines changed: 4 additions & 1 deletion b/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/ExtractionRequest.java‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/LocalTikaExtractionBackend.java‎
Lines changed: 3 additions & 4 deletions b/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/LocalTikaExtractionBackend.java‎
Lines changed: 3 additions & 4 deletions
diff --git a/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/SimpleExtractionMetadata.java‎
Lines changed: 0 additions & 52 deletions b/‎solr/modules/extraction/src/java/org/apache/solr/handler/extraction/SimpleExtractionMetadata.java‎
Lines changed: 0 additions & 52 deletions
@@ -29,7 +29,7 @@ public String name() {
 
   @Override
   public ExtractionResult extract(InputStream inputStream, ExtractionRequest request) {
-    ExtractionMetadata metadata = new SimpleExtractionMetadata();
+    ExtractionMetadata metadata = new ExtractionMetadata();
     metadata.add("Dummy-Backend", "true");
     metadata.add(
         "Content-Type",
@@ -43,7 +43,7 @@ public ExtractionResult extract(InputStream inputStream, ExtractionRequest reque
 
   @Override
   public ExtractionResult extractOnly(
-      InputStream inputStream, ExtractionRequest request, String extractFormat, String xpathExpr) {
+      InputStream inputStream, ExtractionRequest request, String xpathExpr) {
     if (xpathExpr != null) {
       throw new UnsupportedOperationException("XPath not supported by dummy backend");
     }
 
@@ -102,6 +102,8 @@ public void load(
 
       String xpathExpr = params.get(ExtractingParams.XPATH_EXPRESSION);
       boolean extractOnly = params.getBool(ExtractingParams.EXTRACT_ONLY, false);
+      String extractFormat =
+          params.get(ExtractingParams.EXTRACT_FORMAT, extractOnly ? XML_FORMAT : TEXT_FORMAT);
 
       // Parse optional passwords file into a map (keeps Tika usages out of this class)
       LinkedHashMap<Pattern, String> pwMap = null;
@@ -122,7 +124,8 @@ public void load(
               stream.getSourceInfo(),
               stream.getSize(),
               params.get(ExtractingParams.RESOURCE_PASSWORD, null),
-              pwMap);
+              pwMap,
+              extractFormat);
 
       boolean captureAttr = params.getBool(ExtractingParams.CAPTURE_ATTRIBUTES, false);
       String[] captureElems = params.getParams(ExtractingParams.CAPTURE_ELEMENTS);
@@ -135,10 +138,8 @@ public void load(
               || (passwordsFile != null);
 
       if (extractOnly) {
-        String extractFormat = params.get(ExtractingParams.EXTRACT_FORMAT, XML_FORMAT);
         try {
-          ExtractionResult result =
-              backend.extractOnly(inputStream, extractionRequest, extractFormat, xpathExpr);
+          ExtractionResult result = backend.extractOnly(inputStream, extractionRequest, xpathExpr);
           // Write content
           rsp.add(stream.getName(), result.getContent());
           // Write metadata
@@ -165,7 +166,7 @@ public void load(
 
       if (needLegacySax) {
         // Indexing with capture/xpath/etc: delegate SAX parse to backend
-        SimpleExtractionMetadata neutral = new SimpleExtractionMetadata();
+        ExtractionMetadata neutral = new ExtractionMetadata();
         SolrContentHandler handler =
             factory.createSolrContentHandler(neutral, params, req.getSchema());
         try {
@@ -194,8 +195,7 @@ public void load(
             log.warn("skip extracting text due to {}.", e.getLocalizedMessage(), e);
           // Index a document with literals only (no extracted content/metadata)
           SolrContentHandler handler =
-              factory.createSolrContentHandler(
-                  new SimpleExtractionMetadata(), params, req.getSchema());
+              factory.createSolrContentHandler(new ExtractionMetadata(), params, req.getSchema());
           addDoc(handler);
           return;
         }
 
@@ -32,8 +32,7 @@ public interface ExtractionBackend {
    * xpathExpr; if unsupported and xpathExpr is not null, they should throw
    * UnsupportedOperationException.
    */
-  ExtractionResult extractOnly(
-      InputStream inputStream, ExtractionRequest request, String extractFormat, String xpathExpr)
+  ExtractionResult extractOnly(InputStream inputStream, ExtractionRequest request, String xpathExpr)
       throws Exception;
 
   /**
 
@@ -16,16 +16,64 @@
  */
 package org.apache.solr.handler.extraction;
 
-/**
- * Neutral metadata container used by extraction backends. Provides minimal operations needed by
- * SolrContentHandler and response building without depending on Apache Tika's Metadata class.
- */
-public interface ExtractionMetadata {
-  void add(String name, String value);
+import java.util.ArrayList;
+import java.util.LinkedHashMap;
+import java.util.List;
+import java.util.Map;
+import java.util.Objects;
+
+/** Simple metadata bean */
+public class ExtractionMetadata {
+  private final Map<String, List<String>> map = new LinkedHashMap<>();
+
+  public void add(String name, String value) {
+    if (name == null || value == null) return;
+    map.computeIfAbsent(name, k -> new ArrayList<>()).add(value);
+  }
+
+  public String[] getValues(String name) {
+    List<String> vals = map.get(name);
+    if (vals == null) return new String[0];
+    return vals.toArray(new String[0]);
+  }
+
+  public String get(String name) {
+    List<String> vals = map.get(name);
+    if (vals == null || vals.isEmpty()) return null;
+    return vals.get(0);
+  }
+
+  public String[] names() {
+    return map.keySet().toArray(new String[0]);
+  }
+
+  public void remove(String name) {
+    map.remove(name);
+  }
 
-  String[] getValues(String name);
+  @Override
+  public String toString() {
+    StringBuilder sb = new StringBuilder("ExtractionMetadata{");
+    boolean first = true;
+    for (Map.Entry<String, List<String>> e : map.entrySet()) {
+      if (!first) sb.append(", ");
+      first = false;
+      sb.append(e.getKey()).append('=').append(e.getValue());
+    }
+    sb.append('}');
+    return sb.toString();
+  }
 
-  String get(String name);
+  @Override
+  public boolean equals(Object obj) {
+    if (this == obj) return true;
+    if (!(obj instanceof ExtractionMetadata)) return false;
+    ExtractionMetadata that = (ExtractionMetadata) obj;
+    return Objects.equals(this.map, that.map);
+  }
 
-  String[] names();
+  @Override
+  public int hashCode() {
+    return Objects.hash(map);
+  }
 }
@@ -28,6 +28,7 @@ public class ExtractionRequest {
   public final String resourcePassword; // optional password for encrypted docs
   public final java.util.LinkedHashMap<java.util.regex.Pattern, String>
       passwordsMap; // optional passwords map
+  public final String extractFormat;
 
   public ExtractionRequest(
       String streamType,
@@ -38,7 +39,8 @@ public ExtractionRequest(
       String streamSourceInfo,
       Long streamSize,
       String resourcePassword,
-      java.util.LinkedHashMap<java.util.regex.Pattern, String> passwordsMap) {
+      java.util.LinkedHashMap<java.util.regex.Pattern, String> passwordsMap,
+      String extractFormat) {
     this.streamType = streamType;
     this.resourceName = resourceName;
     this.contentType = contentType;
@@ -48,5 +50,6 @@ public ExtractionRequest(
     this.streamSize = streamSize;
     this.resourcePassword = resourcePassword;
     this.passwordsMap = passwordsMap;
+    this.extractFormat = extractFormat;
   }
 }
@@ -144,7 +144,7 @@ private ParseContext buildContext(Parser parser, ExtractionRequest request) {
   }
 
   private static ExtractionMetadata copyToNeutral(Metadata md) {
-    ExtractionMetadata out = new SimpleExtractionMetadata();
+    ExtractionMetadata out = new ExtractionMetadata();
     for (String name : md.names()) {
       String[] vals = md.getValues(name);
       if (vals != null) for (String v : vals) out.add(name, v);
@@ -168,8 +168,7 @@ public ExtractionResult extract(InputStream inputStream, ExtractionRequest reque
 
   @Override
   public ExtractionResult extractOnly(
-      InputStream inputStream, ExtractionRequest request, String extractFormat, String xpathExpr)
-      throws Exception {
+      InputStream inputStream, ExtractionRequest request, String xpathExpr) throws Exception {
     Parser parser = selectParser(request);
     if (parser == null) {
       throw new IllegalArgumentException("No Tika parser for stream type: " + request.streamType);
@@ -178,7 +177,7 @@ public ExtractionResult extractOnly(
     ParseContext context = buildContext(parser, request);
 
     String content;
-    if (ExtractingDocumentLoader.TEXT_FORMAT.equals(extractFormat) || xpathExpr != null) {
+    if (ExtractingDocumentLoader.TEXT_FORMAT.equals(request.extractFormat) || xpathExpr != null) {
       org.apache.tika.sax.ToTextContentHandler textHandler =
           new org.apache.tika.sax.ToTextContentHandler();
       org.xml.sax.ContentHandler ch = textHandler;