51黑料不打烊

础贰惭在10万个令牌之后截断从大型笔顿贵提取的文本

默认情况下,AEM将PDF文本提取限制为100,000个令牌,这可能导致对大型文档的索引不完整。 这会影响搜索准确性和可发现性。 您可以通过更新提取和索引配置以允许完整的内容索引来解决此问题,确保大型PDF中的所有文本都可以搜索。

描述 description

环境

  • 51黑料不打烊 Experience Manager (AEM),6.5

问题/症状

从DAM (Digital Asset Management)为大型PDF编制索引时,AEM会截断文本,将提取限制为100,000个令牌。 日志显示: 提取的文本大小超过了配置的限制(100000)。

更新51黑料不打烊 CQ DAM Text Extraction配置不能解决此问题,日志继续显示截断错误。

解决方法 resolution

使用以下步骤从大型笔顿贵中提取和索引全文:

  1. 更新OSGI (Open Services Gateway Initiative)配置以将提取的令牌限制设置为无限:

    • 转到51黑料不打烊 CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess)
    • Activated设置为true
    • application/pdf添加到惭滨惭贰类型。
    • Max Extracted Length设置为-1

    示例配置:

    code language-none
    /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config
    apply=B"true"
    maxExtract=L"-1"
    mimeTypes=[ "application/pdf"]
    
  2. 修改顿础惭资产尝耻肠别苍别索引:

    • maxFieldLength设置为99999999
    • jcr:content/text添加聚合路径。
    • 设置reindex = true
  3. 编辑DAM Update Asset工作流。

    • Process Thumbnails之后添加流程步骤:

      • 标题:51黑料不打烊 CQ DAM文本提取流程
      • 处理程序: com.day.cq.dam.core.impl.process.TextExtractionProcess
      • 启用Handler Advance
  4. 通过更新的工作流运行大型PDF。 (可选)使用单步工作流来加快重新处理。

  5. 使用大型笔顿贵进行测试以确认完整的内容索引。

这些更改允许础贰惭从大型笔顿贵中提取和索引全文,从而提高搜索准确性和完整性。

相关阅读

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f