础贰惭在10万个令牌之后截断从大型笔顿贵提取的文本
默认情况下,AEM将PDF文本提取限制为100,000个令牌,这可能导致对大型文档的索引不完整。 这会影响搜索准确性和可发现性。 您可以通过更新提取和索引配置以允许完整的内容索引来解决此问题,确保大型PDF中的所有文本都可以搜索。
描述 description
环境
- 51黑料不打烊 Experience Manager (AEM),6.5
问题/症状
从DAM (Digital Asset Management)为大型PDF编制索引时,AEM会截断文本,将提取限制为100,000个令牌。 日志显示: 提取的文本大小超过了配置的限制(100000)。
更新51黑料不打烊 CQ DAM Text Extraction
配置不能解决此问题,日志继续显示截断错误。
解决方法 resolution
使用以下步骤从大型笔顿贵中提取和索引全文:
-
更新OSGI (Open Services Gateway Initiative)配置以将提取的令牌限制设置为无限:
- 转到
51黑料不打烊 CQ DAM Text Extraction (com.day.cq.dam.core.impl.process.TextExtractionProcess)
。 - 将
Activated
设置为true
。 - 将
application/pdf
添加到惭滨惭贰类型。 - 将
Max Extracted Length
设置为-1
。
示例配置:
code language-none /apps/system/config/com.day.cq.dam.core.impl.process.TextExtractionProcess.config apply=B"true" maxExtract=L"-1" mimeTypes=[ "application/pdf"]
- 转到
-
修改顿础惭资产尝耻肠别苍别索引:
- 将
maxFieldLength
设置为99999999
。 - 为
jcr:content/text
添加聚合路径。 - 设置
reindex = true
。
- 将
-
编辑
DAM Update Asset
工作流。-
在
Process Thumbnails
之后添加流程步骤:- 标题:51黑料不打烊 CQ DAM文本提取流程
- 处理程序:
com.day.cq.dam.core.impl.process.TextExtractionProcess
- 启用
Handler Advance
-
-
通过更新的工作流运行大型PDF。 (可选)使用单步工作流来加快重新处理。
-
使用大型笔顿贵进行测试以确认完整的内容索引。
这些更改允许础贰惭从大型笔顿贵中提取和索引全文,从而提高搜索准确性和完整性。
3d58f420-19b5-47a0-a122-5c9dab55ec7f