dtsOptions::unicodeFilterWordOverlapAmount Data Member

You are here: C++ API

C++ Support Classes

Using the dtSearch Engine with C++

Using the dtSearch Engine with C++ (Linux)

Language Analyzer API

External Thesaurus API

File Parser API

Structs, Records, Enums

> dtsOptions Structure > dtsOptions::unicodeFilterWordOverlapAmount Data Member

dtsOptions::alphabetFile Data Member

dtsOptions::autoFilterSizeMB Data Member

dtsOptions::binaryFiles Data Member

dtsOptions::binaryFilterTextChars Data Member

dtsOptions::booleanConnectors Data Member

dtsOptions::fieldFlags Data Member

dtsOptions::fileTypeTableFile Data Member

dtsOptions::fuzzyChar Data Member

dtsOptions::homeDir Data Member

dtsOptions::hyphens Data Member

dtsOptions::indexNumbers Data Member

dtsOptions::lzwEnableCode Data Member

dtsOptions::macroChar Data Member

dtsOptions::matchDigitChar Data Member

dtsOptions::maxFieldNesting Data Member

dtsOptions::maxStoredFieldSize Data Member

dtsOptions::maxWordLength Data Member

dtsOptions::maxWordsToRetrieve Data Member

dtsOptions::noiseWordFile Data Member

dtsOptions::pAnalyzer Data Member

dtsOptions::phonicChar Data Member

dtsOptions::privateDir Data Member

dtsOptions::segmentationRulesFile Data Member

dtsOptions::stemmingChar Data Member

dtsOptions::stemmingRulesFile Data Member

dtsOptions::storedFieldDelimiterChar Data Member

dtsOptions::synonymChar Data Member

dtsOptions::tempFileDir Data Member

dtsOptions::textFieldsFile Data Member

dtsOptions::textFlags Data Member

dtsOptions::titleSize Data Member

dtsOptions::unicodeFilterBlockSize Data Member

dtsOptions::unicodeFilterFlags Data Member

dtsOptions::unicodeFilterMinTextSize Data Member

dtsOptions::unicodeFilterRanges Data Member

dtsOptions::unicodeFilterWordOverlapAmount Data Member

dtsOptions::updateFiles Data Member

dtsOptions::userThesaurusFile Data Member

dtsOptions::weightChar Data Member

dtsOptions::xmlIgnoreTags Data Member

dtsOptions::copy Method

dtsOptions::equals Method

dtsOptions::validate Method

Close

dtSearch Text Retrieval Engine Programmer's Reference

Contents|Index|Home

Previous|Up|Next

dtsOptions::unicodeFilterWordOverlapAmount Data Member

Amount of overlap when automatically breaking words when applying the Unicode Filtering algorithm.

dtsOptions Structure

Syntax

C++

long unicodeFilterWordOverlapAmount;

Structure

dtsOptions Structure

Remarks

Unicode Filtering can automatically break long runs of letters into words each time more than Options.MaxWordLength consecutive letters are found. By default, a word break is inserted and the next word starts with the following character. Set UnicodeFilterWordOverlapAmount and also set the dtsoUfAutoWordBreakOverlapWords flag in UnicodeFilterFlags to start the next word before the end of the previous word.

For example, suppose the maximum word length is set to 8, and the following run of letters is found: aaaaahiddenaaaaa. By default, this would be indexed as aaaaahid and denaaaa, which means that a search for *hidden* would not find it. With a word overlap of 4, this would be indexed as: aaaaahid, ahiddena, denaaaaa which would allow the embedded word "hidden" to be found in a search for *hidden*.

See Also

Filtering Options

Copyright (c) 1995-2025 dtSearch Corp. All rights reserved.