dtsOptions2::unicodeFilterRanges Data Member

You are here: C++ API

C++ Support Classes

Using the dtSearch Engine with C++

Using the dtSearch Engine with C++ (Linux)

Language Analyzer API

External Thesaurus API

File Parser API

Structs, Records, Enums

> dtsOptions2 Structure > dtsOptions2::unicodeFilterRanges Data Member

dtsOptions2::alphabetFile Data Member

dtsOptions2::autoFilterSizeMB Data Member

dtsOptions2::binaryFiles Data Member

dtsOptions2::binaryFilterTextChars Data Member

dtsOptions2::booleanConnectors Data Member

dtsOptions2::fieldFlags Data Member

dtsOptions2::fileTypeTableFile Data Member

dtsOptions2::fuzzyChar Data Member

dtsOptions2::homeDir Data Member

dtsOptions2::hyphens Data Member

dtsOptions2::indexNumbers Data Member

dtsOptions2::macroChar Data Member

dtsOptions2::matchDigitChar Data Member

dtsOptions2::maxFieldNesting Data Member

dtsOptions2::maxStoredFieldSize Data Member

dtsOptions2::maxWordLength Data Member

dtsOptions2::maxWordsToRetrieve Data Member

dtsOptions2::noiseWordFile Data Member

dtsOptions2::pAnalyzer Data Member

dtsOptions2::phonicChar Data Member

dtsOptions2::privateDir Data Member

dtsOptions2::segmentationRulesFile Data Member

dtsOptions2::stemmingChar Data Member

dtsOptions2::stemmingRulesFile Data Member

dtsOptions2::storedFieldDelimiterChar Data Member

dtsOptions2::synonymChar Data Member

dtsOptions2::tempFileDir Data Member

dtsOptions2::textFieldsFile Data Member

dtsOptions2::textFlags Data Member

dtsOptions2::titleSize Data Member

dtsOptions2::unicodeFilterBlockSize Data Member

dtsOptions2::unicodeFilterFlags Data Member

dtsOptions2::unicodeFilterMinTextSize Data Member

dtsOptions2::unicodeFilterRanges Data Member

dtsOptions2::unicodeFilterWordOverlapAmount Data Member

dtsOptions2::updateFiles Data Member

dtsOptions2::userThesaurusFile Data Member

dtsOptions2::weightChar Data Member

dtsOptions2::xmlIgnoreTags Data Member

dtsOptions2::copy Method

dtsOptions2::copyFixedSizeValues Method

dtsOptions2::equals Method

dtsOptions2::validate Method

Close

dtSearch Text Retrieval Engine Programmer's Reference

Contents|Index|Home

Previous|Up|Next

dtsOptions2::unicodeFilterRanges Data Member

Indicates Unicode ranges that are of interest when filtering.

dtsOptions2 Structure

Syntax

C++

char unicodeFilterRanges[256];

Structure

dtsOptions2 Structure

Remarks

If unicodeFilterRanges is set to 1 and 8, then the filtering algorithm will look for characters from U+0100-U+01FF and U+0800-U+08FF

This is used to help the filtering algorithm to distinguish text from non-text data. It is only used as a hint in the algorithm, so if the text extraction algorithm detects text in another language with a sufficient level of confidence, it will return that text even if the language was not selected.

In the C++ API, a 256-byte array is used to specify the ranges, with each byte set to a nonzero value to indicate that the corresponding range should be included.

See Also

Filtering Options

Copyright (c) 1995-2025 dtSearch Corp. All rights reserved.