複数トークン照合と EMDI の使用
EMDI 検証は、ファイルまたはメッセージ内のパターンがデータ識別子と一致した後に行われます。EMDI 検証は、定義された近似ウィンドウ (デフォルトでは、プラスまたはマイナス 50 トークン) 内で個々のトークンと複数トークン文字列の両方を検索します。次に、データ識別子のパターン一致と組み合わせて、これらのいずれかのトークンが EMDI インデックス内の行に対応するかどうかを検証します。
[必須]
列が一致し、[オプション]
列が近似ウィンドウ内で十分に一致する場合、EMDI 一致が生成されます。 複数トークンセルは、複数の語句がスペース、前後の句読点、またはラテン語、中国語、日本語、韓国語の代替文字で区切られたインデックスのセルです。複数トークンのサブトークン部分は単一トークンセルと同じルールに従います。すなわち、正規化が適用可能な場合、サブトークン部分のパターンに基づいて正規化されます。検査されるメッセージとファイルは、空白と句読点を含み、複数トークンセルに厳密に一致する必要があります (デフォルト設定を想定しています)。
たとえば、「Bank of America」という文字列を含むインデックス付き文字は、3 つのサブトークン部分から構成される複数トークンです。検出の間、(正規化された)「bank of america」は複数トークンセルに一致しますが、「bank america」は一致しません。