lucene Overview

每个segment都包含并维护以下各个部分:

字段名字。包含所有在这个索引segment中存在的字段。

存储的字段值。对于每个document包含一个属性-值对的list(其中属性就是字段名)。这些值是用作存储document辅助信息的,比如标题、url、或一个ID。这些存储的值将是查询命中时返回的信息。存储的字段值的KEY是上面所提的文档序号。

Term字典。这个字典包含所有索引过的文档里的所有词条。同时这个字典还包含了词条所在的文档序号同时还有指向这个词条频率和偏移位置信息的指针(引用)。

Term频率信息。对于字典里的每个term,包含它的文档的数量及在每个文档中term的频率信息都记录其中。

Term位置信息。对于字典里的每个term,它在文档中出现的位置信息。

归一化因子。对于每个文档里的每个字段(field),当查询命中在这个字段时应当乘上的倍数。

Term矢量。对于每个文档的每个字段,词条矢量(有时也称document 矢量)可能被存储。一个term矢量包括term的文本和term的频率。若要在索引中加入term矢量请看Field的构造函数。

删除文档。一个额外的字段来表示一个文档是否已被删除。

  以上各个部分的详细信息在下面各个章节中说明。