��/��/��ţ

��

��Solr��Apache Solr ��

��Դ�� - ��ܹ�ʦ

Sease[1] �� Alessandro Benedetti��Apache Lucene/Solr PMC ��Ա��ύ�ߣ�� Elia Porciani��Sease �з��ʦ��ͬΪ��Դ�� Apache Solr ��ĵ�һ��̱��

�� Apache Lucene ʵ�� [2] �� K-��

�ر��л Christine Poerschke��Cassandra Targett��Michael Gibney ��ڹ��׵��׶��ṩ�˺ܴ��ˡ��ʹ��һ��Ҳ�ܵ��˸߶��ͣ��ȡ�ý�չ��Ҫ��л��

��ǴӼ�̵Ľ��ܿ�ʼ��񾭷��θĽ��

��ǿ��Խ��Ϊ�ĸ��Ҫ��

��ָ��Ϣ��Ĳ�ѯ��ʾ

��ɲ��Ϣ��ĵ��ı�ʾ

ƥ��Ϣ��Ͽ�Ĳ�ѯ��ĵ��ʾ

Ϊÿ��ƥ��ĵ��һ��Ա��ݽ��е��Խ��һ��ĵ��

��Ϣ��[3] ѧ��ҵ��Ʒ��רע��ʹ�û��ļ��Ľ��Щ��е��κ�һ��

�˹��ܡ��ѧϰ��ʾ

��Խ��ԽƵ��˹��ܣ��ڿ�ʼ��˹��ܣ��͸��෽�档

��̸��˹��ʱ��ָ��һ��ʹ��ܹ�ѧϰ��ʾ��Ƶ��ܵļ��

��ǿ��ȶ��չ��˹��Ѿ��գ��򣬰��̺��Ϣ��ϵͳ�Ŀ�ѧ��

�ر��ǣ��ѧϰ [4] �ĳ��ʹ��Ծ��㷨�ǳ��ս�Եĸ��⡣

��ƪ��Ķ��ԣ�ֻҪ֪��ѧϰ��Ϣ��Ͽ��ɲ�ѯ��ĵ��ʾ��㹻�ˡ�

�ܼ��ʾ

��Ϊ��ͳ�ĵ��ı��ģΪ��ϡ�衱��Ͽ��е�ÿ��Ӧһ��ά�ȡ��ģ��У��ʴ��ά��Ӧ��ֵ��κθ��ĵ��󲿷ְ��㣨��Ϊϡ�裬��Ϊֻ��ֵ��н��κθ��ĵ��У��

�ܼ��ʾ��ϡ��ʾ�γɶԱȣ��Ϊ��ȡΪ�̶��ޣ��ά�ȡ�

��ַ��ά��ͨ��Զ��ϡ��κθ��ĵ��ܼ��ģ��Ϊ��Ĵ󲿷�ά��ɷ��ֵ��䡣

��ϡ�跽��ֱ�Ӵ��ı��ϡ��ȣ�� Apache Solr �ⲿ��Ӧ�ó��߼��д��

BERT[5] �ȸ��ѧϰģ��ܹ��ı��Ϣ��Ϊ�ܼ��ܼ��ԡ�

�йظ��Ϣ��Բο��ǵ��ƪ��ġ�

��

��һ��Ϣ��н�ģ��ܼ�� v��ṩ�ܼ��򵥷��Ǽ�� v ��Ϣ��Ͽ��ĵ��ÿ�� d ֮��ľ��루ŷ��á��ȣ��

��ַ��ǳ��Ŀǰ��ڻ��о��Ʋ��ԡ�

��㷨��ؽ��ѯ��ľ��Ϊ�Ӳ�ѯ��ľ�� c ��

��ַ��ĺô��ǣ��ڴ��£��ڼ��뾫ȷ��һ��á�

�ر��ǣ��׼ȷ�ز�׽��û��ĸ����ô��΢С��Ӧ��޹ؽ�Ҫ[6]

�ֲ㵼��Сͼ

�� Apache Lucene ��ʵ�ֲ�� Apache Solr ʹ�õĲ��Ի�� Navigable Small-world ͼ��

��Ϊ��ά��ṩ��һ��Ч�Ľ��[7][8][9][10]��

Hierarchical Navigable Small World Graph (HNSW) ��һ�ֻ��ڽ��ͼ��ķ��

��Ϣ��Ͽ��ռ��е�ÿ��Ψһ��һ��

vertex

in the graph

��ǵĽӽ��ͨ��Ե��ӣ��ģ��ݾ��뺯��ӡ�

��ͼ�ܳ��Ӱ�죬��Щ��ÿ��Ҫ��ٸ��Լ�Ҫ��ٲ㡣

�ڲ�ѯʱ��ھӽṹ��ҵ��Ŀ��ӽڵ㿪ʼ��Խ��Խ�ӽ�Ŀ��

�ҷ��Ͷ��о��ǳ��á�

Apache Lucene ʵ��

��Ҫע��ǵ�ǰ�� Lucene ʵ�ֲ��Ƿֲ�ġ�

��ͼ��ֻ��һ�㣬��ԭʼ Jira ��е��ۣ��ٿ��[11]��

��Ҫԭ��Ϊ�� Apache Lucene ��̬ϵͳ��Ϊ��ּ򻯵�ʵ��ҵ��׵��ơ��ͼ��ɹ��̡�

һ��Ϊ��ֲ�ֲ�ṹ��ڵ�ά��Ͳ�ѯʱ�䣨��ٺ�ѡ�ڵ��ô��

��ʵʩ��ڽ��[12]��

��ô�� Navigable Small World Graph �� K-Nearest Neighbors ��ص� Apache Lucene ��Щ��

��̽��룺

ע�� Lucene �ڲ��ṹ�ͱ��Ȥ��һ��

��ڣ�Lucene ��й�� NSW ͼ��ض��ֶε��á�

��ǿ��Σ�

Apache Solr ʵ��

�ɴ� Apache Solr 9.0 ��

Ԥ�� 2022 ��һ��

��һ��ֵ�ܼ��ʹ�ý��ƾ��뺯�� K-��ڡ�

��ǰ�ص㣺

DenseVectorField ��

Knn ��ѯ��

�ܼ��(DenseVectorField)

�ܼ��ֶ��ṩ��Ԫ�ص��ܼ��Ŀ��ԡ�

��

[1.0, 2.5, 3.7, 4.1]

�� DenseVectorField Ӧ��ģʽ��ã�

-----------------------------------------------------------------------------------------------------

-----------------------------------------------------------------------------------------------------

|vectorDimension? ?| True? ? ?|? ? ? ? ? ? ? ?|The dimension of the dense

vector to pass in.? ? |Integer < = 1024|

��

|similarityFunction |? ?False? ?| euclidean? ? |Vector similarity function;

used in search to return top K most similar vectors to a target vector.?

| euclidean, dot_product or cosine.

��

ŷ��ã�ŷ��þ��

dot_product��ע�⣺��ּ��Ϊִ��Ե��Ż��ʽ��Ϊ��ʹ��ǵ�λ��ȵģ��ĵ��Ͳ�ѯ��Էǵ�λ��ȵ��ʹ�õ��ܻᵼ�´��ѡ�

��ң��ƶȡ�ע�⣺ִ��ƶȵ��ѡ��ǽ��һ��Ϊ��λ��ȣ��ʹ�� DOT_PRODUCT��ֻ��Ҫ��ԭʼ��޷��ǰ��й�һ��ʱ��Ӧʹ�ô˺��

DenseVectorField ֧��ԣ��洢��

ע��Ŀǰ��֧�ֶ�ֵ

�Զ��

Ҫʹ��Զ��ʽ�ĸ߼�� HNSW �㷨�ĳ��ȷ�� solrconfig.xml ��ô��ã�

...

��ʹ�ø߼�� DenseVectorField��

vectorDimension="4"similarityFunction="cosine"

codecFormat="Lucene90HnswVectorsFormat" hnswMaxConnections="10" hnswBeamWidth="40"/>

��ע�⣬codecFormat ��ܵ�ֵ��ܻ��δ��汾�и��ġ�

ע�� Lucene ��ݽ�֧��Ĭ�ϱ��ѡ��ڼܹ��Զ�� codecFormat�� Solr ��δ��汾��Ҫ��л��Ĭ�ϱ��Ż��֮ǰ��дΪĬ�ϱ��¹��ͷ��ʼ��

�� HNSW ʵ�ֵĳ��[8]��

��

�� DenseVectorField Ӧ��α��

JSON

[{ "id": "1",

"vector": [1.0, 2.5, 3.7, 4.1]

{ "id": "2",

"vector": [1.5, 5.5, 6.7, 65.1]

}

]XML

1.0

2.5

3.7

4.1

1.5

5.5

6.7

65.1

Java �C?SolrJ

final SolrClient client = getSolrClient();

final SolrInputDocument d1 = new SolrInputDocument();

d1.setField("id", "1");

d1.setField("vector", Arrays.asList(1.0f, 2.5f, 3.7f, 4.1f));

final SolrInputDocument d2 = new SolrInputDocument();

d2.setField("id", "2");

d2.setField("vector", Arrays.asList(1.5f, 5.5f, 6.7f, 65.1f));

client.add(Arrays.asList(d1, d2));knn ��ѯ��

knn K-Nearest Neighbors ��ѯ��ݸ��ֶ��е��ܼ��Ŀ�� k �ĵ��

��²��

�� KNN ��ķ��

�� [1.0, 2.0, 3.0, 4.0] �� K-nearest��ʱ��õ�similarityFunction ��

��˲�ѯһ��ʹ��

knn ��ѯ��ڹ��˲�ѯ��

knn ��ѯ��˲�ѯһ��ʹ�ã�

��Ҫ:

��Щ��ʹ�� knn ʱ��ȷ��˽��ѯ�� Apache Solr �еĹ��ʽ��

��ѯ q ��ĵ� ID ��б��ÿ��ѯ��ĵ� ID ��ཻ fq.egRanked List from q=[ID1, ID4, ID2, ID10] Set from fq= = [ID4,ID2]

��ѯ

knn ��ѯ��е�һ��ѯ��

��Ҫ:

��ʹ�� knn ʱ��ע�� topK ��

��Ե�һ��ĵ� d ��Ҫ��Ŀ�� K ��ڣ��У��ʱ��ż��ڶ�� knn ��

��ζ��ζ��ִ�еڶ�� knn��ǵ�ǰ��ơ�

��Ľ��б��һ��ͨ��ѯ q��ϵڶ��ͨ��Ҫ��Ŀ��Ľ��ƶȺ��룩��Գ˷��ӣ�reRankWeight��

��ˣ��ĵ� d �� knn ��У��ʹ��Ŀ��ѯ��ľ��㲻Ϊ�㣬��ԭʼ��Ĺ��ҲΪ�㡣

�й�ʹ�� ReRank ��ѯ��ϸ��Ϣ�� Apache Solr Wiki[13] ��֡�

лл��ҹ�ע��ת��޺͵��ڿ��

��: 2023-07-242023-07-24 08:03:02
ԭ��https://page.om.qq.com/page/OPiDMIYvIwtxk6AZgEN8W6Vw0
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

��Solr��Apache Solr ��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

����������Solr��Apache Solr ������

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

��Solr��Apache Solr ��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�