昆明冶金高等专科学校学报 ›› 2025, Vol. 41 ›› Issue (3): 101-.DOI: 10.3969/j.issn.1009-0479.2025.03.016
张 浩,太梦思云,赵文韬,和炜
ZHANG Hao, TAl Mengsiyun, ZHAO Wentao, HE Wei
摘要: 随着数据量的迅猛增长,传统的 Bloom Filer 在处理大规模数据流时面临较高的误判率和缺乏灵活性的问题。为提升数据流处理的精度与效率,提出了一种基于大语言模型(LLM)的语义感知 Bloom Filter (SABF)。SABF通过融合大语言模型在语义理解方面的卓越能力,生成文本数据的语义嵌入向量,并利用这些信息调整哈希函数的选择及位图结构设计,从而更精准地识别文本数据的语义特征。实验结果表明,SABF 能显著降低误判率,尤其是在数据规模扩大后,其误判率较传统方法降低了超过20%。此外,SABF在识别语义相似文档方面表现优异,准确率达到83%,有效提升了复杂语义信息的处理效率。
中图分类号: