《Lucene實戰開發手記》系列文章的適用對象為Lucene初學者。

      本人所在項目組正在開發一個Call Center的系統。需要開發一個知識庫來為客服提供知識搜索的支持。採用Lucene做為搜索引擎。

 

知識庫的需求如下:

1、知識庫以文檔的形式組織,每篇文檔含標題、分類(樹狀)、內容,可上傳多個附件。

2、文檔內容支持html格式,標題、內容、附件均要建立索引,能被搜索到。附件格式支持doc,xls,pdf,txt,htm,html

3、按關鍵詞搜索標題、內容、附件,隻要其一包含關鍵詞則該文檔被列出,支持按分類限制搜索范圍

4、高亮顯示搜索到內容的關鍵文字,暫不要求分頁,隻顯示前20條。

 

一個月的時間,從對lucene不了解,到實現以上功能,收獲不少,除lucene外,引用了很多第三方的類庫,對很多細節問題,由於開發時間的限制,我也隻能不求甚解。

 

Javaeye上有很多高手和好文章,讓我在學習過程中得到了很大的幫助。但我覺得比較系統的,以實例代碼講解的例子還太少,有時我們學習一項新技術時,如果有完整的實例,可以為我們節約很多時間,但我們經常需要查找許許多多的貼子才能解決我們遇到的問題,而這些問題是很多初學者都會遇到的。

 

所以我將在下一篇貼出項目中的實際代碼與大家共享,分享我遇到的實際問題,希望對初學者有一些參考作用。我所學甚淺,望各位批評指正,留言!

 

所用lucene版本為2.0

與lucene相關用到的第三方類庫:

 lucene-core-2.0.0.jar                           lucene2.0核心

lucene-demos-2.0.0.jar                        主要用HTMLParser來解析html文檔

lucene-highlighter-2.0.0.jar                  高亮顯示

segment.jar                                          CJKAnalyzer

poi-3.0.2-FINAL-20080204.jar

poi-contrib-3.0.2-FINAL-20080204.jar

poi-scratchpad-3.0.2-FINAL-20080204.jar                      

                                                            支持word與Excel文檔的解析

FontBox-0.1.0.jar/PDFBox-0.7.3.jar     支持PDF文檔解析

htmlparser.jar                                      有名的HtmlParser

cpdetector_1.0.5.jar                            文檔編碼自動識別  

 

评论
发表评论

您还没有登录,请登录后发表评论