浏览 273 次
|
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
|---|---|
| 作者 | 正文 |
|
最后更新时间:2008-07-25 关键字: 内容重复
新接手到一个数据库.数据库当中都是一些资讯的内容.有标题.正文.分类等等.大约有70多W行记录了.
数据库中有很多重复添加的内容,有些是标题一样或者类似,而有些则是内容一样. 我现在有两种想法来处理这个问题: 1,借助搜索引擎.比如Lucene来处理.(不知道搜索引擎的分词有没有这方面的功能) 2,就是自己写个程序来Match标题.或者内容(但是效率和准确度都是问题) 想问一下各位 javaeyer 有没有碰见过这类的问题,如何实施? 声明:JavaEye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
|
|
| 返回顶楼 | |
|
最后更新时间:2008-07-25
数据库中有很多重复添加的内容,有些是标题一样或者类似,而有些则是内容一样.
LZ只说了现象,却没有把问题提出来 |
|
| 返回顶楼 | |
|
最后更新时间:2008-07-25
想把重复的数据剔除?写个程序匹配或者模糊匹配吧?
|
|
| 返回顶楼 | |
|
最后更新时间:2008-07-26
很难,
需要从制度上和输入上控制. |
|
| 返回顶楼 | |






