论坛首页 Java版

各位在处理大数据量的重复问题上有什么好的解决办法?

浏览 273 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
最后更新时间:2008-07-25 关键字: 内容重复
新接手到一个数据库.数据库当中都是一些资讯的内容.有标题.正文.分类等等.大约有70多W行记录了.
数据库中有很多重复添加的内容,有些是标题一样或者类似,而有些则是内容一样.
  我现在有两种想法来处理这个问题:
  1,借助搜索引擎.比如Lucene来处理.(不知道搜索引擎的分词有没有这方面的功能)
  2,就是自己写个程序来Match标题.或者内容(但是效率和准确度都是问题)

  想问一下各位 javaeyer 有没有碰见过这类的问题,如何实施?
   
最后更新时间:2008-07-25
数据库中有很多重复添加的内容,有些是标题一样或者类似,而有些则是内容一样.

LZ只说了现象,却没有把问题提出来
   
0 请登录后投票
最后更新时间:2008-07-25
想把重复的数据剔除?写个程序匹配或者模糊匹配吧?
   
0 请登录后投票
最后更新时间:2008-07-26
很难,
需要从制度上和输入上控制.
   
0 请登录后投票
论坛首页 Java版

跳转论坛:
JavaEye推荐