UDN-企业互联网技术人气社区

板块导航

浏览  : 4808
回复  : 8

[集成平台] 丁丁数据查重工具开源啦

[复制链接]
丁丁的西瓜的头像 楼主
发表于 2014-9-29 10:21:36 | 显示全部楼层 |阅读模式
做这个工具的时候,还不知道我们的主数据产品中也有相似的功能。作为搞信息化的人,自己的信息竟然也如此的闭塞。反正工具是做完了。大体的思路是这样的:

1、数据清洗和本质是找到一堆数据中相似和相同的数据,然后把这些数据或是区分或是合并,最终找到一份完整的,准确的,没有重复的数据。而这其中最关键的工作就是查重。而查重的关键点是判断两条数据是否一致。这个清洗工具的大致算法是,对比两个数据的相似度(0%~100%),设定两个阀值,一个相同阀值,一个相似阀值。最终根据比对结果判定两条数据的关系:相同,相似,不同。对于相同的数据,要最终确定真实属性。对于相似数据要确定:相同或者不同。对于不同数据,不进行处理。
2、工具分成以下模块
       1)主数据建模:一次建模,直接生成存储表结构,没有所谓的存储结构设计和页面显示设计,因为主要目标是清洗,显示成什么样子就先不管了。
       2)主数据管理:CRUD的功能,没有做,页面和接口留出来了,函数也写好了。
       3)主数据排重算法设计:可以对一个主数据设计N多算法,在一个算法中可以设定不同的阀值和对每个字段定义权值和算法
       4)清洗。为主数据选择算法,然后开始清洗。清洗后对本次清洗结果进行记录。
       5)清洗结果处理。罗列相似和,相同的数据,进行人工干预处理。
3、技术关键点
    很多人认为技术关键点是模糊比对。而模糊比对的关键是分词。其实这是件不明觉厉的事情。本人以前就对分词算法有所涉猎,所以做起来很简单。个人认为的技术关键点是逻辑清晰和易于使用。让用户看了就知道怎么做,尽量使用用户的语言,就好像我们打游戏一样,不用教,操作一遍就会了。其次是ETL工具的使用,这里有副本数据的概念。要把企业中的各种副本数据导入到工具中,这样才能够清洗。(我使用的是kettle)

开源地址如下,有兴趣的同事们可以用用,如果在实际项目中应用中有对本工具的功能有新需求的话也可以联系我。

开源中国
丁丁的西瓜, 你好
您提交的项目丁丁主数据查重工具已经被收录!一个好用的数据查重引擎。包含了数据建模,清洗算法设计,查重,结构导出等功能。查重的算法中对数据每个属性均可以设定权重和灵活选择比对算法。使用的中文分词引擎对较长中文句子进行分司和比对。
请点击以下链接访问:
http://www.oschina.net/p/dd-mdm-rush-tool





丁丁的西瓜的头像 楼主
发表于 2014-10-8 10:41:05 | 显示全部楼层
@benbenxiong @丁丁是个小画家 @聚沙成塔 兄弟姐妹们,上次的交流会成果如何,最近登录几次,都好冷清啊。

点评 ( 1 ) 收起 / 展开点评

benbenxiong 2014年10月27日 15:43

丁丁同学最近上来了没,自从上次版主会议后,版主们做了很多改进,现在人气又回升了哈

使用道具 举报

回复

发表于 2014-10-8 10:47:27 | 显示全部楼层
丁丁的西瓜 发表于 2014-10-8 10:41
@benbenxiong @丁丁是个小画家 @聚沙成塔 兄弟姐妹们,上次的交流会成果如何,最近登录几次,都好冷清啊。
...

基本达成了几项共识,就期待结果啦,希望对社区的进展能有帮助。
使用道具 举报

回复

发表于 2014-10-8 16:53:37 | 显示全部楼层
丁丁的西瓜 发表于 2014-10-8 10:41
@benbenxiong @丁丁是个小画家 @聚沙成塔 兄弟姐妹们,上次的交流会成果如何,最近登录几次,都好冷清啊。
...

我们统一了一下建议,版主大人们还是非常重要的,这次提了一些比较实用的建议,本月执行一下
使用道具 举报

回复

丁丁的西瓜的头像 楼主
发表于 2014-11-1 09:18:46 | 显示全部楼层
@benbenxiong 最近在一个项目上赶文档。来少了。在做一个物资的主数据方案。做好以后,分享上来。
使用道具 举报

回复

发表于 2017-6-12 17:37:21 | 显示全部楼层
请问楼主,如何使用丁丁数据查重工具?有页面可以操作吗?网上关于丁丁数据查重工具的使用文档几乎没有啊。求助
使用道具 举报

回复

发表于 2019-1-26 15:17:43 | 显示全部楼层
QQ截图20190103172906_副本.png

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们
联系我们
  • 电话:010-86393388
  • 邮件:udn@yonyou.com
  • 地址:北京市海淀区北清路68号
移动客户端下载
关注我们
  • 微信公众号:yonyouudn
  • 扫描右侧二维码关注我们
  • 专注企业互联网的技术社区
版权所有:用友网络科技股份有限公司82041 京ICP备05007539号-11 京公网网备安1101080209224 Powered by Discuz!
快速回复 返回列表 返回顶部