浅谈我对DB INDEX (Davies Bouldin index)的理解

news/2024/5/20 6:23:00 标签: 聚类

浅谈我对DB INDEX (Davies Bouldin index)的理解 - 双鱼传说 - 双鱼传说—万智牌的缤纷世界        
本人原创作品,转载请注明出自网易博客双鱼传说

       说实话,国内的资料少之又少,去搜下GOOGLE大神的KEYWORD好了,我看到的不是求助就是论文摘要。这到底是个啥东西,为什么有人问没人说呢? 不解,我只能自己写……Davies Bouldin index,如果照中文直译的话,可以叫做戴维森堡丁指数,有的论文里叫做分类适确性指标,以下简称DBI。这个指数或者指标是来确定到底你的测试性分类哪个结果最合理。

        做数据挖掘的时候,经常你不知道要做多少个Cluster,那么你就需要先按照大体构想来分那么几种测试性聚类,通过计算这个指数,来确定到底哪个Cluster最合理。当然,算法并没有十全十美的,你只能说是理论上合理了,实际这个指数能给别人多大帮助我自己真的也不得而知。

        如果纯从公式理解,我相信一定会搞的一头雾水,从最基础的元素说起吧,如果从结果上理解我觉得更能说明问题。DBI其实就是将几个Rmax值叠加,当你做出了几个Cluster,就会出现几个Rmax,这些Rmax值叠加的结果越小就说明这个分类越合理

        而Rmax的取得来源于R,R的公式在下边有说明

        浅谈我对DB INDEX (Davies Bouldin index)的理解 - 双鱼传说 - 双鱼传说—万智牌的缤纷世界

        其实他很多公式都不需要看的,之要看这一个,了解所有要素的意思,那么这个指数就很简单的算出来了。图中的S说明的是点距,假设你做了5个Cluster这5个中的任意一列就可以视为一个Cluster的分布中点,用数据源中所有的要素去跟这个中点做比对,就出现了S。

浅谈我对DB INDEX (Davies Bouldin index)的理解 - 双鱼传说 - 双鱼传说—万智牌的缤纷世界

        上图公式中,已经是细化到点距算法的S,一般是看不懂的,其实你只要知道S是所有要素到分布中心的距离就好了(更确切的说S是一个分布集合中所有点到分布中点的均值)。

浅谈我对DB INDEX (Davies Bouldin index)的理解 - 双鱼传说 - 双鱼传说—万智牌的缤纷世界

        假设沃尔玛一年内的所有商品,所有商品都有对应的product_id,把他们月销量的数据检索出以后,每一个product_id可确定为一个空间点,假设你用分析软件吧这些商品分成了5个Cluster,这5个Cluster就确定了5个分布中点,把每个product_id到每一个空间点的距离全部计算出来(这里要用点距公式,平面点你能理解的话这个也不会很难,加几个括号就好了,最后一起开方就OK了),看看这些点的距离到底离哪个Cluster最近,这个商品就属于哪个Cluster。这样就可以知道我所有商品的Cluster属性。比如我Cluster0中有2000件商品,那么把这些product_id到Cluster0的点距加权平均算个AVG这就是S0。

        M是整个Cluster集合中每个点到其他点的距离。还是用我做了5个Cluster为例:

        0,1,2,3,4 这5个,每个点到其他点的距离是M,就会出现

           4+   3+    2+    1  =10
        M01 M12 M23 M34
        M02 M13 M24
        M03 M14 
        M04

        换句读法可能更好理解,M01读作M"0到1",就是Cluster0到Cluster1的距离,也是算两点距离。你做了5个Cluster就有10个M,你做了9个就有36个,这都是可以慢慢自己算的

浅谈我对DB INDEX (Davies Bouldin index)的理解 - 双鱼传说 - 双鱼传说—万智牌的缤纷世界

        其实你看看原公式,M本身跟S长的就很像,只不过M是5个分布中点相互之间的距离而已,都是点距

        这样弄明白了S与M那么由上边的公式就不难算出R

        R01=(S0+S1)/M01 

        浅谈我对DB INDEX (Davies Bouldin index)的理解 - 双鱼传说 - 双鱼传说—万智牌的缤纷世界

         对比我给的公式跟原公式看看,是不是好理解一些

        由于有10个M,那么R值肯定也就是有10个,之后把一类相关的R提取出最大值,比如

        R0max=MAX(R01+R02+R03+R04),最后把5个R的最大值全部加起来就是我们所求的DBI。

 参考文献:http://en.wikipedia.org/wiki/Davies-Bouldin_index

转自:http://visualmall.blog.163.com/blog/static/1224063812010116046392



http://www.niftyadmin.cn/n/1797608.html

相关文章

如何用百度离线API调用百度离线地图

这里以广西南宁市为例,说明如何用百度离线API调用百度离线地图。 首先,点击视图左上方的地图类型按钮选择百度地图(如果没有该项请点击“更多”选项),然后在视图右上方选择广西省南宁市显示行政区划,最后点…

【转】如何实现iframe(嵌入式帧)的自适应高度

好几次看到有人提问问到如何实现 iframe 的自适应高度,能够随着页面的长度自动的适应以免除页面和 iframe 同时出现滚动条的现象,刚好我在工作中也碰到了类似问题,于是上网翻查,东抄抄西看看,弄出来这么一个函数&#…

大北农路:翻转,花钱免灾

现在,大北农集团”窃种行动“已经被美国联邦调查局(FBI)抓住把柄做”实“了,难于翻盘。怎么办? 如今,我已经年老。对我而言,莫云与莫海龙姐弟都是孩子。谈不上是什么”间谍“。既然大北农出了这两块”料“。那么&#…

聚类算法实践(一)——层次聚类、K-means聚类

摘要: 所谓聚类,就是将相似的事物聚集在一 起,而将不相似的事物划分到不同的类别的过程,是数据分析之中十分重要的一种手段。比如古典生物学之中,人们通过物种的形貌特征将其分门别类,可以说就是 一种朴素的人工聚类。…

响应式布局--引入外部样式

//当屏幕宽度小于480px的时候&#xff0c;引入demo.css <link type"text/css" rel"stylesheet" href"style/demo.css" media"only screen and (max-width:480px)"/> //当屏幕大于685px的时候&#xff0c;启用的css样式,(内联写法…

免费的webservices

天气预报 http://www.260dns.cn/Services/Weather.asmx http://www.wopos.com/webservice/Weather.asmx http://www.260dns.cn/default.aspx 成语典故&#xff1a;http://www.wopos.com/webservice/chengyu.asmx 手机归属地&#xff1a;http://www.wopos.com/webservice/Mobil…

如何下载道路沿线1000米范围内的高程

在万能地图下载器中&#xff0c;除了提供按当前屏幕范围下载、框选矩形范围下载、多边形下载、导入范围下载和按行政区划范围下载外&#xff0c;还可以按道路沿线一定距离范围内下载谷歌地球高程。这里以G318林拉公路为例&#xff0c;说明如何下载道路沿线1000米范围内的高程数…

水经微图下载与安装教程

水经微图支持在Windows XP、Windows Server、Win7、Win8和Win10等系统平台上运行&#xff0c;如果需要在Mac系统上运行&#xff0c;可以通过在虚拟机中安装Windows系统平台&#xff0c;再安装本软件。 由于水经微图处于内测阶段&#xff0c;每天仅开放给前20名进入水经微图X3.…