当前位置:首页 > 精彩推荐 > 正文

知识图谱的信息可视化设计方法

编辑导语学图谱技术算法钻研被人们普遍运用在人-工智能和大数据等领域啦。基于学图谱的技术架构.传统数据可视化的办法和交互计划的工做流程,本文分享了一种在工做中易于操做的学图谱可视化办法啦。希望能给你带来帮-助啦。
学图谱做为语义网络,其技术算法钻研被普遍运用在人-工智能和大数据等领域啦。
平时,学图谱的运转历程是由数据模子完结,用户可见的不过盘算后的结局,其数据的可视化也仅停留在对结局的可读性展现上啦。
但一开始,图谱之中的关系.数据盘算的历程,也具有剖析价和隐藏的机遇信息啦。将学图谱转化为可视化信息图,能帮-助用户更好的领会和使用数据及其关系,但关于有无技术布景的界面计划师来说,从技术架构.盘算函数等技术视角去领会学图谱观点和运用对应难题啦。
本文分享一种计划思绪,帮-助我们在现实工做中,完结学图谱向可视化交互界面的转化啦。
一.什么是学图谱
1. 基本观点
2012年,Google公司为完成更智能的寻找引擎,提出学图谱的观点,2013年后内领域内和学术界最先普遍流传啦。
学图谱的界说是结构化的语义学库,实质上是一位语义网络(Semantic Network),用于描写物理世界中的观点及其相互关系啦。
在技术层面,通过对千头万绪数据的有用加工.处置.整合,转化为数据关系来聚合大量学,从而完成学的迅速照应和推理呢;在可视化的运用中,学图谱体现为多关系图(Multi-relational Graph),在图形化界面中可以让用户检察和互动啦。
2. 学图谱的特色
其特色主要包罗以下两方方面面内容
(1)他是由“节点吧”和“边吧”组成的三元组
三元组是学图谱的基本单元, 由节点和边组成啦。
这个内里节点代表实体,是指拥有区分性且自力存在的主观东西,如图1中的马云.华谊堂兄弟传媒有限公司,图3中的美国.平方千米数等呢;边代表两个实体间的关系,是指主观存在或者推理获得的实体间的联系,如图1中的董事.监视.投资,图3中的面积.人丁.京城等啦。
(2)他的数据以学的角度出现
学是一种人类关于主观世界的认知,包罗现实.信息描写或者教育实践中获取的结局的综合啦。
三元组也被称为“一条语句吧”,或者学图谱中的一条学啦。在图4的国家信息关系三元组中,咋们就能读出一条语句(或者是学)为“祖国的场所面积有9,634,057平方正义吧”啦。
学图谱能够集成Web上大量的数据及数据关系,通过有用的加工.整合和处置,将其转化为易于盘算和领会的语义学库,可用于描写主观世界中的观点及相互关系啦。
3. 学图谱的效果
信息挑选,准确检索范围啦。
信息拓展,供应更富厚的信息内容啦。
信息联接,构建有深度和广度的学体制啦。
4. 为什么必-要对学图谱举行可视化
学图谱的技术架构-偏重在数据关系模子和机械学习,普公用户食用读取和领会啦。
学图谱的焦点技术思维,是由所有一些“数据输入-数据处置-学图谱变成吧”三个大枢纽组成啦。
数据输入枢纽包罗“结构化数据.半结构化数据.非结构化数据吧”呢;数据构建枢纽包罗“信息抽取.学融会.学加工吧”呢;学图谱体制的变成枢纽,是所有技术架构往复迭代.不停更新和累积,逐步组成的结局啦。数据输入是对数据源的挖掘,数据构建是底层的模子算法运用,学图谱变成是数据处置结局的出现啦。
这个历程在底层数据模子中运转,对用户可见的经常是最终的结局啦。好比寻找引擎中,用户看不到寻找历程,但可获得最结婚的寻找结局呢;在音乐中,看不到内容结婚思维,但能够被举荐感兴趣的歌曲啦。如果想使用历程数据为用户供应处事,就必-要举行可视化处置啦。
传统的信息可视化-偏重在数据结局的展现和挑选,较少涉及数据关系的干预啦。
传统信息可视化的办法,在计划侧更多重伸数据信息与图像.色的信息转达上啦。其办法平时会合在“怎么样对以前一定的数据举行图形映照吧”和“怎么样处置信息层级吧”的视觉体现上,较少参与计划数据关系或者影响数据结构啦。
可是,这让用户知道数据“是什么吧”,却不行以出现数据“为什么吧”啦。学图谱的可视化,可以让数据处置历程被用户可见.可用,从而更好的剖析和运用数据啦。
学图谱的可视化-偏重在数据关系构建和处置历程的可视化啦。
学图谱技术普遍运用在信息学.检索引擎.努力.金融反欺诈等领域啦。
现在已扩张到智能医疗.证券投资.大数据风控.闲聊机械人.天性化举荐体制等更多方向啦。
这类关系语义网络也逐步逐步从技术底层运用向可视化用户界面上进展,各行各业也在探索怎么样时其在终端界面中被用户可读和可用啦。
好比在知识钻研领域,图谱出现更有助于用户关于知识学的领会和再缔造呢;在商品市场领域,视觉化的图谱可以让商家洞察更多“人-货-场吧”之中的自身联系啦。
对学图谱信息的可视化,重心落在数据信息的提取和关系构建上,将数据信息的编译历程出现给用户啦。学图谱信息可视化和传统信息可视化办法之中的关系,如图6啦。
两.学图谱的可视化计划办法
学图谱在底层算法和数据模子上供应有用的技术思维,进而构建富厚巨大的语义网络,但若要在详细运用处景中给用户可见的形式,则必-要图形化界面的出现啦。
在现实工做中,计划侧的焦点任-务是“多关系图吧”的信息可视化啦。结合学图谱的特色.技术理由和传统信息可视化办法,能够将学图谱可视化的历程,概括为“一定学主题(主题层)-处置与剖析数据(数据层)-构建数据三元组(关系层)-举行可视化映照(可视层)吧”四个措施啦。
1. 【主题层】一定学主题/可视化目的
一定主题的历程,也是界说焦点观点或者目的的历程,这一枢纽是是学图谱可视化的启程点和落脚点啦。传统可视化为了可视而可视,不过让用户更好的读取数据,而较少思考读到后有什么用,怎样用啦。
有无主题的数据是无意义的,任何一类学的描写,都必-要围绕某一特定主题睁开啦。
在事情事情实践角度,也能够或者者将其视为梳理营业焦点诉求或者界说计划目的的历程,如一定要论述什么种别的学.最终的可视化效果对目的用户有什么价.营业要使用数据到达什么目的,所有数据的计划都将围绕着主题睁开啦。
一定主题的办法有许多,包罗传统的用户需要剖析办法.文献综述.领域钻研等,可依照区别的事情事情诉求,选择适合的办法和器械啦。
如,要做电商领域的学图谱,通过领域钻研.对用户特色和行-动念头的剖析,觉察电商领域用户最体贴人货场的学,人和货特色及其关系即是焦点要讲明的主题啦。
再如,导师想领会网络时期的大學生都具有怎样的应酬特色,通过对學生学习.娱-乐.应酬等区别生涯因素分类调研,选择“學生运用应酬软件的行-动特色吧”做为主题啦。
同时,主题要清晰明确,防止隐约和过于宏大啦。以知识领域为例,如想出现京剧之美,这个观点就大而泛,食用去组织数据,就有创做者将其主题拆分为史书之美.剧目之美.舞台意向之美.传承之美等几个主题啦。然后再逐一剖析每逐一位主题的数据啦。
2. 【数据层】对数据举行提取与加工
在未经处置前,与主题相关的可用数据是多样且庞杂的啦。由学图谱的技术框架可知,技术模子通过信息提取.学融会和学加工后,才使本始数据变得有用和有用,一样在可视化的历程中,也离不开信息提取与数据加工啦。
(1)数据提取-围绕学主题举行数据信息的提取
信息提取,也即是先枚举应该有用的相关数据种别啦。每逐一位主题全是一大类目的学领域,必-要通过搜集.概括.拆解后再能够或者者清晰的举行诠释和流传啦。
如,围绕“學生运用应酬软件的行-动特色吧”这一主题,可概括出“老友关系.互动行-动.在线状态.信息公布吧”等特色啦。
进一步,老友关系又可拆分为老友量.体贴量.粉丝量呢;互动行-动又可拆分为闲聊次数/频率.点赞数.谈论数等啦。
数据搜集一样平常通过桌面钻研的手工搜集.数据爬虫两种办法啦。概括和拆解数据能够运用卡片分类.想法导图的办法啦。
(2)数据加工-举行学语义加工
数据加工的历程,即是将枚举出的数据举行分类和挑选,一定最能够或者者体现学主题的描写纬度或者数据种别啦。
通过火析影响原因的关联水平,选择具有直-接影响原因的数据,或者划定数据范围后,再举行细分啦。
可以使用卡诺模子.波士顿矩阵等办法找出数据对主题影响水平的优先级,详细的选择办法无定式,只要能整理出适合的数据种别啦。
(3)数据清洗-举行数据挑选和最终确认
界说出有用的数据种别后,并非所有数据都能完善吻合咋们的诉求,好比数据挖掘才气制约,不行以挖到更精准的数据或者有数据缺失呢;好比数据剖析才气不足,数据种别混淆,或者有过错数据等啦。
消除不足够.精准度差.过错率高级不行用的数据,清点出能够或者者被运用于可视化的最终数据啦。
在现实工做中,必-要跟团队的数据挖掘工程师.或者营业成品负-责人明确数据才气和质量啦。
比如,“京剧传承之美吧”的数据选择历程中,做者对京剧艺术传承上存在的“门户师承.艺学祖传.科班教育等吧”多种办法进前举行分类和挑选,最终提取了京剧51个门户的首创人数据.师徒数据.家-族成员数据啦。
3. 【关系层】构建数据关系三元组
在学图谱的技术架构中,这一枢纽体现在本体构建上,本体是个专注观点,本体构建也有多种可用的成熟模子,属于技术侧内容,本文不睁开叙述,仅论述计划层面的思绪啦。技术是让数据更精准,而面向用户的计划是让数据更有用和解用啦。
计划数据的关系层,也即是给区别数据种别建设关系的历程,通过一定节点和边的内容来构建能够或者者诠释主题和吻合其思维关系的三元组啦。
数据关系的建设一样平常主要围绕两个层面,一是能够或者者论述学主题,两是通过关系三元组可推理获得更多的学内容啦。
好比,在“學生运用应酬软件的行-动特色吧”这个主题中,可界说“學生(实体)-网络应酬特色(属性)-详细行-动(属性值)“是一组关系结构,体现在数据为“张三-在线时长-5小时/天吧”,描写成学语意为张三同学应酬软件每一天会在线亮起5个小时呢;
又如,围绕“商品售卖信息吧”这一主题,“成品(实体)-会合(关系)-商品(实体)吧”是一组关系结构,体现在详细数据为“手机-包罗-华为手机吧”,描写成学语义为华为手机是许多手机中的一种啦。
当咋们界说了这类数据关系,自力的数据就变成为了可描写的学语意,当这些语义联系在一同,用户通过一段段学洞察到区别的征象,或者解读出区别的结局啦。
这类学语义的可视化,或者者说这类数据关系结构的可视化,能够或者者帮-助用户领会营业征象,或者成品底层看不到但却有用的信息啦。
好比京剧知识中师承的演化,能够通过区别角色之中的关系脉络,构建出“师承关系.家-族关系.结婚关系吧”几种三元组形式,从相似节点中解读到某个京剧演员善于某私角色的师承原因啦。
再好比,将某班级每逐一位學生的闲聊频率.老友数目.QQ在线时长等网络应酬行-动关系逐一对应,就会勾勒出会合在某个學生身上的区别特色,把这些學生再放在一同,就出现出一位班级學生在网络世界的区别应酬特色啦。
4. 【可视层】可视化图形语义转换/可视化映照
当关系构建好以后,简易的三元组是简易读取的,但许多三元组集成在一同,也会涉及到信息读取效果的疑,就必-要将关系结构图形化,这一措施也是传统信息可视化办法中的一定枢纽啦。
依照以前构建好的数据关系结构,可通过“图表映照吧”和“视图计划吧”两种办法,举行可视化的语义转换啦。
(1)可视化图表映照
可视化图表,是指具有公用性的标-准化图表啦。所有分为统计类图表和关系类图表,本文主要论述关系类图表啦。关系类图表又可分为网状关系和条理关系啦。
网状关系图包罗关系图.弦图.弧长链接图等呢;条理关系图包罗树图.向阳图.矩形树图等啦。一五一十的标-准化图表,能够借助E-chart.Tableau Public.Smartbi等软件举行遵照选择(如图9)啦。
如果数据关系对比清晰简易,能够或者者被这两类标-准化图表所笼罩,则能够直-接选择把节点和关系直-接映照这个内里啦。如果你的数据关系对比繁杂,或者天性化,则可对标-准化图标举行组合或者转变,或者计划天性化视图啦。
比如,在北京邮电大-学彭国雁的论文《面向京剧学图谱的信息可视化钻研与计划》的案例中,“京剧传承之美吧”这一主题,“师承关系.家-族关系.结婚关系吧”的三元组关系较繁杂,如果直-接用可视化图表映照来展现,会发生易读性差和页面布置难以掌控的疑啦。
因而论文做者采用区别图表相结合的办法,并将图形的视觉元素举行改良
主体采用和弦图,角色点组成和弦图的圆,角色关系种别采用区别色线条举行联接啦。
依照角色出世时刻的向性特色,将角色根据某单方向举行排列,即可隐喻师徒或者者亲属关系的有向性啦。
采用树形图形势的线条讲明主次角色的关系啦。
将几种基本关系做好映照后,再把相枢纽点整合在一同,就表清晰所有一些师承关系结构图,最终组成“传承之美吧”所有一些可视化学图谱啦。
(2)可视化视图计划
本文所述的可视化视图,是指能讲明标-准化图表之外的,区别种别数据特色的语义图形,由计划师依照与主题相关的数据种别举行构想,并关联其区别种别数据间的关系语境,最终组成的信息图啦。
清华大-学副教-授向帆导师在对“學生网络应酬行-动吧”这一主题的钻研中,做者选择QQ运用状态的相关数据,将每逐一位學生用QQ企鹅的外貌图形表现,在线时长为企鹅形状长短.闲聊次数为圆形嘴巴.老友数目为头发几多,出现出“學生-网络应酬特色-详细行-动吧”的可视化关系图,在最终的视图中,可直观的看到一切区别的每逐一私人啦。
这类自界说的可视化视图拥有奇特征和意向性的特色啦。奇特征是指图形针对详细的主题和数据关系,而不行以够或者者普遍的为其余主题复用呢;意向性是指一位视图内的图形有肯定的意向观点转达,好比圆形代表闲聊次数,也是记号嘴巴,嘴巴跟闲聊相关(只管网络闲聊用笔墨,但却讲明出了这类交行-意向)啦。
同时天性化图形元素相关联来讲明数据关系,也能够或者者直观.高效的洞察出用单纯的标-准化图表看不到的征象,好比三个學生,一位在线时刻很长但闲聊很少.老友也很少呢;一位在线时刻很短,但老友和调换时刻却许多呢;另一位基本不谈话,可是却有许多好同伴啦。这样的征象更简易触发同理心,从而启示导师在教育中因材施教啦。
通过以上四个措施,就完结了对学图谱数据举行可视化啦。他不-是单纯的以视觉效果展现数据信息,而是从数据关系提取到关系出现为一体的计划历程啦。
三.结语
综上所述,基于学图谱的技术架构.传统数据可视化的办法和交互计划的工做流程,本文分享了一种可在工做中易于操做的学图谱可视化办法啦。
与传统数据信息可视化对比,学图谱可视化更偏护于数据之中三元组关系的视觉讲明,所谓“所有大于部-分之和吧”,有了关系的建设,则更能够或者者觉察简易数据之外的延展信息和隐藏机遇啦。希望能够或者者通过计划的力气,让普公用户也能更好的运用数据和洞察数据啦。
做者腾讯CDC,微信民众号腾讯CDC体验计划
本文由 @腾讯CDC体验计划 本创公布于我们全是成品经-理,未经允许,不行以转载啦。
题图来源 Unsplash,基于CC0协议


这篇短文来的确实时刻,恰好想做一位知识图谱的可视化事情事情