0%

RDF(Resource Description Framework 资源描述框架)

  • 知识总是以三元组形式出现: (subject, predicate, object)
    (主,谓,宾)
  • 资源和属性用URI来定义(http://demo.com/KG
  • 属性值可以一个值,或者一个资源(URI)
  • 可用命名空间替代uri来简化
1
2
3
4
5
6
<RDF>
<Description about="https://www.runoob.com//rdf">
<author>Jan Egil Refsnes</author>
<homepage>https://www.runoob.com/</homepage>
</Description>
</RDF>
Read more »

编辑距离(Minimum Edit Distance,MED),也叫 Levenshtein Distance。他的含义是计算字符串a转换为字符串b的最少单字符编辑次数。编辑操作有:插入、删除、替换(都是对a进行的变换)。用lev(i, j) 表示 a的前i个单词和 b的前j个单词的最短编辑距离(即从后往前)。可以分为以下几种情况:

Read more »

WordCloud的参数:

  • font_path:可用于指定字体路径
  • width:词云的宽度,默认为 400;
  • height:词云的⾼度,默认为 200;
  • mask:蒙版,可⽤于定制词云的形状;
    Read more »

PCA可以将数据从原来的向量空间映射到新的空间中。由于每次选择的都是方差最大的方向,所以往往经过前几个维度的划分后,之后的数据排列都非常紧密了, 我们可以舍弃这些维度从而实现降维

Read more »

SVM真的是很复杂的算法,原本以为原理看懂了实现就会很简单,然而事实并不是这样
sklearn中对于支持向量机提供了很多模型:LinearSVC, LinearSVR, NuSVC, NuSVR, SVC, SVR

Read more »

外面的天气很好,秋意浓浓。心情很差,还真是应景

Read more »

搬运来的步骤

一. 数据分析

  1. 下载并加载数据
  2. 总体预览数据:了解每列数据的含义,数据的格式等
  3. 数据初步分析,使用统计学与绘图: 由于特征没有特殊的含义,不需要过多的细致分析
Read more »

数据处理很多需要用到pandas,有两个基本类型:Series表示一维数据,DataFrame表示多维。以下是一些常用方法的整理:

Read more »

  • x.ravel()x.flatten() : 将多为数组降维到1维.ravel()返回元素的引用(对象不一样,但是元素是引用),flatten()返回新的元素。

  • np.meshgrid(x, y) : 返回两个矩阵(X,Y),由这两个矩阵可以将xy定义的空间中的所有点描述出来。所有的点就是网格中的一个个焦点。

    Read more »