0%

conda是python的另一个包管理器,和pip并不通用

Anaconda的安装

首先Arch上已经安装了Python 3.7.1和python-pip,此时控制台输入Python,输出如下:

Python 3.7.1 (default, Oct 22 2018, 10:41:28) 
[GCC 8.2.1 20180831] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>>

之后安装Anaconda

通过pacman:

sudo pacman -S anaconda

然后将/opt/anaconda/bin添加到PATH环境变量中

阅读全文 »

概要

定义:从现有的大量数据中,撷取不明显、之前未知、可能有用的信息

目标:

  • 建立起决策模型
  • 根据过去的行动来预测未来的行为

数据挖掘—从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。

模型(Model) vs 模式(Pattern)

  • 数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去
  • 模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析
  • 模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析

算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出

阅读全文 »

ggplot2是R语言中比较新的一个包,核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离,按图层作图,保有命令式作图的调整函数,使其更具灵活性,将常见的统计变换融入到了绘图中

安装与使用

install.packages("ggplot2")
library(ggplot2)

qplot入门

数据集选取:diamonds

例:钻石价格和重量的关系

qplot(carat, price, data = diamonds)
qplot(log(carat), log(price), data = diamonds) #曲线性

阅读全文 »

安装python

sudo pacman -S python
sudo pacman -S python-pip

安装tensorflow

sudo pacman -S python-tensorflow-cuda
sudo pacman -S python-pillow

如果出现Header和Library不符的情况,可以重装h5py

sudo pip uninstall h5py
sudo pip install h5py

阅读全文 »