本文实例讲述了PHP数据分析引擎计算余弦相似度算法。分享给大家供大家参考,具体如下:
关于余弦相似度的相关介绍可参考百度百科:余弦相似度
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
|
<?php /** * 数据分析引擎 * 分析向量的元素 必须和基准向量的元素一致,取最大个数,分析向量不足元素以0填补。 * 求出分析向量与基准向量的余弦值 * @author yu.guo@okhqb.com */ /** * 获得向量的模 * @param unknown_type $array 传入分析数据的基准点的N维向量。|eg:array(1,1,1,1,1); */ function getMarkMod( $arrParam ){ $strModDouble = 0; foreach ( $arrParam as $val ){ $strModDouble += $val * $val ; } $strMod = sqrt( $strModDouble ); //是否需要保留小数点后几位 return $strMod ; } /** * 获取标杆的元素个数 * @param unknown_type $arrParam * @return number */ function getMarkLenth( $arrParam ){ $intLenth = count ( $arrParam ); return $intLenth ; } /** * 对传入数组进行索引分配,基准点的索引必须为k,求夹角的向量索引必须为 'j'. * @param unknown_type $arrParam * @param unknown_type $index * @ruturn $arrBack */ function handIndex( $arrParam , $index = 'k' ){ foreach ( $arrParam as $key => $val ){ $in = $index . $key ; $arrBack [ $in ] = $val ; } return $arrBack ; } /** * * @param unknown_type $arrMark标杆向量数组(索引被处理过) * @param unknown_type $arrAnaly 分析向量数组 (索引被处理过) |array('j0'=>1,'j1'=>2....) * @param unknown_type $strMarkMod标杆向量的模 * @param unknown_type $intLenth 向量的长度 */ function getCosine( $arrMark , $arrAnaly , $strMarkMod , $intLenth ){ $strVector = 0; $strCosine = 0; for ( $i = 0; $i < $intLenth ; $i ++){ $strMarkVal = $arrMark [ 'k' . $i ]; $strAnalyVal = $arrAnaly [ 'j' . $i ]; $strVector += $strMarkVal * $strAnalyVal ; } $arrAnalyMod = getMarkMod( $arrAnaly ); //求分析向量的模 $strFenzi = $strVector ; $strFenMu = $arrAnalyMod * $strMarkMod ; $strCosine = $strFenzi / $strFenMu ; if (0 !== (int) $strFenMu ){ $strCosine = $strFenzi / $strFenMu ; } return $strCosine ; } ?> |
希望本文所述对大家PHP程序设计有所帮助。