在Heroku服务器上部署深度学习Web应用程序的要点和技巧

Heroku 云在Web开发人员和机器学习爱好者中颇负盛名。该平台提供了部署和维护Web应用程序的简易方法，但如果您不熟悉部署深度学习应用程序，可能会遇到棘手的存储和依赖问题。本文将使您的部署过程更顺畅，以便您能专注于创建出色的Web应用程序。我们将学习DVC集成、基于Git和CLI的部署、错误代码H10、使用Python软件包以及优化存储。

一、基于Git和CLI的部署

Streamlit应用程序可以使用Git、GitHub集成或使用Docker加以部署。基于Git的方法是在Heroku服务器上部署任何数据应用程序的更快速更简单的方法。

基于Git的简单方法

Streamlit应用程序可使用以下命令来部署：

git remote add heroku https://heroku:$HEROKU_API_KEY@git.heroku.com/.git
git push -f heroku HEAD:master

为此，您需要：

Heroku API 密钥
Heroku 应用程序：通过CLI或访问网站。
基于Git的项目
配置文件

基于CLI的方法

基于CLI的部署很基本，且易于学习。

在Heroku服务器上部署深度学习Web应用程序的要点和技巧

1. 在此处创建一个免费的Heroku帐户。

2. 使用该链接，安装Heroku CLI。

3. 克隆远程存储库或使用git init。

4. 输入heroku login和heroku create dagshub-pc-app。这将使您登录到服务器，并在Web服务器上创建一个应用程序。

5. 现在创建含有运行应用程序的命令的Procfile： web: streamlit run --server.port $PORT streamlit_app.py

6. 最后，提交并推送代码到heroku服务器git push heroku master。

二、PORT

如果您使用streamlit run app.py运行应用程序，它将生成错误代码 H10，这意味着Streamlit应用程序未使用服务器分配的$PORT。

您需要：

使用Heroku CLI设置PORT。

heroku config：set PORT=8080

在Procfile中进行更改，并在参数中添加服务器端口。

web：streamlit run --server.port $PORT app.py

三、调整Python软件包

这部分花了我2天的时间来调试，因为Heroku云有500MB的限制，而新的TensorFlow软件包是489.6MB。为了避免依赖项和存储问题，我们需要在requirements.txt文件中进行更改：

1. 添加tensorflow-cpu而不是tensorflow，这将我们的slug大小从765MB缩减到400MB。

2. 添加opencv-python-headless而不是opencv-python，以避免安装外部依赖项。这将解决所有cv2错误。

3. 删除所有不必要的软件包，numpy、Pillow 和streamlit除外。

四、DVC集成

从DVC服务器成功提取数据需要几个步骤：

1. 首先，我们允许通过使用Heroku API来安装 apt-files的buildpack：

heroku buildpacks:add --index 1 heroku-community/apt

2. 创建文件名Aptfile，并添加最新的DVC版本https://github.com/iterative/dvc/releases/download/2.8.3/dvc_2.8.3_amd64.deb

3. 在您的app.py文件中添加额外的代码行：

import os
if "DYNO" in os.environ and os.path.isdir(".dvc"):
os.system("dvc config core.no_scm true")
if os.system(f"dvc pull") != 0:
exit("dvc pull failed")
os.system("rm -r .dvc .apt/usr/lib/dvc")

之后提交您的代码，并将其推送到Heroku服务器。部署成功后，应用程序会自动从DVC服务器拉取数据。

五、优化存储

优化存储的方式有多种，最常见的就是使用Docker。通过使用Docker方法，您可以绕过500MB的限制，还可以自由安装任何第三方集成或软件包。想进一步了解如何使用Docker，请查看本指南。

为了优化存储：

在requiremnets.txt中仅添加模型推理python库。
我们可以通过使用以下命令从DVC提取选择性数据：

dvc pull {model} {sample_data1} {sample_data2}..

我们只需要一个模型推理文件，因此将其余文件添加到.slugignore，其工作方式与.gitignore类似。想了解更多信息，请查看Slug编译器(https://devcenter.heroku.com/articles/slug-compiler#ignoring-files-with-slugignore)。
从服务器成功拉取数据后，删除.dvc目录和.apt/usr/lib/dvc目录。