1.创建、提交项目。

2024-09-18 13:38:24 +08:00 · 2024-09-18 13:38:24 +08:00 · 27f08d6772
commit 27f08d6772
83 changed files with 2055 additions and 0 deletions
--- a/.idea/.gitignore
+++ b/.idea/.gitignore
@ -0,0 +1,3 @@
+# Default ignored files
+/shelf/
+/workspace.xml
--- a/.idea/inspectionProfiles/Project_Default.xml
+++ b/.idea/inspectionProfiles/Project_Default.xml
@ -0,0 +1,65 @@
+<component name="InspectionProjectProfileManager">
+  <profile version="1.0">
+    <option name="myName" value="Project Default" />
+    <inspection_tool class="PyPackageRequirementsInspection" enabled="true" level="WARNING" enabled_by_default="true">
+      <option name="ignoredPackages">
+        <value>
+          <list size="52">
+            <item index="0" class="java.lang.String" itemvalue="mysqlclient" />
+            <item index="1" class="java.lang.String" itemvalue="tushare" />
+            <item index="2" class="java.lang.String" itemvalue="bs4" />
+            <item index="3" class="java.lang.String" itemvalue="tzlocal" />
+            <item index="4" class="java.lang.String" itemvalue="html5lib" />
+            <item index="5" class="java.lang.String" itemvalue="tabulate" />
+            <item index="6" class="java.lang.String" itemvalue="python-dateutil" />
+            <item index="7" class="java.lang.String" itemvalue="cycler" />
+            <item index="8" class="java.lang.String" itemvalue="backports.zoneinfo" />
+            <item index="9" class="java.lang.String" itemvalue="certifi" />
+            <item index="10" class="java.lang.String" itemvalue="lxml" />
+            <item index="11" class="java.lang.String" itemvalue="soupsieve" />
+            <item index="12" class="java.lang.String" itemvalue="pyparsing" />
+            <item index="13" class="java.lang.String" itemvalue="pypinyin" />
+            <item index="14" class="java.lang.String" itemvalue="xlrd" />
+            <item index="15" class="java.lang.String" itemvalue="beautifulsoup4" />
+            <item index="16" class="java.lang.String" itemvalue="asgiref" />
+            <item index="17" class="java.lang.String" itemvalue="kiwisolver" />
+            <item index="18" class="java.lang.String" itemvalue="typing-extensions" />
+            <item index="19" class="java.lang.String" itemvalue="akshare" />
+            <item index="20" class="java.lang.String" itemvalue="APScheduler" />
+            <item index="21" class="java.lang.String" itemvalue="simplejson" />
+            <item index="22" class="java.lang.String" itemvalue="fonttools" />
+            <item index="23" class="java.lang.String" itemvalue="matplotlib" />
+            <item index="24" class="java.lang.String" itemvalue="charset-normalizer" />
+            <item index="25" class="java.lang.String" itemvalue="PyMySQL" />
+            <item index="26" class="java.lang.String" itemvalue="addcomments" />
+            <item index="27" class="java.lang.String" itemvalue="idna" />
+            <item index="28" class="java.lang.String" itemvalue="decorator" />
+            <item index="29" class="java.lang.String" itemvalue="cx-Oracle" />
+            <item index="30" class="java.lang.String" itemvalue="numpy" />
+            <item index="31" class="java.lang.String" itemvalue="requests" />
+            <item index="32" class="java.lang.String" itemvalue="importlib-metadata" />
+            <item index="33" class="java.lang.String" itemvalue="py-mini-racer" />
+            <item index="34" class="java.lang.String" itemvalue="websocket-client" />
+            <item index="35" class="java.lang.String" itemvalue="sqlparse" />
+            <item index="36" class="java.lang.String" itemvalue="zipp" />
+            <item index="37" class="java.lang.String" itemvalue="jsonpath" />
+            <item index="38" class="java.lang.String" itemvalue="urllib3" />
+            <item index="39" class="java.lang.String" itemvalue="baostock" />
+            <item index="40" class="java.lang.String" itemvalue="six" />
+            <item index="41" class="java.lang.String" itemvalue="tzdata" />
+            <item index="42" class="java.lang.String" itemvalue="packaging" />
+            <item index="43" class="java.lang.String" itemvalue="et-xmlfile" />
+            <item index="44" class="java.lang.String" itemvalue="pandas" />
+            <item index="45" class="java.lang.String" itemvalue="tqdm" />
+            <item index="46" class="java.lang.String" itemvalue="django" />
+            <item index="47" class="java.lang.String" itemvalue="colorama" />
+            <item index="48" class="java.lang.String" itemvalue="pytz" />
+            <item index="49" class="java.lang.String" itemvalue="webencodings" />
+            <item index="50" class="java.lang.String" itemvalue="openpyxl" />
+            <item index="51" class="java.lang.String" itemvalue="Pillow" />
+          </list>
+        </value>
+      </option>
+    </inspection_tool>
+  </profile>
+</component>
--- a/.idea/inspectionProfiles/profiles_settings.xml
+++ b/.idea/inspectionProfiles/profiles_settings.xml
@ -0,0 +1,6 @@
+<component name="InspectionProjectProfileManager">
+  <settings>
+    <option name="USE_PROJECT_PROFILE" value="false" />
+    <version value="1.0" />
+  </settings>
+</component>
--- a/.idea/misc.xml
+++ b/.idea/misc.xml
@ -0,0 +1,4 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.8" project-jdk-type="Python SDK" />
+</project>
--- a/.idea/modules.xml
+++ b/.idea/modules.xml
@ -0,0 +1,8 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="ProjectModuleManager">
+    <modules>
+      <module fileurl="file://$PROJECT_DIR$/.idea/public_sentiment.iml" filepath="$PROJECT_DIR$/.idea/public_sentiment.iml" />
+    </modules>
+  </component>
+</project>
--- a/.idea/public_sentiment.iml
+++ b/.idea/public_sentiment.iml
@ -0,0 +1,8 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<module type="PYTHON_MODULE" version="4">
+  <component name="NewModuleRootManager">
+    <content url="file://$MODULE_DIR$" />
+    <orderEntry type="jdk" jdkName="Python 3.8" jdkType="Python SDK" />
+    <orderEntry type="sourceFolder" forTests="false" />
+  </component>
+</module>
--- a/.idea/vcs.xml
+++ b/.idea/vcs.xml
@ -0,0 +1,6 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project version="4">
+  <component name="VcsDirectoryMappings">
+    <mapping directory="" vcs="Git" />
+  </component>
+</project>
--- a/collector/collector/init.py
+++ b/collector/collector/init.py
--- a/collector/collector/items.py
+++ b/collector/collector/items.py
@ -0,0 +1,12 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+import scrapy
+
+
+class SensitiveWordItem(scrapy.Item):
+    """
+    评论
+    """
+
+    sensitive_word = scrapy.Field()
--- a/collector/collector/middlewares.py
+++ b/collector/collector/middlewares.py
@ -0,0 +1,101 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from scrapy import signals
+
+# useful for handling different item types with a single interface
+from itemadapter import is_item, ItemAdapter
+
+
+class CollectorSpiderMiddleware:
+    # Not all methods need to be defined. If a method is not defined,
+    # scrapy acts as if the spider middleware does not modify the
+    # passed objects.
+
+    @classmethod
+    def from_crawler(cls, crawler):
+        # This method is used by Scrapy to create your spiders.
+        s = cls()
+        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
+        return s
+
+    def process_spider_input(self, response, spider):
+        # Called for each response that goes through the spider
+        # middleware and into the spider.
+
+        # Should return None or raise an exception.
+        return None
+
+    def process_spider_output(self, response, result, spider):
+        # Called with the results returned from the Spider, after
+        # it has processed the response.
+
+        # Must return an iterable of Request, or item objects.
+        for i in result:
+            yield i
+
+    def process_spider_exception(self, response, exception, spider):
+        # Called when a spider or process_spider_input() method
+        # (from other spider middleware) raises an exception.
+
+        # Should return either None or an iterable of Request or item objects.
+        pass
+
+    def process_start_requests(self, start_requests, spider):
+        # Called with the start requests of the spider, and works
+        # similarly to the process_spider_output() method, except
+        # that it doesn’t have a response associated.
+
+        # Must return only requests (not items).
+        for r in start_requests:
+            yield r
+
+    def spider_opened(self, spider):
+        spider.logger.info("Spider opened: %s" % spider.name)
+
+
+class CollectorDownloaderMiddleware:
+    # Not all methods need to be defined. If a method is not defined,
+    # scrapy acts as if the downloader middleware does not modify the
+    # passed objects.
+
+    @classmethod
+    def from_crawler(cls, crawler):
+        # This method is used by Scrapy to create your spiders.
+        s = cls()
+        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
+        return s
+
+    def process_request(self, request, spider):
+        # Called for each request that goes through the downloader
+        # middleware.
+
+        # Must either:
+        # - return None: continue processing this request
+        # - or return a Response object
+        # - or return a Request object
+        # - or raise IgnoreRequest: process_exception() methods of
+        #   installed downloader middleware will be called
+        return None
+
+    def process_response(self, request, response, spider):
+        # Called with the response returned from the downloader.
+
+        # Must either;
+        # - return a Response object
+        # - return a Request object
+        # - or raise IgnoreRequest
+        return response
+
+    def process_exception(self, request, exception, spider):
+        # Called when a download service or a process_request()
+        # (from other downloader middleware) raises an exception.
+
+        # Must either:
+        # - return None: continue processing this exception
+        # - return a Response object: stops process_exception() chain
+        # - return a Request object: stops process_exception() chain
+        pass
+
+    def spider_opened(self, spider):
+        spider.logger.info("Spider opened: %s" % spider.name)
--- a/collector/collector/pipelines.py
+++ b/collector/collector/pipelines.py
@ -0,0 +1,27 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+
+from web.models import PublicSentimentComment
+from web.manager.log_manager import LogManager
+from web.service.public_sentiment_comment_service import PublicSentimentCommentService
+
+Logger = LogManager.get_logger(__name__)
+
+
+class CollectorPipeline(object):
+
+    def __init__(self):
+        super().__init__()
+
+    def process_item(self, item, spider):
+        """
+        将数据存储在数据库中
+        """
+
+        public_sentiment_comment = PublicSentimentComment()
+        public_sentiment_comment.content = item['sensitive_word']
+
+        public_sentiment_comment_service = PublicSentimentCommentService()
+        public_sentiment_comment_service.save(public_sentiment_comment)
+        return item
--- a/collector/collector/settings.py
+++ b/collector/collector/settings.py
@ -0,0 +1,117 @@
+# Scrapy settings for collector project
+#
+# For simplicity, this file contains only settings considered important or
+# commonly used. You can find more settings consulting the documentation:
+#
+#     https://docs.scrapy.org/en/latest/topics/settings.html
+#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
+#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html
+
+BOT_NAME = "collector"
+
+SPIDER_MODULES = ["collector.spiders"]
+NEWSPIDER_MODULE = "collector.spiders"
+
+# Crawl responsibly by identifying yourself (and your website) on the user-agent
+# USER_AGENT = "collector (+http://www.yourdomain.com)"
+
+# Obey robots.txt rules
+# ROBOTSTXT_OBEY = True
+# 默认为True，此处改为False
+ROBOTSTXT_OBEY = False
+
+# Configure maximum concurrent requests performed by Scrapy (default: 16)
+# CONCURRENT_REQUESTS = 32
+
+# Configure a delay for requests for the same website (default: 0)
+# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
+# See also autothrottle settings and docs
+# DOWNLOAD_DELAY = 3
+# The download delay setting will honor only one of:
+# CONCURRENT_REQUESTS_PER_DOMAIN = 16
+# CONCURRENT_REQUESTS_PER_IP = 16
+
+# Disable cookies (enabled by default)
+# COOKIES_ENABLED = False
+
+# Disable Telnet Console (enabled by default)
+# TELNETCONSOLE_ENABLED = False
+
+# Override the default request headers:
+# DEFAULT_REQUEST_HEADERS = {
+#    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
+#    "Accept-Language": "en",
+# }
+
+DEFAULT_REQUEST_HEADERS = {
+    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
+    'Accept-Language': 'en',
+    'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
+    'Cookie': 'adb_isBlock=0; userid=1652710683278_ihrfq92084; prov=cn0731; city=0732; weather_city=hn_xt; region_ip=110.53.149.x; region_ver=1.2; wxIsclose=false; ifengRotator_iis3=6; ifengWindowCookieName_919=1'
+    # 默认是注释的，这个东西非常重要，如果不写很容易被判断为电脑，简单点写一个Mozilla/5.0即可
+}
+
+# Enable or disable spider middlewares
+# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
+# SPIDER_MIDDLEWARES = {
+#    "collector.middlewares.CollectorSpiderMiddleware": 543,
+# }
+
+# Enable or disable downloader middlewares
+# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
+# DOWNLOADER_MIDDLEWARES = {
+#    "collector.middlewares.CollectorDownloaderMiddleware": 543,
+# }
+
+# Enable or disable extensions
+# See https://docs.scrapy.org/en/latest/topics/extensions.html
+# EXTENSIONS = {
+#    "scrapy.extensions.telnet.TelnetConsole": None,
+# }
+
+# Configure item pipelines
+# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
+# ITEM_PIPELINES = {
+#    "collector.pipelines.CollectorPipeline": 300,
+# }
+# 项目管道，数字越小优先度越高
+ITEM_PIPELINES = {
+    'collector.pipelines.CollectorPipeline': 300,
+}
+
+# Enable and configure the AutoThrottle extension (disabled by default)
+# See https://docs.scrapy.org/en/latest/topics/autothrottle.html
+# AUTOTHROTTLE_ENABLED = True
+# The initial download delay
+# AUTOTHROTTLE_START_DELAY = 5
+# The maximum download delay to be set in case of high latencies
+# AUTOTHROTTLE_MAX_DELAY = 60
+# The average number of requests Scrapy should be sending in parallel to
+# each remote server
+# AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
+# Enable showing throttling stats for every response received:
+# AUTOTHROTTLE_DEBUG = False
+
+# Enable and configure HTTP caching (disabled by default)
+# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
+# HTTPCACHE_ENABLED = True
+# HTTPCACHE_EXPIRATION_SECS = 0
+# HTTPCACHE_DIR = "httpcache"
+# HTTPCACHE_IGNORE_HTTP_CODES = []
+# HTTPCACHE_STORAGE = "scrapy.extensions.httpcache.FilesystemCacheStorage"
+
+# Set settings whose default value is deprecated to a future-proof value
+REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
+TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
+FEED_EXPORT_ENCODING = "utf-8"
+
+######################################### 下面的都是自定义的 ########################################
+
+import os, django
+import sys
+
+BASE_DIR = os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
+sys.path.append(BASE_DIR)
+os.environ.setdefault("DJANGO_SETTINGS_MODULE", "public_sentiment.settings")
+os.environ["DJANGO_ALLOW_ASYNC_UNSAFE"] = "true"
+django.setup()
--- a/collector/collector/spiders/init.py
+++ b/collector/collector/spiders/init.py
@ -0,0 +1,4 @@
+# This package will contain the spiders of your Scrapy project
+#
+# Please refer to the documentation for information on how to create and manage
+# your spiders.
--- a/collector/collector/spiders/collector_spider.py
+++ b/collector/collector/spiders/collector_spider.py
@ -0,0 +1,59 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+import re
+from typing import Optional, Any
+import scrapy
+
+from collector.items import SensitiveWordItem
+from web.manager.log_manager import LogManager
+from web.spider.base_spider import BaseSpider
+from web.util.re_util import ReUtil
+
+Logger = LogManager.get_logger(__name__)
+
+
+class CollectorSpider(scrapy.Spider, BaseSpider):
+    """
+    从微博上爬数据
+    """
+
+    name = "collector-spider"
+    allowed_domains = ["s.weibo.com"]
+    # start_urls = ["https://s.weibo.com/weibo?q=%E5%8C%97%E4%BA%AC%E5%B7%A5%E5%95%86%E5%A4%A7%E5%AD%A6&nodup=1&page=5"]
+    start_urls = ["https://xm.buyiju.com/ceming/129803-zajo.html"]
+    # url = 'https://xm.buyiju.com/ceming/129803-zajo.html'
+
+    def __init__(self, name: Optional[str] = None, **kwargs: Any):
+        scrapy.Spider.__init__(self)
+        BaseSpider.__init__(self)
+
+    # def start_requests(self):
+    #     yield scrapy.Request(url=self.url, callback=self.parse)
+
+    def parse(self, response):
+
+        Logger.info('从微博上爬数据')
+        # 返回的html
+        text = response.text
+
+        # 查询敏感词，并将其拼接为字符串，用|分隔
+        training_sensitive_word_list = self.training_sensitive_word_service.find_all()
+        temp_training_sensitive_word_list = list(map(lambda training_sensitive_word: str(training_sensitive_word.word), training_sensitive_word_list))
+        match_str = '.+|.+'.join(temp_training_sensitive_word_list)
+
+        # 去除返回值中的html标签
+        text_without_html = ReUtil.clear_html(text)
+        text_without_html_list = text_without_html.split('\n')
+
+        # 匹配
+        is_match = False
+        sensitive_word_item = SensitiveWordItem()
+        for item in text_without_html_list:
+            match = re.match(match_str, item)
+            if match:
+                sensitive_word_item['sensitive_word'] = match.group()
+                is_match = True
+                break
+        if is_match:
+            yield sensitive_word_item
--- a/collector/dbs/default.db
+++ b/collector/dbs/default.db
--- a/collector/main.py
+++ b/collector/main.py
@ -0,0 +1,3 @@
+from scrapy.cmdline import execute
+
+execute('scrapy crawl collector-spider'.split())
--- a/collector/scrapy.cfg
+++ b/collector/scrapy.cfg
@ -0,0 +1,11 @@
+# Automatically created by: scrapy startproject
+#
+# For more information about the [deploy] section see:
+# https://scrapyd.readthedocs.io/en/latest/deploy.html
+
+[settings]
+default = collector.settings
+
+[deploy]
+#url = http://localhost:6800/
+project = collector
--- a/manage.py
+++ b/manage.py
@ -0,0 +1,30 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+import os
+import sys
+import django
+from web.manager.log_manager import LogManager
+
+sys.path.append(r"web")
+sys.path.append(r"collector")
+
+os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'public_sentiment.settings')
+django.setup()
+
+Logger = LogManager.get_logger(__name__)
+
+if __name__ == '__main__':
+
+    LogManager.get_logger("启动服务器")
+
+    try:
+        from django.core.management import execute_from_command_line
+    except ImportError as exc:
+        raise ImportError(
+            "Couldn't import Django. Are you sure it's installed and "
+            "available on your PYTHONPATH environment variable? Did you "
+            "forget to activate a virtual environment?"
+        ) from exc
+
+    execute_from_command_line(sys.argv)
--- a/public_sentiment/init.py
+++ b/public_sentiment/init.py
@ -0,0 +1,2 @@
+import pymysql
+pymysql.install_as_MySQLdb()
--- a/public_sentiment/asgi.py
+++ b/public_sentiment/asgi.py
@ -0,0 +1,16 @@
+"""
+ASGI config for public_sentiment project.
+
+It exposes the ASGI callable as a module-level variable named ``application``.
+
+For more information on this file, see
+https://docs.djangoproject.com/en/4.2/howto/deployment/asgi/
+"""
+
+import os
+
+from django.core.asgi import get_asgi_application
+
+os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'public_sentiment.settings')
+
+application = get_asgi_application()
--- a/public_sentiment/settings.py
+++ b/public_sentiment/settings.py
@ -0,0 +1,136 @@
+"""
+Django settings for public_sentiment project.
+
+Generated by 'django-admin startproject' using Django 4.2.16.
+
+For more information on this file, see
+https://docs.djangoproject.com/en/4.2/topics/settings/
+
+For the full list of settings and their values, see
+https://docs.djangoproject.com/en/4.2/ref/settings/
+"""
+
+from pathlib import Path
+
+# Build paths inside the project like this: BASE_DIR / 'subdir'.
+BASE_DIR = Path(__file__).resolve().parent.parent
+
+# Quick-start development settings - unsuitable for production
+# See https://docs.djangoproject.com/en/4.2/howto/deployment/checklist/
+
+# SECURITY WARNING: keep the secret key used in production secret!
+SECRET_KEY = 'django-insecure-!*ar1k^h=h^*azpzf3sabuf4w5m)vo^aev0l6c@6qfcdh73%ze'
+
+# SECURITY WARNING: don't run with debug turned on in production!
+DEBUG = True
+
+ALLOWED_HOSTS = []
+
+# Application definition
+
+INSTALLED_APPS = [
+    'django.contrib.admin',
+    'django.contrib.auth',
+    'django.contrib.contenttypes',
+    'django.contrib.sessions',
+    'django.contrib.messages',
+    'django.contrib.staticfiles',
+    'web',
+]
+
+MIDDLEWARE = [
+    'django.middleware.security.SecurityMiddleware',
+    'django.contrib.sessions.middleware.SessionMiddleware',
+    'django.middleware.common.CommonMiddleware',
+    'django.middleware.csrf.CsrfViewMiddleware',
+    'django.contrib.auth.middleware.AuthenticationMiddleware',
+    'django.contrib.messages.middleware.MessageMiddleware',
+    'django.middleware.clickjacking.XFrameOptionsMiddleware',
+]
+
+ROOT_URLCONF = 'public_sentiment.urls'
+
+TEMPLATES = [
+    {
+        'BACKEND': 'django.template.backends.django.DjangoTemplates',
+        'DIRS': [],
+        'APP_DIRS': True,
+        'OPTIONS': {
+            'context_processors': [
+                'django.template.context_processors.debug',
+                'django.template.context_processors.request',
+                'django.contrib.auth.context_processors.auth',
+                'django.contrib.messages.context_processors.messages',
+            ],
+        },
+    },
+]
+
+WSGI_APPLICATION = 'public_sentiment.wsgi.application'
+
+# Database
+# https://docs.djangoproject.com/en/4.2/ref/settings/#databases
+
+DATABASES = {
+    'default': {
+        'ENGINE': 'django.db.backends.mysql',  # 默认
+        'NAME': 'base_platform',  # 连接的数据库
+        'HOST': '127.0.0.1',  # mysql的ip地址
+        'PORT': 3306,  # mysql的端口
+        'USER': 'root',  # mysql的用户名
+        'PASSWORD': '123456',  # mysql的密码
+    }
+}
+
+# Password validation
+# https://docs.djangoproject.com/en/4.2/ref/settings/#auth-password-validators
+
+AUTH_PASSWORD_VALIDATORS = [
+    {
+        'NAME': 'django.contrib.auth.password_validation.UserAttributeSimilarityValidator',
+    },
+    {
+        'NAME': 'django.contrib.auth.password_validation.MinimumLengthValidator',
+    },
+    {
+        'NAME': 'django.contrib.auth.password_validation.CommonPasswordValidator',
+    },
+    {
+        'NAME': 'django.contrib.auth.password_validation.NumericPasswordValidator',
+    },
+]
+
+# Internationalization
+# https://docs.djangoproject.com/en/4.2/topics/i18n/
+
+LANGUAGE_CODE = 'en-us'
+
+TIME_ZONE = 'UTC'
+
+USE_I18N = True
+
+USE_L10N = True
+
+# USE_TZ = True
+USE_TZ = False
+
+# Static files (CSS, JavaScript, Images)
+# https://docs.djangoproject.com/en/4.2/howto/static-files/
+
+STATIC_URL = 'static/'
+
+# Default primary key field type
+# https://docs.djangoproject.com/en/4.2/ref/settings/#default-auto-field
+
+DEFAULT_AUTO_FIELD = 'django.db.models.BigAutoField'
+
+# 时区
+TIME_ZONE = 'Asia/Shanghai'
+
+# gridgraph的配置
+GRID_GRAPH = {
+    'url': 'ws://192.168.3.18:8182/gremlin',
+    'traversal_source': 'gmodern100M',
+    'username': 'admin',
+    'password': 'admin'
+}
--- a/public_sentiment/urls.py
+++ b/public_sentiment/urls.py
@ -0,0 +1,25 @@
+"""
+URL configuration for public_sentiment project.
+
+The `urlpatterns` list routes URLs to views. For more information please see:
+    https://docs.djangoproject.com/en/4.2/topics/http/urls/
+Examples:
+Function views
+    1. Add an import:  from my_app import views
+    2. Add a URL to urlpatterns:  path('', views.home, name='home')
+Class-based views
+    1. Add an import:  from other_app.views import Home
+    2. Add a URL to urlpatterns:  path('', Home.as_view(), name='home')
+Including another URLconf
+    1. Import the include() function: from django.urls import include, path
+    2. Add a URL to urlpatterns:  path('blog/', include('blog.urls'))
+"""
+from django.contrib import admin
+from django.urls import path
+
+from web.controller.html_parser_controller import parse_html
+
+urlpatterns = [
+    path('admin/', admin.site.urls),
+    path('api/v1/htmlParser/parseHtml', parse_html),
+]
--- a/public_sentiment/wsgi.py
+++ b/public_sentiment/wsgi.py
@ -0,0 +1,16 @@
+"""
+WSGI config for public_sentiment project.
+
+It exposes the WSGI callable as a module-level variable named ``application``.
+
+For more information on this file, see
+https://docs.djangoproject.com/en/4.2/howto/deployment/wsgi/
+"""
+
+import os
+
+from django.core.wsgi import get_wsgi_application
+
+os.environ.setdefault('DJANGO_SETTINGS_MODULE', 'public_sentiment.settings')
+
+application = get_wsgi_application()
--- a/scrawl/init.py
+++ b/scrawl/init.py
--- a/scrawl/scrapy.cfg
+++ b/scrawl/scrapy.cfg
@ -0,0 +1,11 @@
+# Automatically created by: scrapy startproject
+#
+# For more information about the [deploy] section see:
+# https://scrapyd.readthedocs.io/en/latest/deploy.html
+
+[settings]
+default = scrawl.settings
+
+[deploy]
+#url = http://localhost:6800/
+project = scrawl
--- a/scrawl/scrawl/init.py
+++ b/scrawl/scrawl/init.py
--- a/scrawl/scrawl/items.py
+++ b/scrawl/scrawl/items.py
@ -0,0 +1,12 @@
+# Define here the models for your scraped items
+#
+# See documentation in:
+# https://docs.scrapy.org/en/latest/topics/items.html
+
+import scrapy
+
+
+class ScrawlItem(scrapy.Item):
+    # define the fields for your item here like:
+    # name = scrapy.Field()
+    pass
--- a/scrawl/scrawl/middlewares.py
+++ b/scrawl/scrawl/middlewares.py
@ -0,0 +1,103 @@
+# Define here the models for your spider middleware
+#
+# See documentation in:
+# https://docs.scrapy.org/en/latest/topics/spider-middleware.html
+
+from scrapy import signals
+
+# useful for handling different item types with a single interface
+from itemadapter import is_item, ItemAdapter
+
+
+class ScrawlSpiderMiddleware:
+    # Not all methods need to be defined. If a method is not defined,
+    # scrapy acts as if the spider middleware does not modify the
+    # passed objects.
+
+    @classmethod
+    def from_crawler(cls, crawler):
+        # This method is used by Scrapy to create your spiders.
+        s = cls()
+        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
+        return s
+
+    def process_spider_input(self, response, spider):
+        # Called for each response that goes through the spider
+        # middleware and into the spider.
+
+        # Should return None or raise an exception.
+        return None
+
+    def process_spider_output(self, response, result, spider):
+        # Called with the results returned from the Spider, after
+        # it has processed the response.
+
+        # Must return an iterable of Request, or item objects.
+        for i in result:
+            yield i
+
+    def process_spider_exception(self, response, exception, spider):
+        # Called when a spider or process_spider_input() method
+        # (from other spider middleware) raises an exception.
+
+        # Should return either None or an iterable of Request or item objects.
+        pass
+
+    def process_start_requests(self, start_requests, spider):
+        # Called with the start requests of the spider, and works
+        # similarly to the process_spider_output() method, except
+        # that it doesn’t have a response associated.
+
+        # Must return only requests (not items).
+        for r in start_requests:
+            yield r
+
+    def spider_opened(self, spider):
+        spider.logger.info("Spider opened: %s" % spider.name)
+
+
+class ScrawlDownloaderMiddleware:
+    # Not all methods need to be defined. If a method is not defined,
+    # scrapy acts as if the downloader middleware does not modify the
+    # passed objects.
+
+    @classmethod
+    def from_crawler(cls, crawler):
+        # This method is used by Scrapy to create your spiders.
+        s = cls()
+        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
+        return s
+
+    def process_request(self, request, spider):
+        # Called for each request that goes through the downloader
+        # middleware.
+
+        # Must either:
+        # - return None: continue processing this request
+        # - or return a Response object
+        # - or return a Request object
+        # - or raise IgnoreRequest: process_exception() methods of
+        #   installed downloader middleware will be called
+        return None
+
+    def process_response(self, request, response, spider):
+        # Called with the response returned from the downloader.
+
+        # Must either;
+        # - return a Response object
+        # - return a Request object
+        # - or raise IgnoreRequest
+        return response
+
+    def process_exception(self, request, exception, spider):
+        # Called when a download handler or a process_request()
+        # (from other downloader middleware) raises an exception.
+
+        # Must either:
+        # - return None: continue processing this exception
+        # - return a Response object: stops process_exception() chain
+        # - return a Request object: stops process_exception() chain
+        pass
+
+    def spider_opened(self, spider):
+        spider.logger.info("Spider opened: %s" % spider.name)
--- a/scrawl/scrawl/pipelines.py
+++ b/scrawl/scrawl/pipelines.py
@ -0,0 +1,13 @@
+# Define your item pipelines here
+#
+# Don't forget to add your pipeline to the ITEM_PIPELINES setting
+# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
+
+
+# useful for handling different item types with a single interface
+from itemadapter import ItemAdapter
+
+
+class ScrawlPipeline:
+    def process_item(self, item, spider):
+        return item
--- a/scrawl/scrawl/settings.py
+++ b/scrawl/scrawl/settings.py
@ -0,0 +1,105 @@
+# Scrapy settings for scrawl project
+#
+# For simplicity, this file contains only settings considered important or
+# commonly used. You can find more settings consulting the documentation:
+#
+#     https://docs.scrapy.org/en/latest/topics/settings.html
+#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
+#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html
+
+BOT_NAME = "scrawl"
+
+SPIDER_MODULES = ["scrawl.spiders"]
+NEWSPIDER_MODULE = "scrawl.spiders"
+
+# Crawl responsibly by identifying yourself (and your website) on the user-agent
+# USER_AGENT = "scrawl (+http://www.yourdomain.com)"
+
+# Obey robots.txt rules
+# ROBOTSTXT_OBEY = True
+ROBOTSTXT_OBEY = False
+
+# Configure maximum concurrent requests performed by Scrapy (default: 16)
+# CONCURRENT_REQUESTS = 32
+
+# Configure a delay for requests for the same website (default: 0)
+# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
+# See also autothrottle settings and docs
+# DOWNLOAD_DELAY = 3
+# The download delay setting will honor only one of:
+# CONCURRENT_REQUESTS_PER_DOMAIN = 16
+# CONCURRENT_REQUESTS_PER_IP = 16
+
+# Disable cookies (enabled by default)
+# COOKIES_ENABLED = False
+
+# Disable Telnet Console (enabled by default)
+# TELNETCONSOLE_ENABLED = False
+
+# Override the default request headers:
+# DEFAULT_REQUEST_HEADERS = {
+#    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
+#    "Accept-Language": "en",
+# }
+DEFAULT_REQUEST_HEADERS = {
+    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
+    'Accept-Language': 'en',
+    'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
+    'Cookie': 'adb_isBlock=0; userid=1652710683278_ihrfq92084; prov=cn0731; city=0732; weather_city=hn_xt; region_ip=110.53.149.x; region_ver=1.2; wxIsclose=false; ifengRotator_iis3=6; ifengWindowCookieName_919=1'
+    # 默认是注释的，这个东西非常重要，如果不写很容易被判断为电脑，简单点写一个Mozilla/5.0即可
+}
+
+# Enable or disable spider middlewares
+# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
+# SPIDER_MIDDLEWARES = {
+#    "scrawl.middlewares.ScrawlSpiderMiddleware": 543,
+# }
+
+# Enable or disable downloader middlewares
+# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
+# DOWNLOADER_MIDDLEWARES = {
+#    "scrawl.middlewares.ScrawlDownloaderMiddleware": 543,
+# }
+
+# Enable or disable extensions
+# See https://docs.scrapy.org/en/latest/topics/extensions.html
+# EXTENSIONS = {
+#    "scrapy.extensions.telnet.TelnetConsole": None,
+# }
+
+# Configure item pipelines
+# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
+# ITEM_PIPELINES = {
+#    "scrawl.pipelines.ScrawlPipeline": 300,
+# }
+# ITEM_PIPELINES：项目管道，300为优先级，越低越爬取的优先度越高
+ITEM_PIPELINES = {
+    'scrawl.pipelines.ScrawlPipeline': 300,
+    # 'subeiNews.pipelines.SubeinewsMysqlPipeline': 200,  # 存数据的管道
+}
+
+# Enable and configure the AutoThrottle extension (disabled by default)
+# See https://docs.scrapy.org/en/latest/topics/autothrottle.html
+# AUTOTHROTTLE_ENABLED = True
+# The initial download delay
+# AUTOTHROTTLE_START_DELAY = 5
+# The maximum download delay to be set in case of high latencies
+# AUTOTHROTTLE_MAX_DELAY = 60
+# The average number of requests Scrapy should be sending in parallel to
+# each remote server
+# AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
+# Enable showing throttling stats for every response received:
+# AUTOTHROTTLE_DEBUG = False
+
+# Enable and configure HTTP caching (disabled by default)
+# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
+# HTTPCACHE_ENABLED = True
+# HTTPCACHE_EXPIRATION_SECS = 0
+# HTTPCACHE_DIR = "httpcache"
+# HTTPCACHE_IGNORE_HTTP_CODES = []
+# HTTPCACHE_STORAGE = "scrapy.extensions.httpcache.FilesystemCacheStorage"
+
+# Set settings whose default value is deprecated to a future-proof value
+REQUEST_FINGERPRINTER_IMPLEMENTATION = "2.7"
+TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"
+FEED_EXPORT_ENCODING = "utf-8"
--- a/scrawl/scrawl/spiders/init.py
+++ b/scrawl/scrawl/spiders/init.py
@ -0,0 +1,4 @@
+# This package will contain the spiders of your Scrapy project
+#
+# Please refer to the documentation for information on how to create and manage
+# your spiders.
--- a/scrawl/scrawl/spiders/weibo_spider.py
+++ b/scrawl/scrawl/spiders/weibo_spider.py
@ -0,0 +1,18 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+import sys
+import scrapy
+
+sys.path.append(r"scrawl")
+from scrawl.items import ScrawlItem
+
+
+class WeiboSpiderSpider(scrapy.Spider):
+    name = "weibo_spider"
+    allowed_domains = ["s.weibo.com"]
+    start_urls = ["https://s.weibo.com/weibo?q=%E5%8C%97%E4%BA%AC%E5%B7%A5%E5%95%86%E5%A4%A7%E5%AD%A6&nodup=1&page=5"]
+
+    def parse(self, response):
+        for con in response.xpath('//*[@id="pl_feedlist_index"]/div/div'):
+            scraw_item = ScrawlItem()
--- a/script/main.bat
+++ b/script/main.bat
@ -0,0 +1,2 @@
+cd C:/mywork/workspace/public_sentiment/collector
+scrapy crawl collector-spider
--- a/script/runserver.bat
+++ b/script/runserver.bat
@ -0,0 +1 @@
+C:\mywork\dev-env\python\Python38\python.exe C:\mywork\workspace\public_sentiment\manage.py runserver 9000
--- a/script/scrapyd-console.bat
+++ b/script/scrapyd-console.bat
@ -0,0 +1 @@
+scrapyd
--- a/web/init.py
+++ b/web/init.py
--- a/web/admin.py
+++ b/web/admin.py
@ -0,0 +1,3 @@
+from django.contrib import admin
+
+# Register your models here.
--- a/web/apps.py
+++ b/web/apps.py
@ -0,0 +1,6 @@
+from django.apps import AppConfig
+
+
+class WebConfig(AppConfig):
+    default_auto_field = 'django.db.models.BigAutoField'
+    name = 'web'
--- a/web/constants/init.py
+++ b/web/constants/init.py
--- a/web/constants/startup_parameter.py
+++ b/web/constants/startup_parameter.py
@ -0,0 +1,12 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+
+"""
+启动系统时的参数
+"""
+
+
+class StartupParameter:
+    # 采集数据
+    Crawl_Data = 'crawl_data'
--- a/web/controller/init.py
+++ b/web/controller/init.py
--- a/web/controller/base_controller.py
+++ b/web/controller/base_controller.py
@ -0,0 +1,42 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+import json
+import sys
+from scrapy.crawler import CrawlerProcess
+from scrapy.utils.project import get_project_settings
+from web.handler.html_parser_handler import HtmlParserHandler
+
+sys.path.append(r"collector")
+
+from collector.settings import ITEM_PIPELINES
+
+
+class BaseController:
+    """
+    controller层的基类
+    """
+
+    def __init__(self):
+        self.html_parser_handler = HtmlParserHandler()
+
+    def to_vo(self, request, clazz):
+        """
+        将json参数转换为vo对象
+        """
+        raw_data = request.body.decode("utf-8")
+        json_data_dict = json.loads(raw_data)
+        obj = clazz(**json_data_dict)
+        return obj
+
+    def start_scrawl(self, spider):
+        """
+        开始执行爬虫
+        """
+
+        # get_project_settings方法并不能导入settings.py中的配置，因此此处还要硬编码导入
+        settings = get_project_settings()
+        settings['ITEM_PIPELINES'] = ITEM_PIPELINES
+        process = CrawlerProcess(settings)
+        process.crawl(spider)
+        process.start()
--- a/web/controller/html_parser_controller.py
+++ b/web/controller/html_parser_controller.py
@ -0,0 +1,38 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+import json
+from collections import namedtuple
+from django.http import JsonResponse
+from rest_framework.decorators import api_view
+from twisted.protocols.amp import Box
+from collector.spiders.collector_spider import CollectorSpider
+from web.controller.base_controller import BaseController
+from web.dto.api_result import ApiResult
+from web.manager.gridgraph_manager import GridGraphManager
+from web.manager.log_manager import LogManager
+from web.util.dto_util import DtoUtil
+from web.vo.parse_html_vo import ParseHtmlVo
+
+Logger = LogManager.get_logger(__name__)
+
+base_controller = BaseController()
+
+
+@api_view(['POST'])
+def parse_html(request):
+    """
+    解析html
+    """
+
+    Logger.info("开始解析html")
+
+    parse_html_vo = base_controller.to_vo(request, ParseHtmlVo)
+    service_result = base_controller.html_parser_handler.parse_html(parse_html_vo.url)
+
+    # grid_graph_manager = GridGraphManager()
+    # list = grid_graph_manager.query_vertex(label='person')
+
+    # base_controller.start_scrawl(CollectorSpider)
+
+    return JsonResponse(DtoUtil.service_result_to_api_result(service_result), safe=False)
--- a/web/dao/init.py
+++ b/web/dao/init.py
--- a/web/dao/base_dao.py
+++ b/web/dao/base_dao.py
@ -0,0 +1,157 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from datetime import datetime
+from django.db.models.query import QuerySet
+from django.db import models
+
+from web.manager.snowflake_manager import SnowflakeManager
+
+
+class BaseDao:
+    """
+    dao基类
+    """
+
+    # 子类必须覆盖这个
+    model_class = models.Model
+    save_batch_size = 1000
+
+    snowflake_manager = SnowflakeManager()
+
+    def save(self, obj):
+        """
+        添加
+        """
+
+        if not obj:
+            return False
+        obj.id = self.snowflake_manager.next_id()
+        obj.create_time = datetime.now()
+        obj.save()
+        return True
+
+    def save_batch(self, objs, *, batch_size=save_batch_size):
+        """
+        批量添加
+        """
+
+        if not objs:
+            return False
+        for obj in objs:
+            obj.id = snowflake.next_id()
+        self.model_class.objects.bulk_create(objs, batch_size=batch_size)
+        return True
+
+    def delete(self, obj):
+        """
+        删除
+        """
+
+        if not obj:
+            return False
+        obj.delete()
+        return True
+
+    def delete_batch(self, objs):
+        """
+        批量删除
+        """
+
+        if not objs:
+            return False
+        for obj in objs:
+            self.delete(obj)
+        return True
+
+    def delete_batch_by_query(self, filter_kw: dict, exclude_kw: dict):
+        """
+        根据条件，批量删除
+        """
+
+        self.model_class.objects.filter(**filter_kw).exclude(**exclude_kw).delete()
+        return True
+
+    def delete_by_fake(self, obj):
+        """
+        假删除/伪删除
+        """
+
+        if obj is None:
+            return False
+        obj.is_deleted = True
+        obj.save()
+        return True
+
+    def update(self, obj):
+        """
+        更新
+        """
+
+        if not obj:
+            return False
+        obj.save()
+        return True
+
+    def update_batch(self, objs):
+        """
+        批量更新
+        """
+
+        if not objs:
+            return False
+        for obj in objs:
+            self.update(obj)
+        return True
+
+    def update_batch_by_query(self, query_kwargs: dict, exclude_kw: dict, newattrs_kwargs: dict):
+        """
+        根据条件，批量更新
+        """
+
+        self.model_class.objects.filter(**query_kwargs).exclude(**exclude_kw).update(**newattrs_kwargs)
+
+    def find_one(self, filter_kw: dict, exclude_kw: dict, order_bys: list):
+        """
+        根据条件，返回一条记录
+        """
+
+        qs = self.model_class.objects.filter(**filter_kw).exclude(**exclude_kw)
+        if order_bys:
+            qs = qs.order_by(*order_bys)
+        return qs.first()
+
+    def find_queryset(self, filter_kw: dict, exclude_kw: dict, order_bys: list) -> QuerySet:
+        """
+        根据条件，返回QuerySet
+        """
+        if order_bys != None and len(order_bys) != 0:
+            query_set = self.model_class.objects.filter(**filter_kw).exclude(**exclude_kw)
+            for by in order_bys:
+                query_set = query_set.order_by(by)
+            return query_set
+        else:
+            return self.model_class.objects.filter(**filter_kw).exclude(**exclude_kw)
+
+    def find_list(self, filter_kw: dict, exclude_kw: dict, order_bys: list) -> list:
+        """
+        根据条件，返回对象列表
+        """
+
+        queryset = self.find_queryset(filter_kw, exclude_kw, order_bys)
+        model_instances = [model for model in queryset]
+        return model_instances
+
+    def is_exists(self, filter_kw: dict, exclude_kw: dict) -> bool:
+        """
+        根据条件，判断记录是否存在
+        """
+
+        return self.model_class.objects.filter(**filter_kw).exclude(**exclude_kw).exists()
+
+    def get_count(self, filter_kw: dict, exclude_kw: dict) -> int:
+        """
+        根据条件，计数
+        """
+
+        return self.model_class.objects.filter(**filter_kw).exclude(**exclude_kw).count()
--- a/web/dao/public_sentiment_comment_dao.py
+++ b/web/dao/public_sentiment_comment_dao.py
@ -0,0 +1,13 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from web.dao.base_dao import BaseDao
+from web.models import PublicSentimentComment
+
+
+class PublicSentimentCommentDao(BaseDao):
+    """
+    Comment的dao类
+    """
+
+    model_class = PublicSentimentComment
--- a/web/dao/training_sensitive_word_dao.py
+++ b/web/dao/training_sensitive_word_dao.py
@ -0,0 +1,20 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from web.dao.base_dao import BaseDao
+from web.models import TrainingSensitiveWord
+
+
+class TrainingSensitiveWordDao(BaseDao):
+    """
+    TrainingSensitiveWord的dao类
+    """
+
+    model_class = TrainingSensitiveWord
+
+    def find_all(self):
+        """
+        查询所有记录
+        """
+
+        return self.find_list(dict(), dict(), list())
--- a/web/dto/init.py
+++ b/web/dto/init.py
--- a/web/dto/api_result.py
+++ b/web/dto/api_result.py
@ -0,0 +1,33 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+
+class ApiResult:
+    """
+    接口返回类
+    """
+
+    def __init__(self):
+        super().__init__()
+
+    def __init__(self, success, code, data, message):
+        # 只要服务端没报错，success都是True
+        self.success = success
+        # 根据处理结果不同，返回不同的值
+        self.code = code
+        # 返回数据
+        self.data = data
+        # 提示信息
+        self.message = message
+
+    @staticmethod
+    def instance(success, code, data, message):
+        return ApiResult(success, code, data, message).__dict__
+
+    @staticmethod
+    def ok(code, data, message):
+        return ApiResult(True, code, data, message).__dict__
+
+    @staticmethod
+    def fail(code, data, message):
+        return ApiResult(False, code, data, message).__dict__
--- a/web/dto/service_result.py
+++ b/web/dto/service_result.py
@ -0,0 +1,29 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+
+class ServiceResult:
+    """
+    service层返回值对象
+    """
+
+    def __init__(self):
+        super().__init__()
+
+    def __init__(self, success, code, data, message):
+        # 只要服务端没报错，success都是True
+        self.success = success
+        # 根据处理结果不同，返回不同的值
+        self.code = code
+        # 返回数据
+        self.data = data
+        # 提示信息
+        self.message = message
+
+    @staticmethod
+    def ok(code, data, message):
+        return ServiceResult(True, code, data, message)
+
+    @staticmethod
+    def fail(code, data, message):
+        return ServiceResult(False, code, data, message)
--- a/web/enum/init.py
+++ b/web/enum/init.py
--- a/web/enum/api_result_enum.py
+++ b/web/enum/api_result_enum.py
@ -0,0 +1,19 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+
+from enum import Enum
+
+
+class ApiResultEnum(Enum):
+    """
+    ApiResult类的的枚举类型
+    """
+
+    # 成功
+    # SUCCESS = 200
+    # SUCCESS_DESCRIPTION = '成功'
+
+    # 失败
+    FAIL = 4000
+    FAIL_DESCRIPTION = '失败'
--- a/web/enum/service_result_enum.py
+++ b/web/enum/service_result_enum.py
@ -0,0 +1,43 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+
+from enum import Enum
+
+
+class ServiceResultEnum(Enum):
+    """
+    ServiceResult类的的枚举类型
+    """
+
+    # 成功
+    SUCCESS = 200
+    SUCCESS_DESCRIPTION = '成功'
+
+    # 失败
+    FAIL = 3000
+    FAIL_DESCRIPTION = '失败'
+
+    # 添加成功
+    SAVE_SUCCESS = 3001
+    SAVE_SUCCESS_DESCRIPTION = '添加成功'
+
+    # 删除成功
+    DELETE_SUCCESS = 3002
+    DELETE_SUCCESS_DESCRIPTION = '删除成功'
+
+    # 修改成功
+    UPDATE_SUCCESS = 3003
+    UPDATE_SUCCESS_DESCRIPTION = '修改成功'
+
+    # 查询成功
+    SELECT_SUCCESS = 3004
+    SELECT_SUCCESS_DESCRIPTION = '查询成功'
+
+    # 不存在敏感词
+    NOT_EXIST_SENSITIVE_WORD = 3005
+    NOT_EXIST_SENSITIVE_WORD_DESCRIPTION = '不存在敏感词'
+
+    # 存在敏感词
+    EXIST_SENSITIVE_WORD = 3006
+    EXIST_SENSITIVE_WORD_DESCRIPTION = '存在敏感词'
--- a/web/handler/init.py
+++ b/web/handler/init.py
--- a/web/handler/base_handler.py
+++ b/web/handler/base_handler.py
@ -0,0 +1,13 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from web.service.training_sensitive_word_service import TrainingSensitiveWordService
+
+
+class BaseHandler:
+    """
+    handler层的基类
+    """
+
+    def __init__(self):
+        self.training_sensitive_word_service = TrainingSensitiveWordService()
--- a/web/handler/crawl_data_handler.py
+++ b/web/handler/crawl_data_handler.py
@ -0,0 +1,23 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from web.manager.log_manager import LogManager
+from web.handler.base_handler import BaseHandler
+
+Logger = LogManager.get_logger(__name__)
+
+"""
+采集数据的handler
+"""
+
+
+class CrawlDataHandler(BaseHandler):
+
+    def collect_data_from_weibo(self):
+        """
+        从新浪微博采集数据
+        """
+
+        Logger.info("开始从新浪微博采集数据")
+
+
--- a/web/handler/html_parser_handler.py
+++ b/web/handler/html_parser_handler.py
@ -0,0 +1,51 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+import re
+import requests
+
+from web.enum.service_result_enum import ServiceResultEnum
+from web.dto.service_result import ServiceResult
+from web.handler.base_handler import BaseHandler
+from web.manager.log_manager import LogManager
+from web.util.re_util import ReUtil
+
+Logger = LogManager.get_logger(__name__)
+
+
+class HtmlParserHandler(BaseHandler):
+    """
+    html解析器类
+    """
+
+    def parse_html(self, url):
+        """
+        解析html网页
+        """
+
+        response = requests.get(url)
+        text = response.text
+
+        # 查询敏感词，并将其拼接为字符串，用|分隔
+        service_result = self.training_sensitive_word_service.find_all()
+        if service_result is not None and service_result.success is True:
+            training_sensitive_word_list = service_result.data
+            temp_training_sensitive_word_list = list(
+                map(lambda training_sensitive_word: str(training_sensitive_word.word), training_sensitive_word_list))
+            match_str = '.+|.+'.join(temp_training_sensitive_word_list)
+
+            # 去除返回值中的html标签
+            text_without_html = ReUtil.clear_html(text)
+            text_without_html_list = text_without_html.split('\n')
+
+            # 匹配
+            for item in text_without_html_list:
+                match = re.match(match_str, item)
+                if match:
+                    return ServiceResult.ok(ServiceResultEnum.EXIST_SENSITIVE_WORD.value, match.group(),
+                                            ServiceResultEnum.EXIST_SENSITIVE_WORD_DESCRIPTION.value)
+            return ServiceResult.ok(ServiceResultEnum.NOT_EXIST_SENSITIVE_WORD.value, None,
+                                    ServiceResultEnum.NOT_EXIST_SENSITIVE_WORD_DESCRIPTION.value)
+        else:
+            return ServiceResult.fail(ServiceResultEnum.FAIL.value, None,
+                                      ServiceResultEnum.FAIL_DESCRIPTION.value)
--- a/web/manager/init.py
+++ b/web/manager/init.py
--- a/web/manager/gridgraph_manager.py
+++ b/web/manager/gridgraph_manager.py
@ -0,0 +1,258 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from gremlin_python import statics
+from gremlin_python.process.anonymous_traversal import traversal
+from gremlin_python.process.graph_traversal import __
+from gremlin_python.process.strategies import *
+from gremlin_python.driver.driver_remote_connection import DriverRemoteConnection
+from gremlin_python.process.traversal import T
+from gremlin_python.process.traversal import Order
+from gremlin_python.process.traversal import Cardinality
+from gremlin_python.process.traversal import Column
+from gremlin_python.process.traversal import Direction
+from gremlin_python.process.traversal import Operator
+from gremlin_python.process.traversal import P
+from gremlin_python.process.traversal import Pop
+from gremlin_python.process.traversal import Scope
+from gremlin_python.process.traversal import Barrier
+from gremlin_python.process.traversal import Bindings
+from gremlin_python.process.traversal import WithOptions
+from gremlin_python.driver import client
+from public_sentiment.settings import GRID_GRAPH
+
+
+class GridGraphManager:
+    """
+    gridgraph的管理器类
+    """
+
+    def __init__(self):
+        self.graph = traversal().withRemote(
+            DriverRemoteConnection(GRID_GRAPH['url'], GRID_GRAPH['traversal_source'], username=GRID_GRAPH['username'],
+                                   password=GRID_GRAPH['password']))
+
+    def add_vertex(self, label, properties=None):
+        """
+        add vertex
+        :param graph: graph, type: GraphTraversalSource
+        :param label: label, type: str
+        :param properties: property dict, like {'p1': 'value1', 'p2': 'value2'}
+        :return: vertex, Vertex(id, label)
+        """
+        vert = self.graph.addV(label)
+        if properties:
+            for key in properties.keys():
+                vert.property(key, properties.get(key))
+        return vert.next()
+
+    def add_edge(self, label, v_from, v_to, properties=None):
+        """
+        add edge
+        :param graph: graph, type: GraphTraversalSource
+        :param label: label, type: str
+        :param v_from: long vertex id or Vertex(id, label) of from
+        :param v_to: long vertex id or Vertex(id, label) of to
+        :param properties: property dict, like {'p1': 'value1', 'p2': 'value2'}
+        :return: None
+        """
+        if isinstance(v_from, int):
+            v_from = self.graph.V().hasId(v_from).next()
+        if isinstance(v_to, int):
+            v_to = self.graph.V().hasId(v_to).next()
+        edge = self.graph.V(v_from).addE(label).to(v_to)
+        if properties:
+            for key in properties.keys():
+                edge.property(key, properties.get(key))
+        edge.next()
+
+    def drop_vertex(self, v_id=None, label=None, properties=None):
+        """
+        drop all vertex or specific vertex
+        :param graph: graph, type: GraphTraversalSource
+        :param v_id: long vertex id or Vertex(id, label)
+        :param label: label, type: str
+        :param properties: property list, like ['p1', 'p2', {'p3': 'value'}]
+        :return: None
+        """
+        if isinstance(v_id, int):
+            v_id = self.graph.V().hasId(v_id).next()
+        travel = self.graph.V(v_id) if v_id else self.graph.V()
+        if label:
+            travel = travel.hasLabel(label)
+        if properties:
+            for p in properties:
+                if isinstance(p, dict):
+                    key = list(p.keys())[0]
+                    travel = travel.has(key, p.get(key))
+                else:
+                    travel = travel.has(p)
+        travel.drop().iterate()
+
+    def drop_edge(self, e_id=None, label=None, properties=None):
+        """
+        drop all edges or specific edge
+        :param graph: graph, type: GraphTraversalSource
+        :param e_id: edge id, type str
+        :param label: label, type: str
+        :param properties: property list, like ['p1', 'p2', {'p3': 'value'}]
+        :return: None
+        """
+        travel = self.graph.E(e_id) if e_id else self.graph.E()
+        if label:
+            travel = travel.hasLabel(label)
+        if properties:
+            for p in properties:
+                if isinstance(p, dict):
+                    key = list(p.keys())[0]
+                    travel = travel.has(key, p.get(key))
+                else:
+                    travel = travel.has(p)
+        travel.drop().iterate()
+
+    def query_vertex(self, v_id=None, label=None, properties=None):
+        """
+        query graph vertex (value) list
+        :param graph: graph, type: GraphTraversalSource
+        :param v_id: long vertex id or Vertex(id, label)
+        :param label: label, type: str
+        :param properties: property list, like ['p1', 'p2', {'p3': 'value'}]
+        :return: vertex list or vertex value list
+        """
+        if isinstance(v_id, int):
+            v_id = self.graph.V().hasId(v_id).next()
+        travel = self.graph.V(v_id) if v_id else self.graph.V()
+        if label:
+            travel = travel.hasLabel(label)
+        if properties:
+            for p in properties:
+                if isinstance(p, dict):
+                    key = list(p.keys())[0]
+                    travel = travel.has(key, p.get(key))
+                else:
+                    travel = travel.has(p)
+        # return travel.valueMap().toList()
+        return travel.toList()
+
+    def query_edge(self, e_id=None, label=None, properties=None):
+        """
+        query graph edge value list
+        :param graph: graph, type: GraphTraversalSource
+        :param e_id: edge id, type str
+        :param label: label, type: str
+        :param properties: property list, like ['p1', 'p2', {'p3': 'value'}]
+        :return: valueMap list
+        """
+        travel = self.graph.E(e_id) if e_id else self.graph.E()
+        if label:
+            travel = travel.hasLabel(label)
+        if properties:
+            for p in properties:
+                if isinstance(p, dict):
+                    key = list(p.keys())[0]
+                    travel = travel.has(key, p.get(key))
+                else:
+                    travel = travel.has(p)
+        return travel.valueMap().toList()
+
+    def query_edges_of_vertex(self, v_id):
+        """
+        query all edges of vertex
+        :param graph: graph, type: GraphTraversalSource
+        :param v_id: v_id: long vertex id or Vertex(id, label)
+        :return: edge list
+        """
+        if isinstance(v_id, int):
+            v_id = self.graph.V().hasId(v_id).next()
+        result = []
+        in_edges = self.graph.V(v_id).inE().toList()
+        out_edges = self.graph.V(v_id).outE().toList()
+        result.extend(in_edges)
+        result.extend(out_edges)
+        return result
+
+    def query_near_vertex(self, v_id):
+        """
+        query near vertices of vertex
+        :param graph: graph, type: GraphTraversalSource
+        :param v_id: v_id: long vertex id or Vertex(id, label)
+        :return: vertex list
+        """
+        if isinstance(v_id, int):
+            v_id = self.graph.V().hasId(v_id).next()
+        result = []
+        out_v = self.graph.V(v_id).out().toList()
+        in_v = self.graph.V(v_id).in_().toList()
+        result.extend(out_v)
+        result.extend(in_v)
+        return result
+
+    def get_edge_id(self):
+        """
+        get edge id
+        :param edge: Egde(id, label, outV, inV)
+        :return: edge id, type str
+        """
+        return self.graph.id.get('@value').get('relationId')
+
+    def vertex_to_dict(self, vertex):
+        """
+        transfer Vertex's info to dict
+        :param graph: graph, type: GraphTraversalSource
+        :param vertex: vertex, Vertex(id, label)
+        :return: vertex info dict
+        """
+        properties = self.graph.V(vertex).valueMap().toList()[0]
+        for key in properties.keys():
+            properties[key] = properties.get(key)[0]
+        return {
+            'id': vertex.id,
+            'label': vertex.label,
+            'properties': properties
+        }
+
+    def edge_to_dict(self, edge):
+        """
+        transfer Edge's info to dict
+        :param graph: graph, type: GraphTraversalSource
+        :param edge: edge, Edge(id, label, outV, inV)
+        :return: edge info dict
+        """
+        e_id = self.get_edge_id(edge)
+        properties = self.graph.E(e_id).valueMap().toList()[0]
+        return {
+            'id': e_id,
+            'label': edge.label,
+            'properties': properties
+        }
+
+    def judge_vertex_in_graph(self, vertex_dict):
+        """
+        judge a vertex whether in graph
+        :param graph: graph, type: GraphTraversalSource
+        :param vertex_dict: vertex dict, like {'label': 'value1', 'properties': {'p1': 'v1', ...}}
+        :return: None or Vertex(id,label)
+        """
+        label = vertex_dict.get('label')
+        properties = vertex_dict.get('properties')
+        travel = self.graph.V()
+        if label:
+            travel = travel.hasLabel(label)
+        if properties:
+            for k in properties.keys():
+                travel = travel.has(k, properties.get(k))
+        if travel.hasNext():
+            return travel.next()
+        return None
+
+    def get_sub_graph(self, vertices=None, edges=None, vertex_properties=None):
+        """
+        get sub graph
+        :param graph: graph, type: GraphTraversalSource
+        :param vertices: hasLabel('label').has('property').has('age', gt(20))
+        :param edges: hasLabel('label').has('property')
+        :param vertex_properties:
+        :return: sub_graph, type: GraphTraversalSource
+        """
+        strategy = SubgraphStrategy(vertices=vertices, edges=edges, vertex_properties=vertex_properties)
+        return self.graph.withStrategies(strategy)
--- a/web/manager/log_manager.py
+++ b/web/manager/log_manager.py
@ -0,0 +1,47 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+import logging
+
+
+class LogManager:
+    """
+    日志处理器类，同时在控制台和日志文件中打印日志
+    """
+
+    # 日志对象
+    Logger = None
+
+    def __init__(self):
+        super(LogManager, self).__init__()
+
+    @staticmethod
+    def get_logger(param_name, log_file='/mywork/log/public-sentiment/public-sentiment.log', level=logging.INFO):
+        """
+        获取日志对象
+        :param param_name:
+        :param log_file:
+        :param level:
+        :return:
+        """
+
+        if LogManager.Logger is None:
+            LogManager.Logger = logging.getLogger(param_name)
+            LogManager.Logger.setLevel(level=level)
+
+            formatter = logging.Formatter(
+                '%(asctime)s [%(threadName)s-%(thread)d] [%(levelname)s] %(name)s.%(funcName)s[%(lineno)d] %(message)s')
+
+            file_handler = logging.FileHandler(log_file, encoding="utf-8")
+            file_handler.setLevel(level=level)
+            file_handler.setFormatter(formatter)
+
+            console = logging.StreamHandler()
+            console.setFormatter(formatter)
+            console.setLevel(level)
+
+            LogManager.Logger.addHandler(file_handler)
+            LogManager.Logger.addHandler(console)
+            return LogManager.Logger
+        else:
+            return LogManager.Logger
--- a/web/manager/snowflake_manager.py
+++ b/web/manager/snowflake_manager.py
@ -0,0 +1,54 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+import time
+
+
+class SnowflakeManager(object):
+    """
+    Twitter的雪花算法实现
+    """
+
+    def __init__(self, start_time=1420041600000):
+        self.start_time = start_time / 1000  # 以秒为单位
+        self.last_timestamp = -1
+
+        # 41 bits时间戳
+        self.timestamp_shift = 22
+        # 10 bits机器编号
+        self.machine_id_shift = 12
+        # 12 bits序列号
+        self.sequence_shift = 0
+
+        # 41 bits可以表示的最大值，2^41 - 1
+        self.max_timestamp = -1 ^ (-1 << self.timestamp_shift)
+        # 10 bits可以表示的最大值，2^10 - 1
+        self.max_machine_id = -1 ^ (-1 << self.machine_id_shift)
+        # 12 bits可以表示的最大值，2^12 - 1
+        self.max_sequence = -1 ^ (-1 << self.sequence_shift)
+
+        # 机器编号和序列号暂时不使用，可以通过参数传入
+        self.machine_id = 0
+        self.sequence = 0
+
+    def next_id(self):
+        timestamp = int(time.time())
+        if timestamp < self.last_timestamp:
+            raise ValueError('Current timestamp is less than last timestamp.')
+
+        if timestamp == self.last_timestamp:
+            self.sequence = (self.sequence + 1) & self.max_sequence
+            if self.sequence == 0:
+                timestamp = self.til_next_millis(self.last_timestamp)
+        else:
+            self.sequence = 0
+
+        self.last_timestamp = timestamp
+        return ((timestamp - int(self.start_time)) << self.timestamp_shift) | (
+                self.machine_id << self.machine_id_shift) | self.sequence
+
+    def til_next_millis(self, last_timestamp):
+        timestamp = int(time.time())
+        while timestamp <= last_timestamp:
+            timestamp = int(time.time())
+        return timestamp
--- a/web/migrations/init.py
+++ b/web/migrations/init.py
--- a/web/models.py
+++ b/web/models.py
@ -0,0 +1,3 @@
+from django.db import models
+
+# Create your models here.
--- a/web/models/init.py
+++ b/web/models/init.py
@ -0,0 +1,6 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from .public_sentiment_comment import PublicSentimentComment
+from .public_sentiment_source import PublicSentimentSource
+from .training_sensitive_word import TrainingSensitiveWord
--- a/web/models/public_sentiment_comment.py
+++ b/web/models/public_sentiment_comment.py
@ -0,0 +1,30 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from django.core.validators import MaxValueValidator
+from django.db import models
+
+
+class PublicSentimentComment(models.Model):
+    """
+    评论表
+    """
+
+    # 主键
+    id = models.AutoField(primary_key=True)
+
+    # 内容
+    content = models.CharField(max_length=2550, null=True, blank=True)
+
+    # 来源id
+    source_id = models.BigIntegerField(validators=[MaxValueValidator(9223372036854775807)], db_index=True, null=False,
+                                       blank=False)
+
+    # 创建时间
+    create_time = models.DateTimeField(null=False, blank=False)
+
+    class Meta:
+        managed = True
+        db_table = 'ps_comment'
+        verbose_name = '评论表'
+        verbose_name_plural = verbose_name
--- a/web/models/public_sentiment_source.py
+++ b/web/models/public_sentiment_source.py
@ -0,0 +1,25 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from django.db import models
+
+
+class PublicSentimentSource(models.Model):
+    """
+    来源表
+    """
+
+    # 主键
+    id = models.AutoField(primary_key=True)
+
+    # 域名
+    domain_name = models.CharField(max_length=255, null=True, blank=True)
+
+    # 名称
+    name = models.CharField(max_length=255, null=True, blank=True)
+
+    class Meta:
+        managed = True
+        db_table = 'ps_source'
+        verbose_name = '来源表'
+        verbose_name_plural = verbose_name
--- a/web/models/training_sensitive_word.py
+++ b/web/models/training_sensitive_word.py
@ -0,0 +1,25 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from django.db import models
+
+
+class TrainingSensitiveWord(models.Model):
+    """
+    敏感词表
+    """
+
+    # 主键
+    id = models.AutoField(primary_key=True)
+
+    # 类型
+    type = models.CharField(max_length=255, null=True, blank=True)
+
+    # 敏感词
+    word = models.CharField(max_length=255, null=True, blank=True)
+
+    class Meta:
+        managed = True
+        db_table = 'training_sensitive_word'
+        verbose_name = '敏感词表'
+        verbose_name_plural = verbose_name
--- a/web/service/init.py
+++ b/web/service/init.py
--- a/web/service/base_service.py
+++ b/web/service/base_service.py
@ -0,0 +1,15 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from web.dao.public_sentiment_comment_dao import PublicSentimentCommentDao
+from web.dao.training_sensitive_word_dao import TrainingSensitiveWordDao
+
+
+class BaseService:
+    """
+    service层的基类
+    """
+
+    def __init__(self):
+        self.public_sentiment_comment_dao = PublicSentimentCommentDao()
+        self.training_sensitive_word_dao = TrainingSensitiveWordDao()
--- a/web/service/public_sentiment_comment_service.py
+++ b/web/service/public_sentiment_comment_service.py
@ -0,0 +1,31 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from web.manager.log_manager import LogManager
+from web.service.base_service import BaseService
+
+Logger = LogManager.get_logger(__name__)
+
+
+class PublicSentimentCommentService(BaseService):
+    """
+    PublicSentimentComment的service类
+    """
+
+    def save(self, public_sentiment_comment):
+        """
+        保存
+        """
+
+        Logger.info('保存PublicSentimentComment对象')
+
+        self.public_sentiment_comment_dao.save(public_sentiment_comment)
+
+    def find_all(self):
+        """
+        查询所有记录
+        """
+
+        Logger.info('查询所有记录')
+
+        return self.public_sentiment_comment_dao.find_list(dict(), dict(), list())
--- a/web/service/training_sensitive_word_service.py
+++ b/web/service/training_sensitive_word_service.py
@ -0,0 +1,24 @@
+#!/usr/bin/env python查询所有记录
+# -*- coding: utf-8 -*-
+from web.dto.service_result import ServiceResult
+from web.enum.service_result_enum import ServiceResultEnum
+from web.manager.log_manager import LogManager
+from web.service.base_service import BaseService
+
+Logger = LogManager.get_logger(__name__)
+
+
+class TrainingSensitiveWordService(BaseService):
+    """
+    TrainingSensitiveWord的service类
+    """
+
+    def find_all(self):
+        """
+        查询所有记录
+        """
+
+        Logger.info('查询所有记录')
+
+        return ServiceResult.ok(ServiceResultEnum.SELECT_SUCCESS, self.training_sensitive_word_dao.find_all(),
+                                ServiceResultEnum.SELECT_SUCCESS_DESCRIPTION)
--- a/web/spider/init.py
+++ b/web/spider/init.py
--- a/web/spider/base_spider.py
+++ b/web/spider/base_spider.py
@ -0,0 +1,13 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from web.service.training_sensitive_word_service import TrainingSensitiveWordService
+
+
+class BaseSpider:
+    """
+    Spider层的基类
+    """
+
+    def __init__(self):
+        self.training_sensitive_word_service = TrainingSensitiveWordService()
--- a/web/task/init.py
+++ b/web/task/init.py
--- a/web/task/base_task.py
+++ b/web/task/base_task.py
@ -0,0 +1,14 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+
+"""
+task基类
+"""
+from web.handler.crawl_data_handler import CrawlDataHandler
+
+
+class BaseTask:
+
+    def __init__(self):
+        self.crawl_data_handler = CrawlDataHandler()
--- a/web/task/crawl_data_task.py
+++ b/web/task/crawl_data_task.py
@ -0,0 +1,23 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from web.manager.log_manager import LogManager
+from web.task.base_task import BaseTask
+
+Logger = LogManager.get_logger(__name__)
+
+"""
+添加注释
+"""
+
+
+class CrawlDataTask(BaseTask):
+
+    def collect_data_from_weibo(self):
+        """
+        从新浪微博采集数据
+        """
+
+        Logger.info("开始从新浪微博采集数据")
+
+        self.crawl_data_handler.collect_data_from_weibo()
--- a/web/tests.py
+++ b/web/tests.py
@ -0,0 +1,3 @@
+from django.test import TestCase
+
+# Create your tests here.
--- a/web/util/init.py
+++ b/web/util/init.py
--- a/web/util/dto_util.py
+++ b/web/util/dto_util.py
@ -0,0 +1,19 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+from web.dto.api_result import ApiResult
+from web.dto.service_result import ServiceResult
+
+
+class DtoUtil:
+    """
+    dto的工具类
+    """
+
+    @staticmethod
+    def service_result_to_api_result(service_result: ServiceResult) -> ApiResult:
+        """
+        将ServiceResult对象转换为ApiResult对象
+        """
+
+        return ApiResult.instance(service_result.success, service_result.code, service_result.data,
+                                  service_result.message)
--- a/web/util/re_util.py
+++ b/web/util/re_util.py
@ -0,0 +1,19 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from bs4 import BeautifulSoup
+
+
+class ReUtil:
+    """
+    正则表达式的工具类
+    """
+
+    @staticmethod
+    def clear_html(text_with_html):
+        """
+        清除html
+        """
+
+        soup = BeautifulSoup(text_with_html, 'html.parser')
+        return soup.get_text()
--- a/web/views.py
+++ b/web/views.py
@ -0,0 +1,2 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
--- a/web/vo/init.py
+++ b/web/vo/init.py
--- a/web/vo/parse_html_vo.py
+++ b/web/vo/parse_html_vo.py
@ -0,0 +1,13 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+from pydantic import BaseModel
+
+
+class ParseHtmlVo(BaseModel):
+    """
+    解析html的vo类
+    """
+
+    # 地址
+    url: str
				`@ -0,0 +1 @@`
				`C:\mywork\dev-env\python\Python38\python.exe C:\mywork\workspace\public_sentiment\manage.py runserver 9000`